-
Notifications
You must be signed in to change notification settings - Fork 15
Open
Description
你好,我有个问题想请教一下:
1、SciDPR是采用DPR作为检索器,我看了下facebook DPR的github(https://github.com/facebookresearch/DPR),里面介绍DPR的训练数据格式为
[
{
"question": "....",
"answers": ["...", "...", "..."],
"positive_ctxs": [{
"title": "...",
"text": "...."
}],
"negative_ctxs": ["..."],
"hard_negative_ctxs": ["..."]
},
...
]
而scidpr用的数据集为qasper,数据集格式与facebook给定格式不一样,请问是代码中对qasper做处理了嘛,处理后的格式是什么样的,和facebook格式一致吗?
2、scidpr中的train.py脚本中提到了wikitext103数据集,我看了下您给的wikitext103数据集地址(https://huggingface.co/datasets/DataHammer/scimrc),发现这个数据集格式为
{
"question": "",
"answer": "",
"evidence": "",
"yes_no": false
}
这个数据集格式和qasper数据集格式也不一样,所以scidpr用到的训练数据集格式是什么样的,有没有做相应后处理呢
Metadata
Metadata
Assignees
Labels
No labels