Skip to content

请教一下SciDPR训练数据集问题 #5

@XuHao777

Description

@XuHao777

你好,我有个问题想请教一下:
1、SciDPR是采用DPR作为检索器,我看了下facebook DPR的github(https://github.com/facebookresearch/DPR),里面介绍DPR的训练数据格式为
[
{
"question": "....",
"answers": ["...", "...", "..."],
"positive_ctxs": [{
"title": "...",
"text": "...."
}],
"negative_ctxs": ["..."],
"hard_negative_ctxs": ["..."]
},
...
]
而scidpr用的数据集为qasper,数据集格式与facebook给定格式不一样,请问是代码中对qasper做处理了嘛,处理后的格式是什么样的,和facebook格式一致吗?
2、scidpr中的train.py脚本中提到了wikitext103数据集,我看了下您给的wikitext103数据集地址(https://huggingface.co/datasets/DataHammer/scimrc),发现这个数据集格式为
{
"question": "",
"answer": "",
"evidence": "",
"yes_no": false
}
这个数据集格式和qasper数据集格式也不一样,所以scidpr用到的训练数据集格式是什么样的,有没有做相应后处理呢

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions