-
Notifications
You must be signed in to change notification settings - Fork 459
Open
Description
问题1:你们做目标检测训练时,是否只使用了文本相关loss进行训练,而没有视觉相关loss?
问题2:多类别多框的训练样本是否应该这么写:
<ref>dog</ref><box>(1,2),(3,4)</box><box>(5,6),(7,8)</box>,<ref>cat</ref><box>(2,4),(6,8)</box><box>(3,5),(7,9)</box>
问题3:传统目标检测中,会按照1:3配比训练正负样本,请问qwen训练时,负样本怎么写?是否可以类似:
<ref>dog</ref><box>(1,2),(3,4)</box><box>(5,6),(7,8)</box>,<ref>cat</ref><box>(),()</box>
问题4:垂域中的事物有时候定义或者描述复杂,仅仅使用几个字难以概括,是否可以使用两轮对话形式进行训练,即第一轮说明事件名称下的精确定义,第二轮标出坐标框。在模型使用时,只需要问事件名称就行。
"conversations": [
{
"from": "user",
"value": "在xxx场景中,以下事件的定义是什么?请使用json格式回答:\n<ref>事件a</ref>\n<ref>事件b</ref>"
},
{
"from": "assistant",
"value": "{'事件a': '事件a的定义或描述', '事件b': '事件b的定义或描述'}"
},
{
"from": "user",
"value": "Picture 1: <img>img_path</img>\n请框出以下事件:<ref>事件a</ref>"
},
{
"from": "assistant",
"value": "<ref>事件a</ref><box>(588,499),(725,789)</box>"
}
]
问题5:我使用Internvl按照上述方式训练测试过,效果并不理想,个人想问一下,目前qwenVL系列是否有在目标检测、语义分割等传统cv任务上设计一些提高模型输出稳定性与准确性的技巧?例如:目标检测训练时,针对视觉模块同步使用iou作为loss训练;或者使用设定更严格的方式进行问答(不简单说"框出图中的格子衬衫",而是类似“框出图中的<ref>格子衬衫</ref>”)。
Metadata
Metadata
Assignees
Labels
No labels