关于grounding目标检测任务的一些问题请教

问题1：你们做目标检测训练时，是否只使用了文本相关loss进行训练，而没有视觉相关loss？

问题2：多类别多框的训练样本是否应该这么写：
```python
<ref>dog</ref><box>(1,2),(3,4)</box><box>(5,6),(7,8)</box>,<ref>cat</ref><box>(2,4),(6,8)</box><box>(3,5),(7,9)</box>
```

问题3：传统目标检测中，会按照1:3配比训练正负样本，请问qwen训练时，负样本怎么写？是否可以类似：
```python
<ref>dog</ref><box>(1,2),(3,4)</box><box>(5,6),(7,8)</box>,<ref>cat</ref><box>(),()</box>
```
问题4：垂域中的事物有时候定义或者描述复杂，仅仅使用几个字难以概括，是否可以使用两轮对话形式进行训练，即第一轮说明事件名称下的精确定义，第二轮标出坐标框。在模型使用时，只需要问事件名称就行。
```python
"conversations": [
      {
        "from": "user",
        "value": "在xxx场景中，以下事件的定义是什么？请使用json格式回答：\n<ref>事件a</ref>\n<ref>事件b</ref>"
      },
      {
        "from": "assistant",
        "value": "{'事件a': '事件a的定义或描述', '事件b': '事件b的定义或描述'}"
      },
      {
        "from": "user",
        "value": "Picture 1: <img>img_path</img>\n请框出以下事件：<ref>事件a</ref>"
      },
      {
        "from": "assistant",
        "value": "<ref>事件a</ref><box>(588,499),(725,789)</box>"
      }
    ]

问题5：我使用Internvl按照上述方式训练测试过，效果并不理想，个人想问一下，目前qwenVL系列是否有在目标检测、语义分割等传统cv任务上设计一些提高模型输出稳定性与准确性的技巧？例如：目标检测训练时，针对视觉模块同步使用iou作为loss训练；或者使用设定更严格的方式进行问答（不简单说"框出图中的格子衬衫"，而是类似“框出图中的<ref>格子衬衫</ref>”）。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

关于grounding目标检测任务的一些问题请教 #504

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

关于grounding目标检测任务的一些问题请教 #504

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions