Skip to content

关于grounding目标检测任务的一些问题请教 #504

@ExploreUniverser

Description

@ExploreUniverser

问题1:你们做目标检测训练时,是否只使用了文本相关loss进行训练,而没有视觉相关loss?

问题2:多类别多框的训练样本是否应该这么写:

<ref>dog</ref><box>(1,2),(3,4)</box><box>(5,6),(7,8)</box>,<ref>cat</ref><box>(2,4),(6,8)</box><box>(3,5),(7,9)</box>

问题3:传统目标检测中,会按照1:3配比训练正负样本,请问qwen训练时,负样本怎么写?是否可以类似:

<ref>dog</ref><box>(1,2),(3,4)</box><box>(5,6),(7,8)</box>,<ref>cat</ref><box>(),()</box>

问题4:垂域中的事物有时候定义或者描述复杂,仅仅使用几个字难以概括,是否可以使用两轮对话形式进行训练,即第一轮说明事件名称下的精确定义,第二轮标出坐标框。在模型使用时,只需要问事件名称就行。

"conversations": [
      {
        "from": "user",
        "value": "在xxx场景中,以下事件的定义是什么?请使用json格式回答:\n<ref>事件a</ref>\n<ref>事件b</ref>"
      },
      {
        "from": "assistant",
        "value": "{'事件a': '事件a的定义或描述', '事件b': '事件b的定义或描述'}"
      },
      {
        "from": "user",
        "value": "Picture 1: <img>img_path</img>\n请框出以下事件:<ref>事件a</ref>"
      },
      {
        "from": "assistant",
        "value": "<ref>事件a</ref><box>(588,499),(725,789)</box>"
      }
    ]

问题5我使用Internvl按照上述方式训练测试过效果并不理想个人想问一下目前qwenVL系列是否有在目标检测语义分割等传统cv任务上设计一些提高模型输出稳定性与准确性的技巧例如目标检测训练时针对视觉模块同步使用iou作为loss训练或者使用设定更严格的方式进行问答不简单说"框出图中的格子衬衫"而是类似框出图中的<ref>格子衬衫</ref>”)。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions