从任意文本提示检测图像中的对象(非固定类别)
发布: (2026年1月16日 GMT+8 03:40)
3 min read
原文: Dev.to
Source: Dev.to
背景
大多数目标检测系统假设标签集合是固定的:你在 COCO、Open Images 或自定义数据集上训练模型,随后只能检测你训练时使用的类别。
基于提示的目标检测
我一直在探索一种不同的方法:基于提示的目标检测,其输入为
- 一张图片
- 一个自由形式的自然语言提示
输出是一组与提示匹配的定位检测,即使该概念并非单一预定义的对象类别。
我构建的工具支持 复杂的组合式提示,不仅仅是简单的对象名称。这些提示可以结合属性、关系、文本以及世界知识——这些内容往往无法直接映射到标准检测器的类别上。
它不适合的场景
- 非常小的物体
- 模糊、几乎不可见的物体
- 开箱即用的高密度实时检测
它在需要推理和世界知识的概念上表现更好,而不是在微小目标的像素级精度上。
动机
迄今为止的主要动机是 为高度特定的检测器创建训练数据。与其为每个小众概念手动标注或训练新检测器,这种方法可以用于:
- 启动数据集
- 探索某个概念是否可学习
- 在投入完整训练流水线前验证提示
演示
我已将该工具公开为演示版:
Detect Anything – Free AI Object Detection Online
- 无需登录。
- 图像仅临时处理,不会被存储。
- (请勿滥用;推理成本相对较高。)
未解问题
我特别感兴趣的是:
- 大家看到的实际应用场景
- 压力测试和失败模式
- 与特定任务检测器相比,这种方法会失效的情形
如果你曾使用过 grounding、指代表达理解或基于提示的视觉模型,欢迎分享你的想法。