从任意文本提示检测图像中的对象(非固定类别)

发布: (2026年1月16日 GMT+8 03:40)
3 min read
原文: Dev.to

Source: Dev.to

背景

大多数目标检测系统假设标签集合是固定的:你在 COCO、Open Images 或自定义数据集上训练模型,随后只能检测你训练时使用的类别。

基于提示的目标检测

我一直在探索一种不同的方法:基于提示的目标检测,其输入为

  1. 一张图片
  2. 一个自由形式的自然语言提示

输出是一组与提示匹配的定位检测,即使该概念并非单一预定义的对象类别。

我构建的工具支持 复杂的组合式提示,不仅仅是简单的对象名称。这些提示可以结合属性、关系、文本以及世界知识——这些内容往往无法直接映射到标准检测器的类别上。

它不适合的场景

  • 非常小的物体
  • 模糊、几乎不可见的物体
  • 开箱即用的高密度实时检测

它在需要推理和世界知识的概念上表现更好,而不是在微小目标的像素级精度上。

动机

迄今为止的主要动机是 为高度特定的检测器创建训练数据。与其为每个小众概念手动标注或训练新检测器,这种方法可以用于:

  • 启动数据集
  • 探索某个概念是否可学习
  • 在投入完整训练流水线前验证提示

演示

我已将该工具公开为演示版:

Detect Anything – Free AI Object Detection Online

  • 无需登录。
  • 图像仅临时处理,不会被存储。
  • (请勿滥用;推理成本相对较高。)

未解问题

我特别感兴趣的是:

  • 大家看到的实际应用场景
  • 压力测试和失败模式
  • 与特定任务检测器相比,这种方法会失效的情形

如果你曾使用过 grounding、指代表达理解或基于提示的视觉模型,欢迎分享你的想法。

Back to Blog

相关文章

阅读更多 »

Rapg:基于 TUI 的密钥管理器

我们都有这种经历。你加入一个新项目,首先听到的就是:“在 Slack 的置顶消息里查找 .env 文件”。或者你有多个 .env …

技术是赋能者,而非救世主

为什么思考的清晰度比你使用的工具更重要。Technology 常被视为一种魔法开关——只要打开,它就能让一切改善。新的 software,...

踏入 agentic coding

使用 Copilot Agent 的经验 我主要使用 GitHub Copilot 进行 inline edits 和 PR reviews,让我的大脑完成大部分思考。最近我决定 t...