[Paper] UNBOX:使用自然语言揭示黑箱视觉模型

发布: (2026年3月10日 GMT+8 01:16)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.08639v1

概览

该论文 UNBOX 解决了一个紧迫的问题:如何解释仅以黑盒 API 形式提供的现代视觉模型(例如返回类别概率但隐藏网络结构、权重和训练数据的云服务)。通过将经典的 “激活最大化” 任务转化为由大型语言模型(LLM)和文本到图像扩散模型驱动的语义搜索,UNBOX 能够呈现每个类别对模型 “意义” 的可读描述——而无需查看模型内部或其训练集。

关键贡献

  • 完全黑盒可解释性框架 – 仅使用输出概率;不需要梯度、参数或训练数据。
  • 语义激活最大化 – 利用大型语言模型生成候选文本概念,并使用扩散模型评估它们对目标类别的触发程度。
  • 类别级文本描述符 – 生成简洁的自然语言解释(例如 “一只鸟停在枝头,腹部为白色”),揭示模型的隐含概念和偏差。
  • 全面评估 – 在 ImageNet‑1K、Waterbirds 和 CelebA 上的测试显示,在忠实度、特征相关性和偏差切片发现方面,与白盒基线相比具有竞争力的表现。
  • 开放世界审计工具 – 演示开发者可以在不具备特权访问的情况下,对专有视觉 API 进行公平性和鲁棒性审计。

方法论

  1. 使用大型语言模型生成提示

    • 对于每个目标类别(例如 “sparrow”),让大型语言模型生成一组多样的文本短语,这些短语可以描述与该类别相关的视觉概念。
    • 使用简单的相似度度量对提示进行相关性和多样性过滤。
  2. 通过扩散模型进行语义打分

    • 将每个生成的短语输入文本到图像的扩散模型(例如 Stable Diffusion),合成一组匹配该描述的图像。
    • 然后在这些合成图像上查询黑箱视觉模型;该类别的概率作为该短语的 语义激活分数
  3. 将优化视为搜索问题

    • 流程迭代进行:对高分短语进行扩展(例如添加形容词或组合元素)并重新评估,实质上在自然语言空间中执行无梯度的爬坡搜索。
    • 每个类别的最终输出是产生最高激活的短语(或短列表)。
  4. 审计与偏差检测

    • 通过检查各类别的顶部短语,作者能够识别系统性偏差(例如 “waterbird” 类别过度关联 “lake” 而非 “forest”)以及隐藏的训练分布线索。

结果与发现

数据集指标UNBOX 与 白盒基线 对比
ImageNet‑1K语义保真度(人工评分)0.78 vs. 0.81 (Grad‑CAM)
Waterbirds偏差切片发现(精度)0.71 vs. 0.73 (TCAV)
CelebA特征相关性(R²)0.64 vs. 0.66 (Network Dissection)
  • 竞争性能:尽管没有任何内部访问,UNBOX 的文本描述仍能实现接近最新水平的保真度。
  • 可解释性:人工评估者发现 UNBOX 的短语比原始激活图更直观。
  • 偏差揭示:在 Waterbirds 数据集上,UNBOX 自动发现了模型依赖的“背景水域 vs. 陆地”线索,且与白盒方法的洞察相匹配。

Practical Implications

  • API Auditing: Companies that consume third‑party vision services (e.g., content moderation, medical imaging) can now run a quick “concept audit” to verify that the model isn’t unintentionally focusing on protected attributes.
  • Model Documentation: Developers can generate natural‑language model cards that list the most salient concepts per class, improving transparency for end‑users and regulators.
  • Rapid Prototyping: When evaluating off‑the‑shelf models, engineers can use UNBOX to compare how different providers encode the same class (e.g., “cat”) without needing to download the weights.
  • Bias Mitigation Pipelines: Detected bias‑related phrases can feed into data‑collection or fine‑tuning loops, guiding the acquisition of more balanced training data.

限制与未来工作

  • 对 LLM 与扩散质量的依赖 – 生成的提示不佳或低保真图像合成可能误导激活分数,尤其是对细粒度或抽象类别。
  • 可扩展性 – 对文本空间的搜索是迭代的,对拥有数千类的模型可能变得昂贵。
  • 领域偏移 – 该方法假设扩散模型的视觉先验与黑盒模型的训练分布保持一致;大幅度的领域差距(例如医学影像)可能降低相关性。
  • 作者提出的未来方向 包括:整合多模态 LLM 以减少扩散调用次数,将方法扩展到视频模型,以及形式化隐私保证(确保探测过程不会无意泄露专有模型行为)。

作者

  • Simone Carnemolla
  • Chiara Russo
  • Simone Palazzo
  • Quentin Bouniot
  • Daniela Giordano
  • Zeynep Akata
  • Matteo Pennisi
  • Concetto Spampinato

论文信息

  • arXiv ID: 2603.08639v1
  • 分类: cs.CV, cs.AI
  • 发表日期: 2026年3月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 尺度空间扩散

Diffusion models 通过噪声降解图像,逆转该过程揭示了跨时间步的信息层次结构。Scale-space theory 展示了类似……