[Paper] UNBOX：使用自然语言揭示黑箱视觉模型

发布: 17小时前 (2026年3月10日 GMT+8 01:16)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.08639v1

概览

该论文 UNBOX 解决了一个紧迫的问题：如何解释仅以黑盒 API 形式提供的现代视觉模型（例如返回类别概率但隐藏网络结构、权重和训练数据的云服务）。通过将经典的 “激活最大化” 任务转化为由大型语言模型（LLM）和文本到图像扩散模型驱动的语义搜索，UNBOX 能够呈现每个类别对模型 “意义” 的可读描述——而无需查看模型内部或其训练集。

关键贡献

完全黑盒可解释性框架 – 仅使用输出概率；不需要梯度、参数或训练数据。
语义激活最大化 – 利用大型语言模型生成候选文本概念，并使用扩散模型评估它们对目标类别的触发程度。
类别级文本描述符 – 生成简洁的自然语言解释（例如 “一只鸟停在枝头，腹部为白色”），揭示模型的隐含概念和偏差。
全面评估 – 在 ImageNet‑1K、Waterbirds 和 CelebA 上的测试显示，在忠实度、特征相关性和偏差切片发现方面，与白盒基线相比具有竞争力的表现。
开放世界审计工具 – 演示开发者可以在不具备特权访问的情况下，对专有视觉 API 进行公平性和鲁棒性审计。

方法论

使用大型语言模型生成提示
- 对于每个目标类别（例如 “sparrow”），让大型语言模型生成一组多样的文本短语，这些短语可以描述与该类别相关的视觉概念。
- 使用简单的相似度度量对提示进行相关性和多样性过滤。
通过扩散模型进行语义打分
- 将每个生成的短语输入文本到图像的扩散模型（例如 Stable Diffusion），合成一组匹配该描述的图像。
- 然后在这些合成图像上查询黑箱视觉模型；该类别的概率作为该短语的 语义激活分数。
将优化视为搜索问题
- 流程迭代进行：对高分短语进行扩展（例如添加形容词或组合元素）并重新评估，实质上在自然语言空间中执行无梯度的爬坡搜索。
- 每个类别的最终输出是产生最高激活的短语（或短列表）。
审计与偏差检测
- 通过检查各类别的顶部短语，作者能够识别系统性偏差（例如 “waterbird” 类别过度关联 “lake” 而非 “forest”）以及隐藏的训练分布线索。

结果与发现

数据集	指标	UNBOX 与白盒基线对比
ImageNet‑1K	语义保真度（人工评分）	0.78 vs. 0.81 (Grad‑CAM)
Waterbirds	偏差切片发现（精度）	0.71 vs. 0.73 (TCAV)
CelebA	特征相关性（R²）	0.64 vs. 0.66 (Network Dissection)

竞争性能：尽管没有任何内部访问，UNBOX 的文本描述仍能实现接近最新水平的保真度。
可解释性：人工评估者发现 UNBOX 的短语比原始激活图更直观。
偏差揭示：在 Waterbirds 数据集上，UNBOX 自动发现了模型依赖的“背景水域 vs. 陆地”线索，且与白盒方法的洞察相匹配。

Practical Implications

API Auditing: Companies that consume third‑party vision services (e.g., content moderation, medical imaging) can now run a quick “concept audit” to verify that the model isn’t unintentionally focusing on protected attributes.
Model Documentation: Developers can generate natural‑language model cards that list the most salient concepts per class, improving transparency for end‑users and regulators.
Rapid Prototyping: When evaluating off‑the‑shelf models, engineers can use UNBOX to compare how different providers encode the same class (e.g., “cat”) without needing to download the weights.
Bias Mitigation Pipelines: Detected bias‑related phrases can feed into data‑collection or fine‑tuning loops, guiding the acquisition of more balanced training data.

限制与未来工作

对 LLM 与扩散质量的依赖 – 生成的提示不佳或低保真图像合成可能误导激活分数，尤其是对细粒度或抽象类别。
可扩展性 – 对文本空间的搜索是迭代的，对拥有数千类的模型可能变得昂贵。
领域偏移 – 该方法假设扩散模型的视觉先验与黑盒模型的训练分布保持一致；大幅度的领域差距（例如医学影像）可能降低相关性。
作者提出的未来方向 包括：整合多模态 LLM 以减少扩散调用次数，将方法扩展到视频模型，以及形式化隐私保证（确保探测过程不会无意泄露专有模型行为）。

作者

Simone Carnemolla
Chiara Russo
Simone Palazzo
Quentin Bouniot
Daniela Giordano
Zeynep Akata
Matteo Pennisi
Concetto Spampinato

论文信息

arXiv ID: 2603.08639v1
分类: cs.CV, cs.AI
发表日期: 2026年3月9日
PDF: 下载 PDF

[Paper] UNBOX：使用自然语言揭示黑箱视觉模型

概览

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 尺度空间扩散

[Paper] 检索增强的 Gaussian Avatars：提升表情泛化

[Paper] Impermanent：实时基准用于时间序列预测中的时间泛化

[Paper] HiAR：通过层次去噪实现高效自回归长视频生成