[Paper] 超越记忆：多模态序回归基准，揭示视觉语言模型中的流行度偏差

发布: 1个月前 (2025年12月25日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.21337v1

概述

一项新研究揭示了当今领先的视觉‑语言模型（VLM）中隐藏的“流行度偏差”。通过在大量建筑照片上进行训练，作者展示了这些模型在预测著名地标的建造年份时，比普通结构的准确率高出 34 %——这表明模型更依赖记忆的事实而非真正的视觉推理。为了使这种偏差可度量，研究人员构建了 YearGuessr，这是针对建筑图像的多模态序数回归的最大开放基准。

关键贡献

YearGuessr 数据集：包含 55,546 张来自 157 个国家的建筑图片，每张图片都标注了连续的建造年份（1001‑2024）、GPS 坐标以及页面浏览量（作为受欢迎程度的代理）。
考虑流行度的评估：引入了区间准确率指标，显式地将项目的流行度纳入计算，从而实现定量的偏差分析。
序数回归框架：将年份预测视为序数回归问题，相比传统分类更好地尊重时间的有序性。
全面基准测试：在新数据集上评估了 30 多种最先进的 VLM（包括 CLIP、BLIP 以及作者提出的 YearCLIP）。
记忆化的实证证据：证明 VLM 在“热门”（高页面浏览量）建筑上可实现高达 34 % 的准确率提升，确认了对记忆内容的系统性偏差。

方法论

Data collection – Images were scraped from public sources (e.g., Wikipedia, OpenStreetMap) and paired with structured metadata: construction year, latitude/longitude, and Wikipedia page‑view statistics.
Label design – Construction year is treated as a continuous ordinal label; the task is to predict the correct year interval rather than a discrete class.
Model adaptation – Existing VLMs were fine‑tuned on YearGuessr using a pairwise ranking loss that respects ordinal ordering (e.g., “older than” vs. “newer than”). The authors also introduced YearCLIP, a CLIP‑style encoder‑decoder that directly outputs a year estimate.
Bias metrics – Two new metrics were defined:
- Popularity‑Weighted Interval Accuracy (PWIA) – measures accuracy while weighting each sample by its page‑view count.
- Popularity Gap (PG) – the absolute difference in PWIA between high‑popularity and low‑popularity subsets.
Evaluation protocol – Models were tested on a held‑out split, and results were stratified by popularity quartiles to surface the bias.

结果与发现

模型	整体区间准确率	高人气准确率	低人气准确率	人气差距
CLIP‑ViT‑B/32	62.1 %	71.4 %	53.2 %	18.2 %
BLIP‑Large	64.8 %	73.9 %	55.7 %	18.2 %
YearCLIP (proposed)	68.3 %	77.5 %	59.1 %	18.4 %
Random baseline	33.3 %	33.3 %	33.3 %	0 %

所有视觉语言模型（VLM）均优于随机基线，但在低人气建筑上始终落后。
人气差距（18‑19 %）在统计上显著 (p < 0.001)，这表明模型并未学习稳健的视觉‑时间映射，而是依赖于记忆的高流量示例。
YearCLIP 缩小了整体误差幅度，但并未消除偏差，说明仅靠特定架构的微调不足以解决问题。

Practical Implications

产品可靠性：依赖 VLM 进行历史年代判定的应用（例如遗产保护工具、房地产估价、AR 旅游指南）可能对不太知名的建筑产生 系统性偏差的结果。
数据集策划：工程师应警惕过度代表热门实体的训练流水线；通过按流行度平衡数据集可以减轻记忆效应。
模型审计：本文引入的 PWIA 和 PG 指标为在多模态环境中部署的任何 VLM 提供 即插即用的审计，帮助团队在发布前发现隐藏偏见。
微调策略：加入 对比序损失 和 流行度感知采样 可以提升对低代表性类别的泛化能力。
监管合规：在文化遗产领域使用的 AI 系统，展示偏见缓解措施可能成为合规要求，尤其是在强调 AI 公平性的司法管辖区。

限制与未来工作

人气代理 – 页面浏览量能够捕捉线上关注度，但可能无法完全反映现实世界的知名度；可以探索其他信号（如游客流量、引用次数）。
地理覆盖 – 虽然涵盖了 157 个国家，但数据集仍偏向数字文献更丰富的地区（例如欧洲、北美）。
时间粒度 – 模型仅预测单一年份；许多历史建筑经历了分阶段的建造或翻修，单一标签难以完整描述。
模型范围 – 基准聚焦于 VLM（视觉语言模型）；将分析扩展到纯视觉模型或采用不同预训练方案的多模态 Transformer 将有助于拓宽洞见。
偏差缓解 – 未来工作应测试 对抗性去偏、课程学习 与 合成数据增强，以降低对人气线索的依赖。

如果你正在构建能够解释视觉内容的 AI 产品，YearGuessr 基准以及作者提出的偏差度量值得关注。它们提供了一种具体方式来检验你的模型是否真正“理解”图像——还是仅仅在背诵最常被搜索的事实。

作者

Li‑Zhong Szu‑Tu
Ting‑Lin Wu
Chia‑Jui Chang
He Syu
Yu‑Lun Liu

论文信息

arXiv ID: 2512.21337v1
类别: cs.CV
发布时间: 2025年12月24日
PDF: 下载 PDF

[Paper] 超越记忆：多模态序回归基准，揭示视觉语言模型中的流行度偏差

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 少看，准看：双向感知塑形用于多模态推理

[Paper] ProEdit：基于反演的编辑，从 Prompt 正确实现

[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

[Paper] Yume-1.5：文本控制的交互式世界生成模型