[Paper] 超越记忆:多模态序回归基准,揭示视觉语言模型中的流行度偏差

发布: (2025年12月25日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.21337v1

概述

一项新研究揭示了当今领先的视觉‑语言模型(VLM)中隐藏的“流行度偏差”。通过在大量建筑照片上进行训练,作者展示了这些模型在预测著名地标的建造年份时,比普通结构的准确率高出 34 %——这表明模型更依赖记忆的事实而非真正的视觉推理。为了使这种偏差可度量,研究人员构建了 YearGuessr,这是针对建筑图像的多模态序数回归的最大开放基准。

关键贡献

  • YearGuessr 数据集:包含 55,546 张来自 157 个国家的建筑图片,每张图片都标注了连续的建造年份(1001‑2024)、GPS 坐标以及页面浏览量(作为受欢迎程度的代理)。
  • 考虑流行度的评估:引入了区间准确率指标,显式地将项目的流行度纳入计算,从而实现定量的偏差分析。
  • 序数回归框架:将年份预测视为序数回归问题,相比传统分类更好地尊重时间的有序性。
  • 全面基准测试:在新数据集上评估了 30 多种最先进的 VLM(包括 CLIP、BLIP 以及作者提出的 YearCLIP)。
  • 记忆化的实证证据:证明 VLM 在“热门”(高页面浏览量)建筑上可实现高达 34 % 的准确率提升,确认了对记忆内容的系统性偏差。

方法论

  1. Data collection – Images were scraped from public sources (e.g., Wikipedia, OpenStreetMap) and paired with structured metadata: construction year, latitude/longitude, and Wikipedia page‑view statistics.
  2. Label design – Construction year is treated as a continuous ordinal label; the task is to predict the correct year interval rather than a discrete class.
  3. Model adaptation – Existing VLMs were fine‑tuned on YearGuessr using a pairwise ranking loss that respects ordinal ordering (e.g., “older than” vs. “newer than”). The authors also introduced YearCLIP, a CLIP‑style encoder‑decoder that directly outputs a year estimate.
  4. Bias metrics – Two new metrics were defined:
    • Popularity‑Weighted Interval Accuracy (PWIA) – measures accuracy while weighting each sample by its page‑view count.
    • Popularity Gap (PG) – the absolute difference in PWIA between high‑popularity and low‑popularity subsets.
  5. Evaluation protocol – Models were tested on a held‑out split, and results were stratified by popularity quartiles to surface the bias.

结果与发现

模型整体区间准确率高人气准确率低人气准确率人气差距
CLIP‑ViT‑B/3262.1 %71.4 %53.2 %18.2 %
BLIP‑Large64.8 %73.9 %55.7 %18.2 %
YearCLIP (proposed)68.3 %77.5 %59.1 %18.4 %
Random baseline33.3 %33.3 %33.3 %0 %
  • 所有视觉语言模型(VLM)均优于随机基线,但在低人气建筑上始终落后
  • 人气差距(18‑19 %)在统计上显著 (p < 0.001),这表明模型并未学习稳健的视觉‑时间映射,而是依赖于记忆的高流量示例。
  • YearCLIP 缩小了整体误差幅度,但并未消除偏差,说明仅靠特定架构的微调不足以解决问题。

Practical Implications

  • 产品可靠性:依赖 VLM 进行历史年代判定的应用(例如遗产保护工具、房地产估价、AR 旅游指南)可能对不太知名的建筑产生 系统性偏差的结果
  • 数据集策划:工程师应警惕过度代表热门实体的训练流水线;通过按流行度平衡数据集可以减轻记忆效应。
  • 模型审计:本文引入的 PWIA 和 PG 指标为在多模态环境中部署的任何 VLM 提供 即插即用的审计,帮助团队在发布前发现隐藏偏见。
  • 微调策略:加入 对比序损失流行度感知采样 可以提升对低代表性类别的泛化能力。
  • 监管合规:在文化遗产领域使用的 AI 系统,展示偏见缓解措施可能成为合规要求,尤其是在强调 AI 公平性的司法管辖区。

限制与未来工作

  • 人气代理 – 页面浏览量能够捕捉线上关注度,但可能无法完全反映现实世界的知名度;可以探索其他信号(如游客流量、引用次数)。
  • 地理覆盖 – 虽然涵盖了 157 个国家,但数据集仍偏向数字文献更丰富的地区(例如欧洲、北美)。
  • 时间粒度 – 模型仅预测单一年份;许多历史建筑经历了分阶段的建造或翻修,单一标签难以完整描述。
  • 模型范围 – 基准聚焦于 VLM(视觉语言模型);将分析扩展到纯视觉模型或采用不同预训练方案的多模态 Transformer 将有助于拓宽洞见。
  • 偏差缓解 – 未来工作应测试 对抗性去偏课程学习合成数据增强,以降低对人气线索的依赖。

如果你正在构建能够解释视觉内容的 AI 产品,YearGuessr 基准以及作者提出的偏差度量值得关注。它们提供了一种具体方式来检验你的模型是否真正“理解”图像——还是仅仅在背诵最常被搜索的事实。

作者

  • Li‑Zhong Szu‑Tu
  • Ting‑Lin Wu
  • Chia‑Jui Chang
  • He Syu
  • Yu‑Lun Liu

论文信息

  • arXiv ID: 2512.21337v1
  • 类别: cs.CV
  • 发布时间: 2025年12月24日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 流媒体视频指令微调

我们提出了 Streamo,这是一种实时流式视频 LLM,充当通用交互式助手。与现有专注于狭窄场景的在线视频模型不同……