[Paper] CURVE:文化与多语言长视频推理基准

发布: (2026年1月16日 GMT+8 02:15)
7 min read
原文: arXiv

抱歉,我需要您提供要翻译的具体文本内容。请把您想要翻译的段落或文档粘贴在这里,我会按照要求进行翻译并保留原始的格式。

概述

本文介绍了 CURVE,一个新的基准,用于推动视频理解模型对长篇、文化多样且多语言的视频进行推理。通过超越以往以西方为中心、仅限英语的数据集,CURVE 揭示了当前 Video‑LLMs 在处理与特定文化和语言相关的真实世界视觉线索时的表现。

关键贡献

  • 多文化、多语言基准 – 18个全球地区,每个地区都有母语视频片段、问题、答案以及多步骤推理轨迹。
  • 人工生成的标注 – 所有内容(包括翻译)均由母语者创建,避免了自动翻译流水线的噪声。
  • 基于证据的推理图 – 作者将提供的推理步骤转换为结构化图,可用于精准定位模型推理出错的环节。
  • 迭代错误分析策略 – 一种新颖方法,利用推理图来分离细粒度的感知和推理失误。
  • 全面评估 – 对最先进的视频大语言模型进行基准测试,揭示出与人类表现之间的巨大差距,并指出文化感知是最大的瓶颈。

方法论

  1. 数据收集 – 各地区的策展人本地获取相关的长篇视频(例如,节日、体育、日常生活)。
  2. 标注流程 – 母语者编写复杂的多跳问题,要求理解视觉上下文、文化习俗和语言细微差别。每个问题还提供逐步推理链和最终答案,全部使用原语言。
  3. 图构建 – 将每条推理链转换为有向图,节点代表视觉或文本实体,边捕捉逻辑依赖(例如,“舞者的服装 → 表示传统仪式”)。
  4. 迭代评估 – 模型首先生成答案和推理轨迹。将轨迹与真实图对齐;不匹配的部分追溯到具体节点,从而报告错误是由于视觉感知、语言理解还是逻辑推理导致的。

该流程故意保持足够简洁,便于开发者使用自己的视频数据进行复现或扩展。

结果与发现

ModelAvg. Accuracy (English)Avg. Accuracy (Native)Human Baseline
Flamingo‑Video‑LLM38 %31 %92 %
InternVideo‑Chat42 %35 %92 %
GPT‑4‑Vision (zero‑shot)45 %38 %92 %
  • 本土语言表现下降:所有模型在使用视频原始语言回答时均下降约 7‑10 %,这表明多语言语义对齐是一个重大挑战。
  • 错误分类:通过推理图分析,约 60 % 的失败来源于误识别文化视觉线索(例如传统服饰、地区食物),约 25 % 来自语言解析,剩余约 15 % 来自逻辑链条。
  • 人与模型的差距:即使是最强的 Video‑LLM 也比人工标注者低超过 50 %,说明当前架构缺乏深层的文化情境感知能力。

实际意义

  • 全球产品本地化 – 构建基于视频的助手、内容审核工具或推荐引擎的公司可以使用 CURVE 来审计其模型是否真正理解地区特定内容,从而降低用户体验中的文化偏见。
  • 多语言视频搜索 – 索引长视频(如讲座录音、文化纪录片)的搜索引擎可以使用 CURVE 的母语查询对跨语言检索管道进行基准测试和改进。
  • 安全与合规 – 自动化审核系统可以在文化敏感场景(例如宗教仪式)上进行评估,以避免因误识别文化符号而产生的误报/漏报。
  • 模型调试 – 证据图框架为工程师提供了一种具体方式,将错误答案追溯到特定的视觉感知错误,从而实现有针对性的数据增强(例如,添加更多特定传统服饰的示例)。

总体而言,CURVE 为任何将在全球部署的视频‑AI 产品提供了真实的“压力测试”。

限制与未来工作

  • 地区范围 – 虽然 18 个地区覆盖了广泛的范围,但仍有许多语言和子文化未被代表(例如,土著群体、低资源语言)。
  • 静态标注风格 – 推理步骤是手工制作的;未来工作可以探索众包或模型生成的追踪,以提升多样性。
  • 模型中心关注 – 基准测试评估现有的 Video‑LLM,但未提出架构改动;将工作扩展到融合文化先验(例如,知识图谱)是一个开放方向。
  • 可扩展性 – 筛选高质量的多语言长视频需要大量人力;在保持标注忠实度的前提下自动化流程的部分环节是有前景的研究方向。

通过弥补这些不足,社区可以迈向真正通用的视频理解系统,尊重并体现世界的文化丰富性。

作者

  • Darshan Singh
  • Arsha Nagrani
  • Kawshik Manikantan
  • Harman Singh
  • Dinesh Tewari
  • Tobias Weyand
  • Cordelia Schmid
  • Anelia Angelova
  • Shachi Dave

论文信息

  • arXiv ID: 2601.10649v1
  • 类别: cs.CV
  • 发表时间: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »