[Paper] SocialOmni：在 Omni 模型中的音视频社交互动基准测试

发布: 3天前 (2026年3月18日 GMT+8 01:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.16859v1

概述

本文介绍了 SocialOmni，这是首个基准，用于衡量全模态大语言模型（OLMs）在实时音视频对话中进行 社交互动 的能力。与仅关注静态感知或纯文本生成不同，SocialOmni 评估模型是否能够识别发言者、判断恰当的插入时机，并构造自然的打断——这些技能对于真正的对话式 AI 助手、虚拟会议主持人以及交互式代理至关重要。

关键贡献

一个三维交互基准，涵盖 (i) 说话人识别，(ii) 打断时机，和 (iii) 打断措辞。
2,000 个感知样本 + 209 个严格控制的交互生成实例，具有明确的时间和上下文约束。
视听不一致探针，故意使声音和视频不匹配，以测试模型对噪声真实世界输入的鲁棒性。
对 12 种最先进 OLM 的全面评估，揭示感知准确率与交互能力之间的巨大差距。
诊断性洞察表明，高感知分数并不保证社会上适当的打断，突显出新的“感知‑交互”鸿沟。
可操作的信号用于未来模型设计，建议如何弥合理解与交互行为之间的差距。

方法论

数据集构建
- 收集了多人物视频片段（例如会议、播客），并配有同步音频。
- 为每帧标注了说话者ID和自然停顿点的时间戳。
- 设计了209条“打断”提示，模型需决定何时插入以及说什么，并尊重当前对话的流畅性。
- 添加了“不一致”变体，即音频来源与可见说话者不匹配，迫使模型依赖跨模态推理。
基准任务
- 说话者分离与识别 – 分类任务：给定短音视频片段，输出当前活跃说话者的ID。
- 打断时机控制 – 回归/决策任务：预测实时流中最佳插入点（毫秒）。
- 自然打断生成 – 条件文本生成任务：生成在上下文相关、礼貌且时间对齐的发言。
评估协议
- 感知指标：准确率（说话者ID）和时序误差（毫秒）。
- 生成指标：BLEU/ROUGE衡量词汇重叠，外加人工评分的社交适切性和流畅度。
- 使用不一致集合进行鲁棒性检查，观察模型是否能检测并纠正不匹配的线索。
模型套件
- 测试了12个公开可用的多模态语言模型（如GPT‑4V、LLaVA、Gemini‑Pro Vision），采用零样本提示，同时在可能的情况下也测试了少量微调变体。

结果与发现

维度	最佳感知得分	最佳交互得分
说话人身份准确率	94%（模型 A）	68%（模型 B）
时序误差（平均）	120 ms（模型 C）	350 ms（模型 D）
打断适当性（人工评分，5‑pt）	4.2（模型 E）	2.8（模型 F）

大方差：一些模型在识别说话人方面表现出色，但经常选择尴尬的打断时机（例如在说话者句子中途截断）。
感知‑交互解耦：说话人身份准确率与打断质量的相关系数约为 0.32，表明仅掌握感知并不能转化为社会行为的能力。
鲁棒性差距：当音视频流被故意错位时，大多数模型会回退到主导模态（通常是音频），导致时序和生成得分均下降 20‑30%。
微调有帮助：使用约 500 条以交互为中心的微调示例，可将最佳模型的打断适当性从 3.1 提升至 4.0，说明有针对性的数据可以弥合两者之间的差距。

实际影响

Virtual Meeting Assistants – 能够在自然停顿时等待并提供简洁、上下文感知的建议（例如，“我们能澄清一下预算数字吗？”）的模型，比那些随意给出通用摘要的模型更易用。
Customer‑Support Bots – 在多代理通话中，识别正确说话者并在恰当时机插入的能力可以减少交接摩擦，提高满意度。
Live Streaming & Gaming – 能够在不打断沉浸感的情况下“插话”或“加入”对话的实时化身，需要 SocialOmni 所衡量的时机和措辞能力。
Safety & Compliance – 检测说话者即将说出敏感内容并礼貌干预（例如，“我们暂停一下，核实一下数据”）可以内置于合规感知的 AI 代理中。
Model Development Roadmap – 该基准为工程师提供了一个超越静态准确率的具体、可量化目标，鼓励在 OLM 训练流水线中加入时间推理和跨模态 grounding。

限制与未来工作

交互样本规模 – 仅有 209 个生成实例；需要更大、更具多样性的情境（例如多语言、多文化规范）以实现更广泛的泛化。
人工评估范围 – 社交适当性由相对较少的标注者评定；未来工作应引入众包或专家小组，以捕捉细微的礼仪差异。
静态提示 – 本研究对大多数模型使用零样本提示；针对时机决策探索基于人类反馈的强化学习（RLHF）可能会产生更强的效果。
真实场景部署测试 – 基准测试为离线进行；将 SocialOmni 集成到实时系统（例如 Zoom 插件）中，可验证测得的提升是否转化为用户感知的改进。

SocialOmni 照亮了对话式 AI 中缺失的关键——何时以及如何发言，而不仅仅是说什么。随着全模态模型成为下一代助手的核心，这一基准为构建真正能够倾听并回应如人类般的代理提供了实用的衡量标准。

作者

谢天宇
黄金发
马跃晓
罗荣芳
杨燕
陈王
曾宇辉
方瑞泽
邹一轩
郑夏武
罗杰博
季荣荣

论文信息

arXiv ID: 2603.16859v1
类别: cs.AI
出版日期: 2026年3月17日
PDF: Download PDF

[Paper] SocialOmni：在 Omni 模型中的音视频社交互动基准测试

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] LoST：语义层级标记化用于3D形状

[Paper] 面向可扩展的自动化仓库级数据集用于软件漏洞检测