[Paper] CompanionCast：面向社交共观体验的多代理对话 AI 框架，支持空间音频

发布: 1个月前 (2025年12月12日 GMT+8 02:44)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10918v1

概览

本文介绍了 CompanionCast，一个模块化框架，将多个 AI “伴侣”聚集在一起与您一起观看视频——配有口语对话、个性化小癖以及空间音频，使每个声音听起来像是来自屏幕上的特定位置。通过让这些代理实时对视频作出反应，系统旨在重现与朋友一起观看游戏或节目时的感觉，即使您是独自一人。

视频摄取 – 系统从实时或预录视频流中提取视觉和音频线索（如场景切换、观众噪音、屏幕文字）。
代理角色 – 为不同的 LLM 实例分配独特的人格（如 “热情粉丝”、 “战术分析师”、 “随意评论员”）。每个实例接收相同的多模态上下文，但会根据其角色进行响应。
对话循环 – 代理生成简短的发言，这些发言会传递给 Judge LLM。Judge 对每条发言在五个质量维度上打分，并可请求修改或重新排序。
语音合成 + 空间音频 – 通过 TTS 引擎将批准的发言转为语音，然后使用双耳渲染将其定位在虚拟声场中（例如左声道对应粉丝，右声道对应分析师）。
用户交互 – 观众可以选择语音或文字与代理交流，使系统能够实时调整对话内容。

所有组件通过轻量级消息总线通信，便于开发者替换任意子模块（例如将 GPT‑4 换成更小的开源模型）。

社会存在感得分 – 在对 30 名足球粉丝的受控实验中，参与者对 CompanionCast 体验的社会存在感问卷评分比基线的单独观看条件高出 23 %。
参与度指标 – 当存在多个代理时，平均交互时间（点击、文字消息）提升了 18 %，表明用户保持了更高的参与度。
Judge 效能 – LLM‑as‑a‑Judge 将离题或重复发言的比例比朴素生成管线降低了 42 %，使对话更流畅。
音频真实感 – 主观聆听测试显示，空间音频使感知的 “与他人在同一房间” 感受提升了 15 %，验证了 3‑D 声音定位的价值。

流媒体平台 – Netflix、Twitch 或体育转播方可嵌入 CompanionCast 代理，提供 “虚拟观看派对” 体验，无需真实好友在线。
远程协作 – 团队在审阅训练视频、设计稿或代码走查时，可受益于具备特定角色的 AI 助手，它们进行评论、提问并保持讨论活跃。
教育 – 教师可以部署一组 AI “学生”，在讲座视频播放时提出澄清性问题或提供替代解释，使远程学习更具互动性。
开发者工具包 – 由于框架基于标准 API（LLM 端点、WebRTC 视频流、双耳音频库），开发者只需几行代码即可原型化新代理人格或集成领域特定知识库。

总体而言，CompanionCast 为 AI 驱动的共观看体验打开了有前景的道路，使其在社会感受上更为丰富，同时也凸显了在成为主流功能之前需要克服的工程挑战。