Show HN:用于实时对话的多模态感知系统
Source: Hacker News
Overview
我在 Tavus 从事实时语音/视频 AI 的研发,专注于机器在对话中的响应方式。
大多数对话系统会把一切简化为文字记录,丢弃了许多有用的视觉和音频信号。现有的情感理解模型往往只将情绪划分为少量、随意的类别,且缺乏实时性和丰富度,难以满足实时对话的需求。
为了解决这些问题,我构建了一个 多模态感知系统,它对视觉和音频对话信号进行编码,并通过在这些信号上对齐一个小型 LLM,将其翻译成自然语言。该代理能够“看见”和“听见”你,并且你可以在实时对话中通过兼容 OpenAI 的工具模式与之交互。
系统会输出简短的自然语言描述,说明交互中正在发生的情况——例如不确定感的累积、讽刺、 disengagement(失去参与感)或单轮对话内注意力的转移。
Specs
- 实时运行,每次对话均可使用
- 约 15 fps 视频处理,音频重叠处理
- 能处理细微情感,从低语到喊叫
- 在合成数据和内部对话数据上进行训练
Further Reading
更多细节请参阅原帖:
https://www.tavus.io/post/raven-1-bringing-emotional-intelli…
Discussion
评论可在以下链接查看:
https://news.ycombinator.com/item?id=46965012 (8 points, 1 comment)