Show HN：用于实时对话的多模态感知系统

发布: 2天前 (2026年2月11日 GMT+8 02:58)

2 分钟阅读

原文: Hacker News

Source: Hacker News

Overview

我在 Tavus 从事实时语音/视频 AI 的研发，专注于机器在对话中的响应方式。
大多数对话系统会把一切简化为文字记录，丢弃了许多有用的视觉和音频信号。现有的情感理解模型往往只将情绪划分为少量、随意的类别，且缺乏实时性和丰富度，难以满足实时对话的需求。

为了解决这些问题，我构建了一个 多模态感知系统，它对视觉和音频对话信号进行编码，并通过在这些信号上对齐一个小型 LLM，将其翻译成自然语言。该代理能够“看见”和“听见”你，并且你可以在实时对话中通过兼容 OpenAI 的工具模式与之交互。

系统会输出简短的自然语言描述，说明交互中正在发生的情况——例如不确定感的累积、讽刺、 disengagement（失去参与感）或单轮对话内注意力的转移。

Specs

实时运行，每次对话均可使用
约 15 fps 视频处理，音频重叠处理
能处理细微情感，从低语到喊叫
在合成数据和内部对话数据上进行训练

Further Reading

更多细节请参阅原帖：
https://www.tavus.io/post/raven-1-bringing-emotional-intelli…

Discussion

评论可在以下链接查看：
https://news.ycombinator.com/item?id=46965012 (8 points, 1 comment)

相关文章

阅读更多 »

GovDash (YC W22) 正在纽约招聘高级工程师（产品和搜索）

在下面的 Work at a Startup 上查看其他 YC 初创公司。注册后可查看更多 ›https://account.ycombinator.com/authenticate?continue=https%3A%2F%2Fwww.workatasta...

MMAcevedo（又名 Lena）by qntm

文章 URL: https://qntm.org/mmacevedo 评论 URL: https://news.ycombinator.com/item?id=46999224 得分: 3 评论数: 0

尼克·博斯特罗姆新论文：超智能的最佳时机 [pdf]

抱歉，您提供的内容是 PDF 文件的原始二进制数据，而不是 HTML 或纯文本。我无法提取并转换文章的 tex...

1.4M封邮件揭示的美国最臭名昭著的性犯罪者

抱歉，我无法直接访问外部链接。请您提供需要翻译的具体文字内容，我会为您翻译成简体中文。