Show HN: 실시간 대화를 위한 멀티모달 인지 시스템

발행: 4시간 전 (2026년 2월 11일 오전 03:58 GMT+9)

3 분 소요

Source: Hacker News

Overview

저는 Tavus에서 실시간 음성/영상 AI를 연구하며, 기계가 대화에서 어떻게 반응하는지에 초점을 맞추고 있습니다.
대부분의 대화 시스템은 모든 것을 텍스트 전사로 축소시켜, 유용한 시각 및 청각 신호를 대부분 버립니다. 기존 감정 이해 모델은 작고 임의적인 집합으로 분류하고, 실시간으로 필요한 속도나 풍부함이 부족합니다.

이를 해결하기 위해 저는 멀티모달 인식 시스템을 구축했습니다. 이 시스템은 시각 및 청각 대화 신호를 인코딩하고, 작은 LLM을 이러한 신호에 정렬시켜 자연어로 변환합니다. 에이전트는 당신을 “보고” “들을” 수 있으며, 실시간 대화에서 OpenAI 호환 도구 스키마를 통해 상호작용할 수 있습니다.

시스템은 상호작용 중에 일어나는 상황을 짧은 자연어 설명으로 출력합니다—예를 들어, 불확실감이 쌓이는 경우, 빈정거림, 무관심, 혹은 한 턴 안에서 주의가 전환되는 순간 등을 포착합니다.

Specs

실시간 작동 – 대화당
~15 fps 비디오 처리와 오디오 겹침
속삭임부터 외침까지 미묘한 감정 처리
합성 데이터와 내부 대화 데이터를 사용해 학습

Discussion

댓글은 다음에서 확인할 수 있습니다:
https://news.ycombinator.com/item?id=46965012 (8 points, 1 comment)

Show HN: 실시간 대화를 위한 멀티모달 인지 시스템

Overview

Specs

Further Reading

Discussion

관련 글

Scrap Labs – 메탈 3D 프린터

포크윅 휠

Show HN: Clawe – 에이전트 팀을 위한 오픈소스 Trello

Tambo 1.0: React 컴포넌트를 렌더링하는 에이전트를 위한 오픈소스 툴킷