Show HN: 실시간 대화를 위한 멀티모달 인지 시스템

발행: (2026년 2월 11일 오전 03:58 GMT+9)
3 분 소요

Source: Hacker News

Overview

저는 Tavus에서 실시간 음성/영상 AI를 연구하며, 기계가 대화에서 어떻게 반응하는지에 초점을 맞추고 있습니다.
대부분의 대화 시스템은 모든 것을 텍스트 전사로 축소시켜, 유용한 시각 및 청각 신호를 대부분 버립니다. 기존 감정 이해 모델은 작고 임의적인 집합으로 분류하고, 실시간으로 필요한 속도나 풍부함이 부족합니다.

이를 해결하기 위해 저는 멀티모달 인식 시스템을 구축했습니다. 이 시스템은 시각 및 청각 대화 신호를 인코딩하고, 작은 LLM을 이러한 신호에 정렬시켜 자연어로 변환합니다. 에이전트는 당신을 “보고” “들을” 수 있으며, 실시간 대화에서 OpenAI 호환 도구 스키마를 통해 상호작용할 수 있습니다.

시스템은 상호작용 중에 일어나는 상황을 짧은 자연어 설명으로 출력합니다—예를 들어, 불확실감이 쌓이는 경우, 빈정거림, 무관심, 혹은 한 턴 안에서 주의가 전환되는 순간 등을 포착합니다.

Specs

  • 실시간 작동 – 대화당
  • ~15 fps 비디오 처리와 오디오 겹침
  • 속삭임부터 외침까지 미묘한 감정 처리
  • 합성 데이터와 내부 대화 데이터를 사용해 학습

Further Reading

자세한 내용은 원본 게시물에서 확인할 수 있습니다:
https://www.tavus.io/post/raven-1-bringing-emotional-intelli…

Discussion

댓글은 다음에서 확인할 수 있습니다:
https://news.ycombinator.com/item?id=46965012 (8 points, 1 comment)

0 조회
Back to Blog

관련 글

더 보기 »

Scrap Labs – 메탈 3D 프린터

Real Metal Printing. 스크랩으로 제작. Scrap Labs에서 우리의 사명은 가장 앞선 metal printing technology를 통해 빌더와 크리에이터에게 힘을 실어주는 것입니다.

포크윅 휠

개요 세계에서 유일한 회전식 보트 리프트인 팔커크 휠은 포스 & 클라이드 운하와 유니언 운하를 35미터 높이에서 연결하여 선박이 통과하도록 합니다.