Show HN: 실시간 대화를 위한 멀티모달 인지 시스템
Source: Hacker News
Overview
저는 Tavus에서 실시간 음성/영상 AI를 연구하며, 기계가 대화에서 어떻게 반응하는지에 초점을 맞추고 있습니다.
대부분의 대화 시스템은 모든 것을 텍스트 전사로 축소시켜, 유용한 시각 및 청각 신호를 대부분 버립니다. 기존 감정 이해 모델은 작고 임의적인 집합으로 분류하고, 실시간으로 필요한 속도나 풍부함이 부족합니다.
이를 해결하기 위해 저는 멀티모달 인식 시스템을 구축했습니다. 이 시스템은 시각 및 청각 대화 신호를 인코딩하고, 작은 LLM을 이러한 신호에 정렬시켜 자연어로 변환합니다. 에이전트는 당신을 “보고” “들을” 수 있으며, 실시간 대화에서 OpenAI 호환 도구 스키마를 통해 상호작용할 수 있습니다.
시스템은 상호작용 중에 일어나는 상황을 짧은 자연어 설명으로 출력합니다—예를 들어, 불확실감이 쌓이는 경우, 빈정거림, 무관심, 혹은 한 턴 안에서 주의가 전환되는 순간 등을 포착합니다.
Specs
- 실시간 작동 – 대화당
- ~15 fps 비디오 처리와 오디오 겹침
- 속삭임부터 외침까지 미묘한 감정 처리
- 합성 데이터와 내부 대화 데이터를 사용해 학습
Further Reading
자세한 내용은 원본 게시물에서 확인할 수 있습니다:
https://www.tavus.io/post/raven-1-bringing-emotional-intelli…
Discussion
댓글은 다음에서 확인할 수 있습니다:
https://news.ycombinator.com/item?id=46965012 (8 points, 1 comment)