missless가 실시간 비디오에서 실패했습니다 — 그래서 우리는 vibeCat으로 전환했습니다
Source: Dev.to
개요
3주간의 작업. 작동하는 WebSocket 프록시, Cloud Run 배포, Lyria BGM 생성, 75개의 커밋. 그리고 실시간 비디오 생성은… 작동하지 않았다.
이 글은 Gemini Live Agent Challenge에 참여하기 위해 작성했습니다. 이전에 missless에 대해 쓴 글—WebSocket cascade from hell, 보안 취약점, 새벽 3시 디버깅 세션—을 읽었다면, 이 글이 그 이야기가 끝나고 새로운 이야기가 시작되는 지점입니다.
깨진 약속
missless는 “가상 재회” 앱이 될 예정이었습니다. 누군가를 그리워하는 영상을 업로드하면 AI가 그들의 성격과 목소리를 재구성하고, 비디오와 함께 실시간 대화를 할 수 있게 하는 것이죠. 단순히 오디오가 아니라 비디오. 입을 움직이고, 반응하고, 당신에게 말을 걸어주는 얼굴.
- 오디오 쪽은 아름답게 작동했습니다. Gemini Live API가 음성 합성을 담당하고, Go 백엔드가 WebSocket 스트림을 프록시했으며, Cloud Run이 이를 유지했습니다. AI가 재구성한 인물과 실시간 음성 대화를 나눌 수 있었고, 정말 감동적이었습니다.
- 하지만 제품 비전은 실시간 비디오 생성을 요구했습니다: 말할 때 입술을 움직이고, 감정적인 말을 할 때 표정을 바꾸는 화면상의 얼굴. 이것이 핵심이었습니다—그저 누군가의 목소리를 듣는 것이 아니라, 그들을 보는 것이었습니다.
그리고 그때 모든 것이 무너졌습니다.
실시간 비디오 생성이 우리를 망친 이유
기술적인 현실은 냉혹했습니다:
| 문제 | 왜 중요한가 |
|---|---|
| 지연 | 비디오 생성 모델은 실시간 대화에 충분히 빠른 프레임을 생성할 수 없습니다. 우리는 ***가 필요했습니다. |
GeminiLiveAgentChallenge