missless가 실시간 비디오에서 실패했습니다 — 그래서 우리는 vibeCat으로 전환했습니다

발행: (2026년 3월 4일 PM 02:19 GMT+9)
3 분 소요
원문: Dev.to

Source: Dev.to

개요

3주간의 작업. 작동하는 WebSocket 프록시, Cloud Run 배포, Lyria BGM 생성, 75개의 커밋. 그리고 실시간 비디오 생성은… 작동하지 않았다.

이 글은 Gemini Live Agent Challenge에 참여하기 위해 작성했습니다. 이전에 missless에 대해 쓴 글—WebSocket cascade from hell, 보안 취약점, 새벽 3시 디버깅 세션—을 읽었다면, 이 글이 그 이야기가 끝나고 새로운 이야기가 시작되는 지점입니다.

깨진 약속

missless는 “가상 재회” 앱이 될 예정이었습니다. 누군가를 그리워하는 영상을 업로드하면 AI가 그들의 성격과 목소리를 재구성하고, 비디오와 함께 실시간 대화를 할 수 있게 하는 것이죠. 단순히 오디오가 아니라 비디오. 입을 움직이고, 반응하고, 당신에게 말을 걸어주는 얼굴.

  • 오디오 쪽은 아름답게 작동했습니다. Gemini Live API가 음성 합성을 담당하고, Go 백엔드가 WebSocket 스트림을 프록시했으며, Cloud Run이 이를 유지했습니다. AI가 재구성한 인물과 실시간 음성 대화를 나눌 수 있었고, 정말 감동적이었습니다.
  • 하지만 제품 비전은 실시간 비디오 생성을 요구했습니다: 말할 때 입술을 움직이고, 감정적인 말을 할 때 표정을 바꾸는 화면상의 얼굴. 이것이 핵심이었습니다—그저 누군가의 목소리를 듣는 것이 아니라, 그들을 보는 것이었습니다.

그리고 그때 모든 것이 무너졌습니다.

실시간 비디오 생성이 우리를 망친 이유

기술적인 현실은 냉혹했습니다:

문제왜 중요한가
지연비디오 생성 모델은 실시간 대화에 충분히 빠른 프레임을 생성할 수 없습니다. 우리는 ***가 필요했습니다.

GeminiLiveAgentChallenge

0 조회
Back to Blog

관련 글

더 보기 »