missless가 실시간 비디오에서 실패했습니다 — 그래서 우리는 vibeCat으로 전환했습니다

발행: 3일 전 (2026년 3월 4일 PM 02:19 GMT+9)

3 분 소요

Source: Dev.to

개요

3주간의 작업. 작동하는 WebSocket 프록시, Cloud Run 배포, Lyria BGM 생성, 75개의 커밋. 그리고 실시간 비디오 생성은… 작동하지 않았다.

이 글은 Gemini Live Agent Challenge에 참여하기 위해 작성했습니다. 이전에 missless에 대해 쓴 글—WebSocket cascade from hell, 보안 취약점, 새벽 3시 디버깅 세션—을 읽었다면, 이 글이 그 이야기가 끝나고 새로운 이야기가 시작되는 지점입니다.

깨진 약속

missless는 “가상 재회” 앱이 될 예정이었습니다. 누군가를 그리워하는 영상을 업로드하면 AI가 그들의 성격과 목소리를 재구성하고, 비디오와 함께 실시간 대화를 할 수 있게 하는 것이죠. 단순히 오디오가 아니라 비디오. 입을 움직이고, 반응하고, 당신에게 말을 걸어주는 얼굴.

오디오 쪽은 아름답게 작동했습니다. Gemini Live API가 음성 합성을 담당하고, Go 백엔드가 WebSocket 스트림을 프록시했으며, Cloud Run이 이를 유지했습니다. AI가 재구성한 인물과 실시간 음성 대화를 나눌 수 있었고, 정말 감동적이었습니다.
하지만 제품 비전은 실시간 비디오 생성을 요구했습니다: 말할 때 입술을 움직이고, 감정적인 말을 할 때 표정을 바꾸는 화면상의 얼굴. 이것이 핵심이었습니다—그저 누군가의 목소리를 듣는 것이 아니라, 그들을 보는 것이었습니다.

그리고 그때 모든 것이 무너졌습니다.

실시간 비디오 생성이 우리를 망친 이유

기술적인 현실은 냉혹했습니다:

문제	왜 중요한가
지연	비디오 생성 모델은 실시간 대화에 충분히 빠른 프레임을 생성할 수 없습니다. 우리는 ***가 필요했습니다.

GeminiLiveAgentChallenge

missless가 실시간 비디오에서 실패했습니다 — 그래서 우리는 vibeCat으로 전환했습니다

개요

깨진 약속

실시간 비디오 생성이 우리를 망친 이유

관련 글

Linux에서 디스크 상태 추측 그만: SMART + NVMe 검사와 systemd 타이머 알림

MIRROR 구축: Perfect Corp API를 활용한 럭셔리 AI 패션 가상 피팅 앱

무대 뒤에서: AI가 코딩 실력을 해치는 이유

wati-cli를 사용해 10분 안에 WhatsApp AI 에이전트 구축하기