OmniGuide AI 구축 — Gemini Live와 함께하는 실시간 시각 어시스턴트
Source: Dev.to
Introduction
AI가 당신이 보는 것을 보고 실시간으로 안내해줄 수 있다면 어떨까요?
그 아이디어가 OmniGuide AI를 만들게 했습니다. 이 실시간 멀티모달 어시스턴트는 Gemini Live API로 구동되며 Google Cloud Run을 통해 배포됩니다.
챗봇에 질문을 입력하는 대신 사용자는 간단히:
- 문제에 스마트폰 카메라를 비춘다
- 음성으로 질문한다
- 실시간 음성 안내와 시각적 오버레이를 받는다
OmniGuide는 옆에 전문가가 서 있는 것처럼 작동해 기기 수리, 요리, 학습, 문제 해결 등 다양한 작업을 도와줍니다.
이 글에서는 #GeminiLiveAgentChallenge를 위해 Google AI 모델과 Google Cloud를 활용해 OmniGuide AI를 만든 과정을 설명합니다.
The Idea
현재 대부분의 AI 어시스턴트는 텍스트 입력을 요구하지만, 실제 문제는 물리적인 환경에서 발생합니다:
- 새는 파이프 수리
- 기기 오류 이해
- 레시피 요리
- 숙제 해결
OmniGuide AI는 다음을 결합해 그 격차를 메웁니다:
- 실시간 카메라 입력
- 음성 상호작용
- AI 추론
- 실시간 안내
Tech Stack
AI Model
Gemini 1.5 Flash – 비전 이해, 음성 대화, 컨텍스트 추론, 실시간 지시 생성에 사용됩니다.
Streaming AI Interface
Gemini Live API – 앱이 비디오 프레임, 오디오 입력, 실시간 프롬프트를 처리하도록 합니다.
Backend Infrastructure
Google Cloud Run – 확장 가능한 AI 추론 엔드포인트, 빠른 컨테이너 배포, 저지연 API 라우팅을 제공합니다.
Frontend
- WebRTC – 카메라 스트리밍
- WebSockets – 실시간 AI 응답
- React – UI
- Canvas overlays – 시각적 안내
Architecture
고수준 시스템 흐름:
- 사용자가 OmniGuide를 연다.
- 카메라 스트림이 시작된다.
- 음성 입력이 캡처된다.
- 프레임 + 오디오가 Gemini Live API로 전송된다.
- Gemini가 장면을 분석한다.
- AI가 지시를 생성한다.
- 음성 응답 + 오버레이가 반환된다.
결과: 실시간 AI 안내.
Key Features
Real‑Time Visual Understanding
Gemini가 실시간 카메라 프레임을 분석해 객체와 환경을 이해합니다.
Voice Interaction
사용자는 예를 들어 다음과 같이 물을 수 있습니다:
- “이 오류가 뭐야?”
- “어떻게 고쳐야 해?”
Step‑by‑Step Guidance
AI는 다음과 같은 지시를 제공합니다:
- 올바른 부품을 가리키기
- 객체 강조하기
- 다음 단계 설명하기
Visual Overlays
화면상의 가이드는 사용자가 지시를 쉽게 따라 할 수 있게 도와줍니다.
Example Use Cases
- Home Repair – 카메라를 새는 파이프에 비추고 “어떻게 고쳐?”라고 물어보기
- Cooking – 재료를 보여주고 “이걸로 뭘 만들 수 있어?”라고 물어보기
- Education – 학생이 수학 문제나 실험을 보여주기
- Device Troubleshooting – 오류 메시지를 스캔하고 즉시 해결책 받기
Challenges We Faced
Real‑Time Latency
실시간 비디오와 AI 추론을 처리하려면 세심한 최적화가 필요했습니다.
다음으로 해결했습니다:
- 프레임 압축
- 핵심 프레임만 스트리밍
- 더 빠른 응답을 위한 Gemini Flash 사용
Multimodal Context
Gemini가 시각적 컨텍스트를 정확히 해석하도록 하려면 구조화된 프롬프트와 장면 요약이 필요했습니다.
What Makes OmniGuide Unique
OmniGuide는 AI를 채팅 인터페이스에서 실시간 전문가 어시스턴트로 변모시킵니다. 온라인 튜토리얼을 검색하는 대신, 사용자는 문제를 보여주고 도움을 요청하면 됩니다.
What’s Next
향후 개선 사항:
- AR 오버레이
- 스마트 객체 감지
- 다단계 작업 메모리
- 협업 원격 지원
Conclusion
OmniGuide AI는 Google AI 모델과 Google Cloud가 차세대 멀티모달 실시간 에이전트를 어떻게 구현할 수 있는지 보여줍니다. 비전, 음성, 추론을 결합함으로써 우리는 챗봇을 넘어 물리적 세계를 이해하는 AI로 나아갑니다.
이 글은 #GeminiLiveAgentChallenge에 참여하기 위해 작성되었습니다.