투명한 AI 윈도우 구축: Gemini API와 함께한 나의 여정

발행: 3일 전 (2026년 2월 23일 오전 12:06 GMT+9)

4 분 소요

Source: Dev.to

Cover image for Building a Transparent AI Window: My Journey with Gemini API

Introduction

저는 언제나 공상 과학 영화에서 보는 미래형 인터페이스에 매료되었습니다. 이 프로젝트는 멋진 외관을 제공할 뿐만 아니라 웹캠을 실시간 배경 화면으로 바꾸고, AI가 구동하는 동적 유리‑모피즘 웹 UI를 만들겠다는 비전에서 시작되었습니다.

The “Why”

주된 목표는 멀티모달 AI, 특히 Google의 Gemini API의 기능을 실험하고 이를 상황 인식 인터페이스에 어떻게 통합할 수 있는지 탐구하는 것이었습니다. 웹캠을 통해 보는 내용에 따라 반응하고 정보를 제공하는 UI를 만들 수 있는지 확인하고 싶었습니다.

The “How” (Tech Stack)

Google Gemini API: AI 기반 실시간 분석 및 응답을 담당합니다.
Vanilla JavaScript: 웹캠 피드, UI 상호작용, Gemini API와의 통신을 처리합니다. 동적 프롬프트와 컨텍스트 주입이 AI 모드 전환의 핵심이었습니다.
Tailwind CSS & Modern CSS: 유리‑모피즘 UI를 스타일링하고 반응형을 보장합니다.
BroadcastChannel API: 창의 상태와 웹캠 피드를 여러 브라우저 탭/창에 동기화합니다.

Key Features

Transparent Window: 웹캠 실시간 피드를 배경으로 하는 투명 오버레이 역할을 합니다.
Cross‑Tab Syncing: BroadcastChannel API를 사용해 웹캠 피드와 UI 상태를 서로 다른 브라우저 탭 간에 동기화합니다.
AI Modes: 통합된 Gemini AI가 웹캠 피드에 기반해 다양한 상호작용 모드를 제공합니다. 예를 들어 Futuristic HUD는 유용한 정보를 제공하고, Snarky Critic은 유머러스한 논평을 제공합니다.
웹캠 피드 확대 및 위치 조정을 위한 UI 요소 조절 가능.

Lessons Learned

이 프로젝트를 통해 멀티모달 모델인 Gemini의 다재다능함을 깊이 이해하게 되었습니다. 선택한 AI 모드에 따라 프롬프트를 동적으로 구성하고 컨텍스트를 주입하는 것이 다양한 상황에 맞는 적절한 응답을 얻는 데 핵심이었습니다. 또한 웹 기술을 결합해 진정으로 인터랙티브하고 새로운 사용자 경험을 만들 수 있음을 보여주었습니다.

투명한 AI 윈도우 구축: Gemini API와 함께한 나의 여정

Introduction

The “Why”

The “How” (Tech Stack)

Key Features

Lessons Learned

관련 글

Agentic SDLC: AI 팀이 기업 인프라를 논의하고, 코딩하며, 보안하는 방법

모든 AI 개발자가 필요로 하는 오픈 데이터셋 (그리고 기여 방법)

왜 우리는 Runtime에서 LLM을 금지했는가 — 그리고 우리가 대신 하는 일

데이터 거버넌스에서 시맨틱 레이어의 역할