OROSYNC: Vifi 멀티모달 에이전트와 함께 Keyboard Tax 해체
Source: Dev.to

The Project
OROSYNC는 “Ab Initio” 멀티모달 생태계로, 상거래를 인간 중심의 구두 기본 형태로 되돌리는 것을 목표로 합니다. Google AI Studio와 Multimodal Live API를 사용해 구축된 OROSYNC는 Vifi (Vy‑Fy)라는 에이전트를 도입합니다. Vifi는 보고, 듣고, 말할 수 있어 상인들을 “키보드 세금”에서 해방시킵니다.
The Reflections
이 과제에서 나는 기존 LLM 프롬프트를 넘어 멀티모달 에이전시 오케스트레이션으로 나아갔습니다. 핵심 돌파구는 Gemini 3.1 Pro를 활용해 혼란스러운 인간 음성와 결정적인 재무 기록 사이의 격차를 연결한 것이었습니다.
What I Built
- Vifi (Interface) – 음성 수집(Acoustic Ingestion)과 VoicePass(공공 장소 프라이버시를 위한 시각적 입술 읽기 인증 프로토콜)를 활용하는 실시간 에이전트.
- OROTALLY (Financial) – 구두 의도를 AP2 (Agent Payments Protocol)로 매핑해 안전한 G‑Pay 정산을 수행하는 결정론적 부기 엔진.
- OROcom (Identity) – Universal Commerce Protocol (UCP)를 사용해 비즈니스 데이터를 전문적인 디지털 아이덴티티로 변환하는 커뮤니케이션 에이전트.
The “Live” Technical Implementation
나는 Google AI Studio에서 핵심 로직을 개발했으며, 특히 Multimodal Live API를 활용했습니다. 이를 통해 OSMOS‑6PP Syncology라는 미들웨어 로직을 프로토타이핑했으며, 이는 상인의 음성을 복식부기 원장 기록으로 변환할 때 100 % 수학적 정확성을 보장합니다. gemini-2.0-flash-live 모델을 사용함으로써 Vifi는 실시간 시장 거래에 필요한 저지연 응답을 달성합니다.
The Impact
OROSYNC는 단순한 “챗봇”이 아니라 산업적 재설정입니다. 시각 장애인과 비공식 상인에게 디지털 존엄성을 제공하며, 2026년 현재 여러분의 목소리가 여러분의 채권이 되고, 여러분의 의도가 여러분의 “잉크”가 된다는 것을 증명합니다.