OROSYNC:通过 Vifi 多模态代理拆解 Keyboard Tax
Source: Dev.to

项目
OROSYNC 是一个 “Ab Initio” 多模态生态系统,旨在将商业回归以人为中心、口头为默认的模式。它在 Google AI Studio 中使用 Multimodal Live API 构建,推出了 Vifi(Vy‑Fy)——一个能够看、听、说的代理,帮助商家摆脱 “键盘税”。
反思
在本次挑战中,我超越了标准的 LLM 提示,进入了多模态代理编排的领域。突破点在于使用 Gemini 3.1 Pro,将混乱的人类语音与确定性的财务记录之间的鸿沟弥合。
我构建的内容
- Vifi(界面) – 一个实时代理,利用声学摄取和 VoicePass(用于公共空间隐私的可视唇读认证协议)。
- OROTALLY(金融) – 一个确定性的记账引擎,将口头意图映射到 AP2(Agent Payments Protocol),实现安全的 G‑Pay 结算。
- OROcom(身份) – 一个通信代理,使用通用商务协议(UCP)将业务数据转化为专业的数字身份。
“实时”技术实现
我在 Google AI Studio 中开发了核心逻辑,特别利用了 Multimodal Live API。这使我能够原型化 OSMOS‑6PP Syncology——一种中间件逻辑,在将商家的语音转换为复式记账记录时确保 100 % 的数学精确度。通过使用 gemini-2.0-flash-live 模型,Vifi 实现了实时市场交易所需的低延迟响应。
影响
OROSYNC 不仅仅是一个 “聊天机器人”;它是一次工业层面的重置。对于视障人士和非正规商户,它提供了 数字尊严。它证明了在 2026 年,声音就是你的担保,意图就是你的 “墨”。