Ray‑Ban Meta 眼镜上的实时多模态 AI 与 Gemini Live & LiveKit
Source: Dev.to

架构
- Meta Ray‑Ban Glasses – 捕获视频和音频,通过蓝牙连接到您的手机。
- Phone (Android/iOS) – 充当网关,通过 WebRTC 连接到 LiveKit Cloud。
- LiveKit Cloud – 作为 Gemini Live API 的安全、高性能代理。
- Gemini Live API – 通过 WebSockets 处理流,实现实时多模态交互。

后端:构建 Gemini Live 代理
我们使用 LiveKit Agents 框架作为 Gemini Live API 的安全 WebRTC 代理。该代理加入 LiveKit 房间,监听音频,并处理来自眼镜的视频流。
设置助手
我们代理的核心是 AgentSession。我们使用 google.beta.realtime.RealtimeModel 与 Gemini 接口,并在 RoomOptions 中启用 video_input,使代理能够“看见”。
@server.rtc_session()
async def entrypoint(ctx: JobContext):
ctx.log_context_fields = {"room": ctx.room.name}
session = AgentSession(
llm=google.beta.realtime.RealtimeModel(
model="gemini-2.5-flash-native-audio-preview-12-2025",
proactivity=True,
enable_affective_dialog=True,
),
vad=ctx.proc.userdata["vad"],
)
await session.start(
room=ctx.room,
agent=Assistant(),
room_options=room_io.RoomOptions(
video_input=True,
),
)
await ctx.connect()
await session.generate_reply()
通过将 video_input=True,代理会自动请求房间的视频轨道,在本例中即来自眼镜的 1 FPS 视频流。
运行代理
在开发模式下启动代理并通过 LiveKit Cloud 全局访问:
uv run agent.py dev
在 LiveKit 文档 中查找完整的 Gemini Live 视觉代理示例。
连接与身份验证
CLI 令牌生成
对于测试和演示,您可以使用 LiveKit CLI 快速生成短期访问令牌:
lk token create \
--api-key \
--api-secret \
--join \
--room \
--identity \
--valid-for 24h
在生产环境中,请始终 从安全的后端签发令牌 以保护您的 API 密钥安全(参见 LiveKit 的 authentication guide)。
前端:Meta 可穿戴设备集成
此示例面向 Android 设备(例如 Google Pixel)。您需要使用 Meta Wearables Toolkit 并获取示例项目。
-
克隆示例 – 获取 Android 客户端示例。
-
配置
local.properties– 按 Meta SDK 的要求添加您的 GitHub 令牌。 -
更新连接信息 – 在
StreamScreen.kt中,将服务器 URL 和令牌替换为您的 LiveKit 信息:// streamViewModel.connectToLiveKit connectToLiveKit( url = "wss://your-project.livekit.cloud", token = "your-generated-token" ) -
运行应用 – 通过 USB 连接设备,并从 Android Studio 部署。
结论
通过将 Meta Wearables 与 Gemini Live 通过 LiveKit 连接,我们创建了一个强大、低延迟的视觉 AI 体验。该架构可扩展且安全,为下一代可穿戴 AI 应用提供了基础。
Resources
祝你玩得开心! 🚀