Ray‑Ban Meta 眼镜上的实时多模态 AI 与 Gemini Live & LiveKit

发布: (2026年2月4日 GMT+8 00:27)
3 分钟阅读
原文: Dev.to

Source: Dev.to

Cover image for Realtime Multimodal AI on Ray-Ban Meta Glasses with Gemini Live & LiveKit

架构

  • Meta Ray‑Ban Glasses – 捕获视频和音频,通过蓝牙连接到您的手机。
  • Phone (Android/iOS) – 充当网关,通过 WebRTC 连接到 LiveKit Cloud。
  • LiveKit Cloud – 作为 Gemini Live API 的安全、高性能代理。
  • Gemini Live API – 通过 WebSockets 处理流,实现实时多模态交互。

Architecture diagram

后端:构建 Gemini Live 代理

我们使用 LiveKit Agents 框架作为 Gemini Live API 的安全 WebRTC 代理。该代理加入 LiveKit 房间,监听音频,并处理来自眼镜的视频流。

设置助手

我们代理的核心是 AgentSession。我们使用 google.beta.realtime.RealtimeModel 与 Gemini 接口,并在 RoomOptions 中启用 video_input,使代理能够“看见”。

@server.rtc_session()
async def entrypoint(ctx: JobContext):
    ctx.log_context_fields = {"room": ctx.room.name}

    session = AgentSession(
        llm=google.beta.realtime.RealtimeModel(
            model="gemini-2.5-flash-native-audio-preview-12-2025",
            proactivity=True,
            enable_affective_dialog=True,
        ),
        vad=ctx.proc.userdata["vad"],
    )

    await session.start(
        room=ctx.room,
        agent=Assistant(),
        room_options=room_io.RoomOptions(
            video_input=True,
        ),
    )
    await ctx.connect()
    await session.generate_reply()

通过将 video_input=True,代理会自动请求房间的视频轨道,在本例中即来自眼镜的 1 FPS 视频流。

运行代理

在开发模式下启动代理并通过 LiveKit Cloud 全局访问:

uv run agent.py dev

LiveKit 文档 中查找完整的 Gemini Live 视觉代理示例。

连接与身份验证

CLI 令牌生成

对于测试和演示,您可以使用 LiveKit CLI 快速生成短期访问令牌:

lk token create \
  --api-key  \
  --api-secret  \
  --join \
  --room  \
  --identity  \
  --valid-for 24h

在生产环境中,请始终 从安全的后端签发令牌 以保护您的 API 密钥安全(参见 LiveKit 的 authentication guide)。

前端:Meta 可穿戴设备集成

此示例面向 Android 设备(例如 Google Pixel)。您需要使用 Meta Wearables Toolkit 并获取示例项目。

  1. 克隆示例 – 获取 Android 客户端示例

  2. 配置 local.properties – 按 Meta SDK 的要求添加您的 GitHub 令牌。

  3. 更新连接信息 – 在 StreamScreen.kt 中,将服务器 URL 和令牌替换为您的 LiveKit 信息:

    // streamViewModel.connectToLiveKit
    connectToLiveKit(
        url = "wss://your-project.livekit.cloud",
        token = "your-generated-token"
    )
  4. 运行应用 – 通过 USB 连接设备,并从 Android Studio 部署。

结论

通过将 Meta Wearables 与 Gemini Live 通过 LiveKit 连接,我们创建了一个强大、低延迟的视觉 AI 体验。该架构可扩展且安全,为下一代可穿戴 AI 应用提供了基础。

Resources

祝你玩得开心! 🚀

Back to Blog

相关文章

阅读更多 »

当 AI 给你一巴掌

当 AI 给你当头一棒:在 Adama 中调试 Claude 生成的代码。你是否曾让 AI “vibe‑code” 一个复杂功能,却花了数小时调试细微的 bug……