Ray‑Ban Meta 眼镜上的实时多模态 AI 与 Gemini Live & LiveKit

发布: 3个月前 (2026年2月4日 GMT+8 00:27)

3 分钟阅读

原文: Dev.to

Source: Dev.to

Cover image for Realtime Multimodal AI on Ray-Ban Meta Glasses with Gemini Live & LiveKit

架构

Meta Ray‑Ban Glasses – 捕获视频和音频，通过蓝牙连接到您的手机。
Phone (Android/iOS) – 充当网关，通过 WebRTC 连接到 LiveKit Cloud。
LiveKit Cloud – 作为 Gemini Live API 的安全、高性能代理。
Gemini Live API – 通过 WebSockets 处理流，实现实时多模态交互。

Architecture diagram

后端：构建 Gemini Live 代理

我们使用 LiveKit Agents 框架作为 Gemini Live API 的安全 WebRTC 代理。该代理加入 LiveKit 房间，监听音频，并处理来自眼镜的视频流。

设置助手

我们代理的核心是 AgentSession。我们使用 google.beta.realtime.RealtimeModel 与 Gemini 接口，并在 RoomOptions 中启用 video_input，使代理能够“看见”。

@server.rtc_session()
async def entrypoint(ctx: JobContext):
    ctx.log_context_fields = {"room": ctx.room.name}

    session = AgentSession(
        llm=google.beta.realtime.RealtimeModel(
            model="gemini-2.5-flash-native-audio-preview-12-2025",
            proactivity=True,
            enable_affective_dialog=True,
        ),
        vad=ctx.proc.userdata["vad"],
    )

    await session.start(
        room=ctx.room,
        agent=Assistant(),
        room_options=room_io.RoomOptions(
            video_input=True,
        ),
    )
    await ctx.connect()
    await session.generate_reply()

通过将 video_input=True，代理会自动请求房间的视频轨道，在本例中即来自眼镜的 1 FPS 视频流。

运行代理

在开发模式下启动代理并通过 LiveKit Cloud 全局访问：

uv run agent.py dev

在 LiveKit 文档中查找完整的 Gemini Live 视觉代理示例。

连接与身份验证

CLI 令牌生成

对于测试和演示，您可以使用 LiveKit CLI 快速生成短期访问令牌：

lk token create \
  --api-key  \
  --api-secret  \
  --join \
  --room  \
  --identity  \
  --valid-for 24h

在生产环境中，请始终 从安全的后端签发令牌 以保护您的 API 密钥安全（参见 LiveKit 的 authentication guide）。

前端：Meta 可穿戴设备集成

此示例面向 Android 设备（例如 Google Pixel）。您需要使用 Meta Wearables Toolkit 并获取示例项目。

克隆示例 – 获取 Android 客户端示例。
配置 local.properties – 按 Meta SDK 的要求添加您的 GitHub 令牌。

更新连接信息 – 在 StreamScreen.kt 中，将服务器 URL 和令牌替换为您的 LiveKit 信息：

// streamViewModel.connectToLiveKit
connectToLiveKit(
    url = "wss://your-project.livekit.cloud",
    token = "your-generated-token"
)

运行应用 – 通过 USB 连接设备，并从 Android Studio 部署。

结论

通过将 Meta Wearables 与 Gemini Live 通过 LiveKit 连接，我们创建了一个强大、低延迟的视觉 AI 体验。该架构可扩展且安全，为下一代可穿戴 AI 应用提供了基础。

Resources

祝你玩得开心！ 🚀

Ray‑Ban Meta 眼镜上的实时多模态 AI 与 Gemini Live & LiveKit

架构

后端：构建 Gemini Live 代理

设置助手

运行代理

连接与身份验证

CLI 令牌生成

前端：Meta 可穿戴设备集成

结论

Resources

相关文章

你的 AI Agent 刚拿到信用卡：全新推出 x402 Bazaar

Smartfind.ai

如何在 2 分钟内同步 Claude Code、OpenClaw 和 Codex 的 AI 技能

API Gateway 对比 Gateway API