Metatron:使用 Gemini 构建一个活体的 AI 驱动化学实验室
Source: Dev.to

化学常常通过静态图表和抽象方程来教学。这在一定程度上有效——但一旦分子开始反应、状态转变或释放能量,这些平面的表示就显得不足。
我想构建 Metatron 来改变这种状况。
Metatron 是一个 “活的”化学智能平台,它弥合了 SMILES 字符串等理论表示与可触摸、可视化实验室体验之间的鸿沟。这个想法受到 “数据大天使” 概念的启发——一种能够监督复杂研究,并通过自然、具备代理性的界面让高级化学变得易于获取的 AI 实体。
Metatron 的功能
Metatron 是一个 AI 驱动的化学实验室和研究助理,旨在用于学习和实验。
🧪 虚拟实验室
用户可以混合化学品并即时观察:
- 平衡的化学方程式
- 颜色变化
- 相变
- 如沉淀或爆炸等反应
所有结果均实时以可视化方式呈现。
🤖 主动研究
化学研究代理 接收一个分子并自主地:
- 规划研究工作流
- 执行各步骤
- 验证结果
- 评估环境影响
- 生成结构化报告
它不仅仅是回答问题,而是运行完整的研究流程。
🎙️ 语音辅助
Metatron 支持免提交互。用户可以自然地说话,系统利用 AI 驱动的意图解析将语音指令转换为精确的应用操作。
🎓 互动学习
平台还包括:
- “猜工具” 游戏
- 交互式 元素周期表
- AI 导师,提供针对分子的解释和洞见
我是如何构建它的
Metatron 使用现代 TypeScript 堆栈,基于 Vite + React,核心推理引擎为 Gemini 3 Flash。
核心逻辑与可视化
- 使用 Zod 进行模式验证,并转换为 JSON Schemas 以供 Gemini 的结构化输出模式使用
- 来自 PubChem 的分子数据
- 使用 RDKit 进行 2D 分子渲染
- 使用 NGL 实现交互式 3D 分子可视化
- 使用 Three.js 构建虚拟实验室环境和反应效果
代理架构
自主研究代理利用 Gemini 的函数调用 来管理多阶段工作流:
规划 → 执行 → 验证 → 排放评估 → 报告
这使得 AI 能在各步骤之间推理,保持状态,并生成结构化的科学输出。
语音 NLP
VoiceCommandManager 通过 Gemini 解释语音指令,并直接映射到应用函数,实现流畅的语音驱动交互。
Gemini 能做的事
Gemini 不仅用于文本生成——它是应用程序的 核心编排层。
关键能力包括:
- 实时化学分析(基于 SMILES 表示)
- 在虚拟实验室中预测反应结果
- 动态生成教育内容
- 语音控制的导航和研究
- 结构化 JSON 输出,以实现可靠的模拟
使用的 Gemini 功能
- 结构化 JSON 输出
- 函数调用
- 系统指令
- 思考模式(
includeThoughts)
前进路上的挑战
构建 Metatron 并不容易。
- 作为一名 master’s student,我必须在考试和多个学术项目之间平衡,导致可用于开发的时间有限,并且只能完全独自工作。
- 3D rendering 学习曲线陡峭:首次使用 NGL 和 Three.js。我最初计划打造完整的 VR 实验室体验,但时间限制使得首个版本只能做成基于网页的模拟。
- 语音控制带来了另一个挑战:SpeechRecognition Web API 在不同浏览器上的表现不一致,导致测试和调试困难。
尽管面临这些障碍,我仍交付了一个功能完整、视觉丰富、由 AI 驱动的化学平台,为未来的扩展奠定了坚实的基础。
我自豪的成就
- 完全自主的化学研究代理
- 使用 Gemini + Zod 的可靠结构化 AI 输出
- 实时反应模拟和可视化
- 无缝的 2D 与 3D 分子渲染
- 由 Gemini 函数调用驱动的自然语音控制
我学到的
- 使用 Zod 和 JSON Schema 强制 AI 输出的结构
- 使用 Gemini 构建多阶段自主代理
- 使用函数调用设计语音控制界面
- 使用 Three.js 和 NGL 等 3D 渲染工具
- 在个人开发与学业责任之间取得平衡
Metatron 的下一步
Metatron 正在起步阶段。
- 多模态安全审计:用户将能够上传真实实验室设置的照片,并利用 Gemini 的多模态能力即时获得 AI 驱动的安全反馈。
- 自驾实验室:与物联网设备和 VR 实验室设备集成,将 Metatron 打造成真正的物理研究伙伴。
- 增强现实 (AR):在实体实验室环境中直接叠加分子可视化、逐步实验指导以及实时安全警示。
感谢阅读 🧠🧪
如果您感兴趣,欢迎随时提供反馈和想法。