Somnium Audio 梦日记
Source: Dev.to

Education Track: Build Apps with Google AI Studio
这篇文章是我为 DEV Education Track: Build Apps with Google AI Studio 所提交的作品。
我构建的内容
我创建了 Somnium,一个神秘的、以语音为先的梦境日记,它充当通往潜意识的桥梁。用户不必在深夜敲键盘记录梦境,只需录下自己的声音。该应用使用 Google 的 Gemini API 将音频转录,运用荣格心理学分析梦境,检测情感主题,甚至生成一幅表现梦境景观的超现实主义图像。
关键提示与功能
- 多模态音频处理 – 使用
gemini-3-flash-preview模型直接处理原始音频 Blob。 - 分析提示:
“You are an expert Jungian dream analyst… Transcribe the audio… Analyze for hidden meanings… Identify archetypes… Rate the intensity of primary emotions.”
- 视觉生成 – 利用分析输出为
gemini-2.5-flash-image构造动态提示,请求“基于梦中发现的具体情感和主题的抽象表现主义混合梦核(Dreamcore)”。 - 实时音频可视化器 与 情感雷达图(使用 Recharts 实现)。
- 自动标签系统 – AI 为每篇日记条目建议相关关键词。
演示
Somnium Audio Dream Journal Demo
我的体验
使用 Google GenAI SDK 构建时出乎意料地直观,尤其是在结构化输出方面。
- 多模态便利 – 我不需要额外的语音转文字库。直接将音频 Blob 传递给 Gemini,并附上“转录并分析”的提示,即可在一次请求中完成两项任务,降低了延迟和代码复杂度。
- JSON Schema – 通过
responseSchema配置,确保 Gemini 始终以干净的 JSON 格式返回数据(例如情感分数和原型列表),我的 React 组件能够立即渲染,无需额外的解析错误。 - 输出链式调用 – 将文本分析结果输入图像生成提示的能力,创造了一个连贯的用户体验,使视觉效果真正匹配梦境解读的“氛围”。