Somnium Audio 梦日记

发布: 1个月前 (2026年1月7日 GMT+8 10:55)

3 分钟阅读

Source: Dev.to

Cover image for Somnium Audio Dream Journal

Education Track: Build Apps with Google AI Studio
这篇文章是我为 DEV Education Track: Build Apps with Google AI Studio 所提交的作品。

我构建的内容

我创建了 Somnium，一个神秘的、以语音为先的梦境日记，它充当通往潜意识的桥梁。用户不必在深夜敲键盘记录梦境，只需录下自己的声音。该应用使用 Google 的 Gemini API 将音频转录，运用荣格心理学分析梦境，检测情感主题，甚至生成一幅表现梦境景观的超现实主义图像。

多模态音频处理 – 使用 gemini-3-flash-preview 模型直接处理原始音频 Blob。
分析提示：

“You are an expert Jungian dream analyst… Transcribe the audio… Analyze for hidden meanings… Identify archetypes… Rate the intensity of primary emotions.”
视觉生成 – 利用分析输出为 gemini-2.5-flash-image 构造动态提示，请求“基于梦中发现的具体情感和主题的抽象表现主义混合梦核（Dreamcore）”。
实时音频可视化器 与 情感雷达图（使用 Recharts 实现）。
自动标签系统 – AI 为每篇日记条目建议相关关键词。

使用 Google GenAI SDK 构建时出乎意料地直观，尤其是在结构化输出方面。

多模态便利 – 我不需要额外的语音转文字库。直接将音频 Blob 传递给 Gemini，并附上“转录并分析”的提示，即可在一次请求中完成两项任务，降低了延迟和代码复杂度。
JSON Schema – 通过 responseSchema 配置，确保 Gemini 始终以干净的 JSON 格式返回数据（例如情感分数和原型列表），我的 React 组件能够立即渲染，无需额外的解析错误。
输出链式调用 – 将文本分析结果输入图像生成提示的能力，创造了一个连贯的用户体验，使视觉效果真正匹配梦境解读的“氛围”。