Somnium Audio 梦日记

发布: (2026年1月7日 GMT+8 10:55)
3 min read
原文: Dev.to

Source: Dev.to

Cover image for Somnium Audio Dream Journal

Education Track: Build Apps with Google AI Studio
这篇文章是我为 DEV Education Track: Build Apps with Google AI Studio 所提交的作品。

我构建的内容

我创建了 Somnium,一个神秘的、以语音为先的梦境日记,它充当通往潜意识的桥梁。用户不必在深夜敲键盘记录梦境,只需录下自己的声音。该应用使用 Google 的 Gemini API 将音频转录,运用荣格心理学分析梦境,检测情感主题,甚至生成一幅表现梦境景观的超现实主义图像。

关键提示与功能

  • 多模态音频处理 – 使用 gemini-3-flash-preview 模型直接处理原始音频 Blob。
  • 分析提示

    “You are an expert Jungian dream analyst… Transcribe the audio… Analyze for hidden meanings… Identify archetypes… Rate the intensity of primary emotions.”

  • 视觉生成 – 利用分析输出为 gemini-2.5-flash-image 构造动态提示,请求“基于梦中发现的具体情感和主题的抽象表现主义混合梦核(Dreamcore)”。
  • 实时音频可视化器情感雷达图(使用 Recharts 实现)。
  • 自动标签系统 – AI 为每篇日记条目建议相关关键词。

演示

Somnium Audio Dream Journal Demo

我的体验

使用 Google GenAI SDK 构建时出乎意料地直观,尤其是在结构化输出方面。

  • 多模态便利 – 我不需要额外的语音转文字库。直接将音频 Blob 传递给 Gemini,并附上“转录并分析”的提示,即可在一次请求中完成两项任务,降低了延迟和代码复杂度。
  • JSON Schema – 通过 responseSchema 配置,确保 Gemini 始终以干净的 JSON 格式返回数据(例如情感分数和原型列表),我的 React 组件能够立即渲染,无需额外的解析错误。
  • 输出链式调用 – 将文本分析结果输入图像生成提示的能力,创造了一个连贯的用户体验,使视觉效果真正匹配梦境解读的“氛围”。
Back to Blog

相关文章

阅读更多 »