我构建了一个实时反驳你创业路演的 AI

发布: (2026年3月16日 GMT+8 14:18)
5 分钟阅读
原文: Dev.to

I’m happy to translate the article for you, but I need the full text of the post in order to do so. Could you please paste the article’s content here (excluding the source line you already provided)? Once I have the text, I’ll translate it into Simplified Chinese while preserving the original formatting, markdown, and technical terms.

PitchFire概述

Cover image for I Built an AI That Argues Back at Your Startup Pitch in Real Time

每位创始人都经历过这种情况。你反复演练你的路演,直到它听起来无懈可击,走进会议室后,投资人抛出一个问题让一切瞬间崩塌——并不是因为想法不好,而是因为你从未有人来反驳。

这正是我为 Gemini Live Agent Challenge 2026 构建的项目:PitchFire,一个实时 AI 路演“钢铁人”代理,它会挑战你提出的每一个薄弱论点,验证每一个强有力的论点,并仅根据你成功捍卫的论据生成一套经受考验的路演幻灯片。

  • 现场演示:
  • 源代码:

工作原理

  1. 开始讲话 – 轻点球体并开始你的推介。
  2. 语音活动检测 – PitchFire 监听停顿。当你停止讲话时,它会捕获该段音频,发送至 Gemini 2.5 Flash,并在 2–3 秒内返回一张挑战卡。

示例卡片

  • 弱声明 – “我们的 TAM 为 500 亿美元。”

    • 红色挑战卡: “500 亿美元的 TAM 来自哪个来源?哪一年?在 24 个月内你 realistically 能捕获多少百分比?没有 SAM/SOM 的 TAM 只是戏剧化。”
    • 你的信念分数会下降。
  • 强声明 – “我们有 3 个付费试点,每月 5 千美元。”

    • 绿色验证卡: 分数上升。
  1. 结束推介 – 点击 END,Gemini 会生成仅包含通过验证的声明的推介稿。

模式

  • 中断模式 – 在检测到不一致或你沉默时中断。
  • 完整推介模式 – 等待 3 秒的沉默,然后在整个推介结束后提供完整的解析。

每张卡提供三种操作:

  • 阅读 – 查看完整挑战。
  • ▶ 听 – 听取朗读内容。
  • ↩ 回应 – 输入直接的辩护,该信息会通过 Gemini 发送回去,以保持对该特定声明的对话锚点。

技术栈

音频管道是系统的核心。

// Browser audio capture (simplified)
const audioContext = new (window.AudioContext || window.webkitAudioContext)();
const processor = audioContext.createScriptProcessor(4096, 1, 1);
processor.onaudioprocess = (e) => {
  const input = e.inputBuffer.getChannelData(0);
  const rms = Math.sqrt(
    input.reduce((sum, sample) => sum + sample * sample, 0) / input.length
  );
  // Detect voice activity based on RMS threshold
  // Accumulate chunks while voice is present
  // When silence exceeds threshold, concatenate chunks,
  // prepend 44‑byte WAV header, base64‑encode, and POST to Gemini
};
navigator.mediaDevices.getUserMedia({ audio: true })
  .then(stream => {
    const source = audioContext.createMediaStreamSource(stream);
    source.connect(processor);
    processor.connect(audioContext.destination);
  });
  • 捕获 – 通过 ScriptProcessorNode 以 16 kHz 的原始 PCM16。
  • VAD – 每个缓冲区的 RMS 音量用于判断语音活动。
  • 打包 – 将块拼接,添加 44‑字节的 WAV 头部,进行 Base64 编码,并发送到 Gemini 的多模态 REST 接口。

Gemini 所实现的可能性

整个产品依赖于一个精心设计的 Gemini 提示。模型:

  • 转录 音频。
  • 分析 每个声明,一次调用完成。
  • 分类 声明为弱或强。
  • 生成 投资者风格的挑战或验证,引用反证据,对声明打分,并在六个推介维度上进行分类。

如果没有 Gemini 同时处理多模态输入和结构化推理的能力,这个产品根本不存在。Gemini 2.5 Flash API 将构建时间从数月缩短到几天。

接下来

  • 投资者角色模式 – VC、天使、战略。
  • 团队练习模式 – 多位创始人可以一起练习。
  • 集成 – 与流行的 pitch‑deck 工具连接。

为 Gemini Live Agent Challenge 2026 单独构建。

0 浏览
Back to Blog

相关文章

阅读更多 »