我构建了一个实时反驳你创业路演的 AI
I’m happy to translate the article for you, but I need the full text of the post in order to do so. Could you please paste the article’s content here (excluding the source line you already provided)? Once I have the text, I’ll translate it into Simplified Chinese while preserving the original formatting, markdown, and technical terms.
PitchFire概述

每位创始人都经历过这种情况。你反复演练你的路演,直到它听起来无懈可击,走进会议室后,投资人抛出一个问题让一切瞬间崩塌——并不是因为想法不好,而是因为你从未有人来反驳。
这正是我为 Gemini Live Agent Challenge 2026 构建的项目:PitchFire,一个实时 AI 路演“钢铁人”代理,它会挑战你提出的每一个薄弱论点,验证每一个强有力的论点,并仅根据你成功捍卫的论据生成一套经受考验的路演幻灯片。
- 现场演示:
- 源代码:
工作原理
- 开始讲话 – 轻点球体并开始你的推介。
- 语音活动检测 – PitchFire 监听停顿。当你停止讲话时,它会捕获该段音频,发送至 Gemini 2.5 Flash,并在 2–3 秒内返回一张挑战卡。
示例卡片
弱声明 – “我们的 TAM 为 500 亿美元。”
- 红色挑战卡: “500 亿美元的 TAM 来自哪个来源?哪一年?在 24 个月内你 realistically 能捕获多少百分比?没有 SAM/SOM 的 TAM 只是戏剧化。”
- 你的信念分数会下降。
强声明 – “我们有 3 个付费试点,每月 5 千美元。”
- 绿色验证卡: 分数上升。
- 结束推介 – 点击 END,Gemini 会生成仅包含通过验证的声明的推介稿。
模式
- 中断模式 – 在检测到不一致或你沉默时中断。
- 完整推介模式 – 等待 3 秒的沉默,然后在整个推介结束后提供完整的解析。
每张卡提供三种操作:
- 阅读 – 查看完整挑战。
- ▶ 听 – 听取朗读内容。
- ↩ 回应 – 输入直接的辩护,该信息会通过 Gemini 发送回去,以保持对该特定声明的对话锚点。
技术栈
音频管道是系统的核心。
// Browser audio capture (simplified)
const audioContext = new (window.AudioContext || window.webkitAudioContext)();
const processor = audioContext.createScriptProcessor(4096, 1, 1);
processor.onaudioprocess = (e) => {
const input = e.inputBuffer.getChannelData(0);
const rms = Math.sqrt(
input.reduce((sum, sample) => sum + sample * sample, 0) / input.length
);
// Detect voice activity based on RMS threshold
// Accumulate chunks while voice is present
// When silence exceeds threshold, concatenate chunks,
// prepend 44‑byte WAV header, base64‑encode, and POST to Gemini
};
navigator.mediaDevices.getUserMedia({ audio: true })
.then(stream => {
const source = audioContext.createMediaStreamSource(stream);
source.connect(processor);
processor.connect(audioContext.destination);
});- 捕获 – 通过
ScriptProcessorNode以 16 kHz 的原始 PCM16。 - VAD – 每个缓冲区的 RMS 音量用于判断语音活动。
- 打包 – 将块拼接,添加 44‑字节的 WAV 头部,进行 Base64 编码,并发送到 Gemini 的多模态 REST 接口。
Gemini 所实现的可能性
整个产品依赖于一个精心设计的 Gemini 提示。模型:
- 转录 音频。
- 分析 每个声明,一次调用完成。
- 分类 声明为弱或强。
- 生成 投资者风格的挑战或验证,引用反证据,对声明打分,并在六个推介维度上进行分类。
如果没有 Gemini 同时处理多模态输入和结构化推理的能力,这个产品根本不存在。Gemini 2.5 Flash API 将构建时间从数月缩短到几天。
接下来
- 投资者角色模式 – VC、天使、战略。
- 团队练习模式 – 多位创始人可以一起练习。
- 集成 – 与流行的 pitch‑deck 工具连接。
为 Gemini Live Agent Challenge 2026 单独构建。