VoxTube – 将 YouTube 视频转换为音频(使用本地 TTS)

发布: (2026年1月31日 GMT+8 07:37)
1 分钟阅读
原文: Dev.to

Source: Dev.to

Problem

我一直在排队下载 YouTube 教程和演讲,却从未真正观看。视频需要的注意力方式与音频不同。

Solution

VoxTube 从 YouTube 视频中提取转录文本,并使用高质量的本地 TTS 将其转换为音频,这样我就可以在通勤、做饭和锻炼时“观看” YouTube。

Technical details

  • 使用 Bun + Hono 构建(约 300 行代码)
  • 使用 Kokoro TTS(通过 Docker 本地运行)
  • 缓存生成的音频
  • 没有云端依赖

What I learned

  • Bun 的文件 API 在流式音频处理方面非常好用。
  • 现代 TTS(Kokoro)听起来出奇地自然。
  • 大多数 YouTube 视频都有可用的转录文本。

Stats

  • 2 周完成 MVP
  • 大约 300 行代码
  • $0 月度成本(本地运行)

GitHub:

Back to Blog

相关文章

阅读更多 »