VoxTube – 로컬 TTS를 사용해 YouTube 동영상을 오디오로 변환

발행: (2026년 1월 31일 오전 08:37 GMT+9)
2 분 소요
원문: Dev.to

Source: Dev.to

Problem

나는 YouTube 튜토리얼과 강연을 계속 대기열에 넣어두었지만 절대 시청하지 않았다. 비디오는 오디오와 달리 주의를 요구한다.

Solution

VoxTube는 YouTube 동영상에서 전사본을 추출하고 고품질 TTS를 사용해 오디오로 변환한다. 그래서 나는 통근 중, 요리 중, 운동 중에도 YouTube를 “시청”할 수 있다.

Technical details

  • Bun + Hono 로 구축 (~300줄)
  • Kokoro TTS 사용 (Docker를 통해 로컬에서 실행)
  • 생성된 오디오를 캐시
  • 클라우드 의존성 없음

What I learned

  • Bun의 파일 API는 오디오 스트리밍에 매우 편리하다.
  • 최신 TTS(Kokoro)는 놀라울 정도로 자연스럽다.
  • 대부분의 YouTube 동영상에 전사본이 제공된다.

Stats

  • MVP까지 2주
  • 약 300줄의 코드
  • 월 비용 $0 (로컬에서 실행)

GitHub:

Back to Blog

관련 글

더 보기 »