VoxTube – 로컬 TTS를 사용해 YouTube 동영상을 오디오로 변환

발행: 3개월 전 (2026년 1월 31일 오전 08:37 GMT+9)

2 분 소요

원문: Dev.to

Source: Dev.to

Problem

나는 YouTube 튜토리얼과 강연을 계속 대기열에 넣어두었지만 절대 시청하지 않았다. 비디오는 오디오와 달리 주의를 요구한다.

Solution

VoxTube는 YouTube 동영상에서 전사본을 추출하고 고품질 TTS를 사용해 오디오로 변환한다. 그래서 나는 통근 중, 요리 중, 운동 중에도 YouTube를 “시청”할 수 있다.

Technical details

Bun + Hono 로 구축 (~300줄)
Kokoro TTS 사용 (Docker를 통해 로컬에서 실행)
생성된 오디오를 캐시
클라우드 의존성 없음

What I learned

Bun의 파일 API는 오디오 스트리밍에 매우 편리하다.
최신 TTS(Kokoro)는 놀라울 정도로 자연스럽다.
대부분의 YouTube 동영상에 전사본이 제공된다.

Stats

MVP까지 2주
약 300줄의 코드
월 비용 $0 (로컬에서 실행)

GitHub:

관련 글

claude‑provider(플러그인 + CLI)로 몇 초 만에 Claude Code 제공자를 전환

설치 bash npm i -g claude-provider 이 명령은 CLI 도구와 Claude Code 플러그인을 모두 설치합니다. Claude Code 텍스트 /plugin marketplace에서 플러그인을 추가합니다.

OpenClaw를 5-10분 안에 설정하는 방법 (Mac Mini 없음, VPS 없음, 코드 없음)

TL;DR: Emergent는 OpenClaw 설정을 터무니없이 쉽게 만들었습니다. $500짜리 Mac Mini도 필요 없고, 혼란스러운 터미널 명령도 없습니다. 버튼 하나만 클릭하면 바로 실행됩니다.

두 개의 EC2 인스턴스에서 Prometheus + Node Exporter

📘 Ubuntu AWS EC2에서 Prometheus + Node Exporter

Weaviate가 Claude Code와 함께 Agentic Developer Systems 구축에 최고의 선택, 그 이유는!

Agentic Development with Claude Code & Weaviate AI‑assisted development은 채팅 기반 도구를 훨씬 넘어섰습니다. 현대 팀은 다음과 같은 AI 에이전트를 원합니다: - Understa...