Cureau의 Replicate에서 제공하는 Force-Align-Wordstamps 모델 초보자 가이드
Source: Dev.to
이 가이드는 Force-Align-Wordstamps 라는 AI 모델에 대한 간단한 안내이며, 해당 모델은 Cureau가 관리합니다. 이런 종류의 분석이 마음에 든다면 AImodels.fyi에 가입하거나 Twitter에서 팔로우하세요.
모델 개요
force-align-wordstamps는 오디오 파일과 전사본 사이에 단어 수준의 타임스탬프 정렬을 제공합니다. whisper timestamped나 whisperx와 같은 유사 솔루션과 달리, 이 모델은 기존 전사본을 오디오에 고정밀로 매핑하는 데 뛰어납니다. Cureau가 만든 이 모델은 stable‑ts 기술을 기반으로 하여 배경 소음이 있는 상황에서도 신뢰할 수 있는 결과를 제공합니다.
모델 입력 및 출력
이 모델은 오디오 파일과 기준 전사 텍스트를 받아 정확한 단어 수준 정렬을 생성합니다. 순수 전사 모델과는 달리 제공된 전사본을 실제 정답으로 사용한다는 점이 차별점입니다.
입력
- 오디오 파일 – MP3 형식의 오디오 입력.
- 전사본 – 알려진 전사본이 포함된 텍스트 문자열.
- 확률 표시 – 신뢰 점수를 포함할지 여부를 지정하는 선택적 불리언 플래그.
출력
모델은 각 단어와 해당 타임스탬프가 포함된 배열을 담은 JSON 객체를 반환합니다:
- Word – 전사본에 있는 개별 단어.
- Start Time – 단어 시작 시점의 타임스탬프.
- End Time – 단어 종료 시점의 타임스탬프.
- Probability – 각 단어에 대한 선택적 신뢰 점수.
기능
이 정렬 시스템은 잡음이 많은 오디오에서도 작동하며, 녹음 품질이 최적이 아니더라도 전사본을 정확히 정렬할 수 있습니다.
