Cureau 在 Replicate 上的 Force-Align-Wordstamps 模型初学者指南
Source: Dev.to
这是一篇关于 AI 模型 Force-Align-Wordstamps 的简明指南,该模型由 Cureau 维护。如果你喜欢这类分析,欢迎加入 AImodels.fyi 或在 Twitter 上关注我们。
模型概述
force-align-wordstamps 能在音频文件和文字稿之间提供词级时间戳对齐。与类似的解决方案(如 whisper timestamped 或 whisperx)不同,这个模型在将已有文字稿与音频高精度匹配方面表现出色。模型由 Cureau 开发,基于 stable‑ts 技术,即使在背景噪音环境下也能提供可靠的结果。
模型输入与输出
模型接受音频文件和参考文字稿,生成精确的词级对齐。与纯转录模型不同的是,它使用提供的文字稿作为真实基准。
输入
- 音频文件 – MP3 格式的音频输入。
- 文字稿 – 包含已知文字稿的文本字符串。
- 显示概率 – 可选的布尔标志,用于包含置信度分数。
输出
模型返回一个 JSON 对象,其中包含一个词数组以及对应的时间戳:
- Word – 文字稿中的单个词。
- Start Time – 词开始的时间戳。
- End Time – 词结束的时间戳。
- Probability – 每个词的可选置信度分数。
能力
对齐系统能够处理嘈杂的音频,即使录音质量不佳,也能准确对齐文字稿。
