Cureau 在 Replicate 上的 Force-Align-Wordstamps 模型初学者指南

发布: 1个月前 (2026年1月5日 GMT+8 12:09)

2 分钟阅读

Source: Dev.to

这是一篇关于 AI 模型 Force-Align-Wordstamps 的简明指南，该模型由 Cureau 维护。如果你喜欢这类分析，欢迎加入 AImodels.fyi 或在 Twitter 上关注我们。

模型概述

force-align-wordstamps 能在音频文件和文字稿之间提供词级时间戳对齐。与类似的解决方案（如 whisper timestamped 或 whisperx）不同，这个模型在将已有文字稿与音频高精度匹配方面表现出色。模型由 Cureau 开发，基于 stable‑ts 技术，即使在背景噪音环境下也能提供可靠的结果。

模型输入与输出

模型接受音频文件和参考文字稿，生成精确的词级对齐。与纯转录模型不同的是，它使用提供的文字稿作为真实基准。

输入

音频文件 – MP3 格式的音频输入。
文字稿 – 包含已知文字稿的文本字符串。
显示概率 – 可选的布尔标志，用于包含置信度分数。

输出

模型返回一个 JSON 对象，其中包含一个词数组以及对应的时间戳：

Word – 文字稿中的单个词。
Start Time – 词开始的时间戳。
End Time – 词结束的时间戳。
Probability – 每个词的可选置信度分数。

能力

对齐系统能够处理嘈杂的音频，即使录音质量不佳，也能准确对齐文字稿。

阅读 Force-Align-Wordstamps 的完整指南

Cureau 在 Replicate 上的 Force-Align-Wordstamps 模型初学者指南

模型概述

模型输入与输出

输入

输出

能力

相关文章

初学者指南：Lucetaco 在 Replicate 上的 Singing_voice_conversion 模型

Sora2-Watermark-Remover 模型初学者指南（Uglyrobot，Replicate）

Lucataco 在 Replicate 上的 Higgs‑Audio‑V2 模型入门指南

Fermatresearch 在 Replicate 上的 Sdxl‑Controlnet‑Lora 模型初学者指南