Show HN:我训练了一个 9M 语音模型来纠正我的普通话声调
发布: (2026年1月31日 GMT+8 08:51)
1 分钟阅读
原文: Hacker News
Source: Hacker News
Model Overview
我构建它是因为声调毁了我的普通话口语,而且我无法可靠地听出自己的错误。
它是一个 9M Conformer‑CTC 模型,使用约 300 h(AISHELL + Primewords)进行训练,量化为 INT8(11 MB),并通过 ONNX Runtime Web 在 100 % in‑browser 环境下运行。
该模型使用 Viterbi 强制算法,对每个音节的发音 + 声调 进行评分。