各语言语音识别准确率:WER 参考表

并非所有语言在 AI 语音识别中的效果都一样。本页面对比了 GeekLink 支持的 22 种语言的转录准确率,帮助你在处理视频前选择合适的模型大小,避免意外。

什么是 WER?

WER(词错误率)衡量被错误转录的词语比例——越低越好。中文使用 CER(字错误率),因为中文没有词边界。WER 为 5% 意味着在清晰音频中大约每 20 个词有 1 个错误。

以下数值为基准数据集的参考值。实际准确率会因音频质量、背景噪音、口音和语速的不同而有所变化。

语言准确率速查表

默认模型 = 推荐(应用默认)。更大的模型耗时更长但识别更准确——尤其对日语和韩语。

语言 推荐模型 最佳 WER 快速 WER 评级
🇨🇳 Simplified Chinese 专用引擎 ~3–5% CER ~3–5% CER ⭐⭐⭐⭐⭐
🇹🇼 Traditional Chinese 专用引擎 ~3–5% CER ~3–5% CER ⭐⭐⭐⭐⭐
🇪🇸 Spanish 高精度 / 最高精度 ~3–4% ~14–18% ⭐⭐⭐⭐⭐
🇬🇧 English 高精度 / 最高精度 ~4–5% ~12–16% ⭐⭐⭐⭐⭐
🇫🇷 French 高精度 / 最高精度 ~6–7% ~18–24% ⭐⭐⭐⭐
🇩🇪 German 高精度 / 最高精度 ~5–7% ~17–22% ⭐⭐⭐⭐
🇮🇹 Italian 高精度 / 最高精度 ~5–7% ~17–22% ⭐⭐⭐⭐
🇵🇹 Portuguese 高精度 / 最高精度 ~5–6% ~16–21% ⭐⭐⭐⭐
🇷🇺 Russian 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇳🇱 Dutch 高精度 / 最高精度 ~6–9% ~18–24% ⭐⭐⭐⭐
🇹🇷 Turkish 高精度 / 最高精度 ~7–10% ~20–26% ⭐⭐⭐⭐
🇮🇩 Indonesian 高精度 / 最高精度 ~7–10% ~20–26% ⭐⭐⭐⭐
🇵🇱 Polish 高精度 / 最高精度 ~7–10% ~20–26% ⭐⭐⭐⭐
🇸🇪 Swedish 高精度 / 最高精度 ~7–10% ~18–24% ⭐⭐⭐⭐
🇪🇸 Catalan 高精度 / 最高精度 ~5–8% ~14–18% ⭐⭐⭐⭐
🇨🇿 Czech 高精度 / 最高精度 ~7–10% ~20–26% ⭐⭐⭐⭐
🇳🇴 Norwegian 高精度 / 最高精度 ~7–10% ~18–24% ⭐⭐⭐⭐
🇩🇰 Danish 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇫🇮 Finnish 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇭🇺 Hungarian 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇬🇷 Greek 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇷🇴 Romanian 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇲🇾 Malay 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇸🇦 Arabic 最高精度 ~10–16% ~26–34% ⭐⭐⭐
🇹🇭 Thai 专用引擎 差异显著 ⭐⭐
🇯🇵 Japanese 最高精度 必须 ~10–14% ~28–35% ⭐⭐⭐
🇰🇷 Korean 最高精度 必须 ~10–13% ~26–32% ⭐⭐⭐
🇸🇮 Slovenian 最高精度 ~10–15% ~28–35% ⭐⭐⭐
🇮🇳 Hindi 最高精度 ~12–18% ~30–40% ⭐⭐⭐
🇺🇦 Ukrainian 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇻🇳 Vietnamese 最高精度 ~14–20% ~32–40% ⭐⭐⭐
🇭🇷 Croatian 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇸🇰 Slovak 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇧🇬 Bulgarian 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇷🇸 Serbian 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇮🇱 Hebrew 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇮🇷 Persian 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇵🇭 Filipino 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇱🇹 Lithuanian 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇱🇻 Latvian 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇪🇪 Estonian 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇦🇿 Azerbaijani 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇧🇩 Bengali 最高精度 ~15–20% ~32–40% ⭐⭐⭐
🇵🇰 Urdu 最高精度 ~15–20% ~32–40% ⭐⭐⭐
🇮🇳 Tamil 最高精度 ~15–20% ~32–40% ⭐⭐⭐
🇳🇵 Nepali 最高精度 ~15–22% ~34–42% ⭐⭐⭐
🇰🇪 Swahili 最高精度 ~15–22% ~34–42% ⭐⭐⭐
🇬🇪 Georgian 最高精度 ~15–22% ~34–42% ⭐⭐⭐
🇮🇸 Icelandic 最高精度 ~15–22% ~34–42% ⭐⭐⭐

来源:公开语音识别基准测试(Fleurs 数据集)及专项模型评估。实际结果可能有所不同。

模型大小 vs 准确率 vs 速度

GeekLink 允许你选择模型大小。更大的模型需要更多时间和磁盘空间,但能显著提升效果——特别是对日语和韩语。

模型 下载大小 速度 质量 最适用于
极速 75 MB 最快 (~10x) 较差 仅用于快速预览
快速 142 MB 快 (~7x) 一般 中文/西班牙语快速通过
均衡 466 MB 中等 (~4x) 良好 欧洲语言日常使用
高精度 1.5 GB 较慢 (~2x) 很好 西班牙语/英语/法语推荐
推荐 应用默认 1.6 GB 快 (~6x) 很好 大多数语言的最佳速度-准确率平衡
最高精度 2.9 GB 最慢 (1x) 最佳 日语/韩语必选;其他语言追求最高准确率

模型选择建议

已知限制

常见问题

WER 是什么意思?

词错误率(WER)是被错误转录的词语百分比。WER 为 5% 意味着大约每 20 个词中有 1 个错误。中文使用 CER(字错误率),因为中文文本在词与词之间没有空格。

为什么基础模型对日语和韩语的效果差那么多?

日语和韩语有复杂的书写系统(汉字、韩国汉字),高度依赖上下文来选择正确的字符。小模型缺乏足够的容量来捕捉这些上下文,导致错误率非常高。这两种语言请务必使用大模型。

为什么中文和泰语没有模型大小选项?

GeekLink 对中文和泰语使用了专门针对这些语言优化的专用识别引擎。它们无需你选择模型大小就能持续提供高准确率。

使用大模型能提高中文的准确率吗?

不能。中文使用的是已针对普通话高度优化的专用引擎。切换模型大小不适用于中文识别。

相关文章

开始使用 GeekLink

免费下载,体验 AI 驱动的字幕工具。

免费下载