Word Error Rate (WER) is the percentage of words that are incorrectly transcribed. A WER of 5% means about 1 in 20 words is wrong. Chinese uses CER (Character Error Rate) since Chinese text doesn't use spaces between words.

Why is the base model so much worse for Japanese and Korean?

Japanese and Korean have complex writing systems and rely heavily on context for correct character selection. Smaller models lack the capacity to capture this context well. Always use the large model for these languages.

Why don't Chinese and Thai have a model size option?

GeekLink uses purpose-built recognition engines for Chinese and Thai that are optimized specifically for those languages. These deliver consistently high accuracy without you needing to select a model size.

各语言语音识别准确率：WER 参考表

并非所有语言在 AI 语音识别中的效果都一样。本页面对比了 GeekLink 支持的 22 种语言的转录准确率，帮助你在处理视频前选择合适的模型大小，避免意外。

什么是 WER？

WER（词错误率）衡量被错误转录的词语比例——越低越好。中文使用 CER（字错误率），因为中文没有词边界。WER 为 5% 意味着在清晰音频中大约每 20 个词有 1 个错误。

以下数值为基准数据集的参考值。实际准确率会因音频质量、背景噪音、口音和语速的不同而有所变化。

语言准确率速查表

默认模型 = 推荐（应用默认）。更大的模型耗时更长但识别更准确——尤其对日语和韩语。

语言	推荐模型	最佳 WER	快速 WER	评级
Simplified Chinese	专用引擎	~3–5% CER	~3–5% CER	★★★★★
Traditional Chinese	专用引擎	~3–5% CER	~3–5% CER	★★★★★
Spanish	高精度 / 最高精度	~3–4%	~14–18%	★★★★★
English	高精度 / 最高精度	~4–5%	~12–16%	★★★★★
French	高精度 / 最高精度	~6–7%	~18–24%	★★★★
German	高精度 / 最高精度	~5–7%	~17–22%	★★★★
Italian	高精度 / 最高精度	~5–7%	~17–22%	★★★★
Portuguese	高精度 / 最高精度	~5–6%	~16–21%	★★★★
Russian	最高精度	~8–12%	~22–28%	★★★★
Dutch	高精度 / 最高精度	~6–9%	~18–24%	★★★★
Turkish	高精度 / 最高精度	~7–10%	~20–26%	★★★★
Indonesian	高精度 / 最高精度	~7–10%	~20–26%	★★★★
Polish	高精度 / 最高精度	~7–10%	~20–26%	★★★★
Swedish	高精度 / 最高精度	~7–10%	~18–24%	★★★★
Catalan	高精度 / 最高精度	~5–8%	~14–18%	★★★★
Czech	高精度 / 最高精度	~7–10%	~20–26%	★★★★
Norwegian	高精度 / 最高精度	~7–10%	~18–24%	★★★★
Danish	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Finnish	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Hungarian	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Greek	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Romanian	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Malay	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Arabic	最高精度	~10–16%	~26–34%	★★★
Thai	专用引擎	差异显著	—	★★
Japanese	最高精度必须	~10–14%	~28–35%	★★★
Korean	最高精度必须	~10–13%	~26–32%	★★★
Slovenian	最高精度	~10–15%	~28–35%	★★★
Hindi	最高精度	~12–18%	~30–40%	★★★
Ukrainian	最高精度	~12–18%	~28–36%	★★★
Vietnamese	最高精度	~14–20%	~32–40%	★★★
Croatian	最高精度	~10–15%	~26–34%	★★★
Slovak	最高精度	~10–15%	~26–34%	★★★
Bulgarian	最高精度	~10–15%	~26–34%	★★★
Serbian	最高精度	~10–15%	~26–34%	★★★
Hebrew	最高精度	~10–15%	~26–34%	★★★
Persian	最高精度	~10–15%	~26–34%	★★★
Filipino	最高精度	~12–18%	~28–36%	★★★
Lithuanian	最高精度	~12–18%	~28–36%	★★★
Latvian	最高精度	~12–18%	~28–36%	★★★
Estonian	最高精度	~12–18%	~28–36%	★★★
Azerbaijani	最高精度	~12–18%	~28–36%	★★★
Bengali	最高精度	~15–20%	~32–40%	★★★
Urdu	最高精度	~15–20%	~32–40%	★★★
Tamil	最高精度	~15–20%	~32–40%	★★★
Nepali	最高精度	~15–22%	~34–42%	★★★
Swahili	最高精度	~15–22%	~34–42%	★★★
Georgian	最高精度	~15–22%	~34–42%	★★★
Icelandic	最高精度	~15–22%	~34–42%	★★★

来源：公开语音识别基准测试（Fleurs 数据集）及专项模型评估。实际结果可能有所不同。

模型大小 vs 准确率 vs 速度

GeekLink 允许你选择模型大小。更大的模型需要更多时间和磁盘空间，但能显著提升效果——特别是对日语和韩语。

模型	下载大小	速度	质量	最适用于
极速	75 MB	最快 (~10x)	较差	仅用于快速预览
快速	142 MB	快 (~7x)	一般	中文/西班牙语快速通过
均衡	466 MB	中等 (~4x)	良好	欧洲语言日常使用
高精度	1.5 GB	较慢 (~2x)	很好	西班牙语/英语/法语推荐
推荐应用默认	1.6 GB	快 (~6x)	很好	大多数语言的最佳速度-准确率平衡
最高精度	2.9 GB	最慢 (1x)	最佳	日语/韩语必选；其他语言追求最高准确率

模型选择建议

中文和泰语：GeekLink 对这两种语言使用专用引擎。中文准确率始终较高。泰语准确率因内容差异较大——标准语音效果好，但日常对话和方言可能效果不佳。
日语和韩语：强烈推荐最高精度模型。快速模型的错误率很高（26–35%），会遗漏大量词汇。
西班牙语、英语、法语、德语、意大利语、葡萄牙语、荷兰语、土耳其语、印尼语、波兰语、瑞典语、加泰罗尼亚语、捷克语、挪威语、丹麦语、芬兰语、匈牙利语、希腊语、罗马尼亚语、马来语：高精度是速度与准确率的最佳平衡。追求专业级输出请使用最高精度。
俄语：最高精度有明显提升；高精度也可接受。
阿拉伯语、印地语、乌克兰语、越南语、斯洛文尼亚语、克罗地亚语、斯洛伐克语、保加利亚语、塞尔维亚语、希伯来语、波斯语、菲律宾语、立陶宛语、拉脱维亚语、爱沙尼亚语、阿塞拜疆语、孟加拉语、乌尔都语、泰米尔语、尼泊尔语、斯瓦希里语、格鲁吉亚语、冰岛语：推荐使用最高精度模型。标准发音配合清晰音频效果最佳。

已知限制

背景音乐：GeekLink 会进行静音预处理，但严重的人声/音乐重叠会降低所有语言的准确率。
方言和口音：标准口音效果最好。方言（如粤语、四川普通话）即使使用专用引擎，错误率也较高。
日语汉字：书写形式可能与标准惯例不同——翻译前请检查关键术语。
句子分割：AI 有时会产生过长的句子。使用 GeekLink 的字幕编辑器按需拆分。

常见问题

WER 是什么意思？

词错误率（WER）是被错误转录的词语百分比。WER 为 5% 意味着大约每 20 个词中有 1 个错误。中文使用 CER（字错误率），因为中文文本在词与词之间没有空格。

为什么基础模型对日语和韩语的效果差那么多？

日语和韩语有复杂的书写系统（汉字、韩国汉字），高度依赖上下文来选择正确的字符。小模型缺乏足够的容量来捕捉这些上下文，导致错误率非常高。这两种语言请务必使用大模型。

为什么中文和泰语没有模型大小选项？

GeekLink 对中文和泰语使用了专门针对这些语言优化的专用识别引擎。它们无需你选择模型大小就能持续提供高准确率。

使用大模型能提高中文的准确率吗？

不能。中文使用的是已针对普通话高度优化的专用引擎。切换模型大小不适用于中文识别。

开始使用 GeekLink

免费下载，体验 AI 驱动的字幕工具。

免费下载