并非所有语言在 AI 语音识别中的效果都一样。本页面对比了 GeekLink 支持的 22 种语言的转录准确率,帮助你在处理视频前选择合适的模型大小,避免意外。
WER(词错误率)衡量被错误转录的词语比例——越低越好。中文使用 CER(字错误率),因为中文没有词边界。WER 为 5% 意味着在清晰音频中大约每 20 个词有 1 个错误。
以下数值为基准数据集的参考值。实际准确率会因音频质量、背景噪音、口音和语速的不同而有所变化。
默认模型 = 推荐(应用默认)。更大的模型耗时更长但识别更准确——尤其对日语和韩语。
| 语言 | 推荐模型 | 最佳 WER | 快速 WER | 评级 |
|---|---|---|---|---|
| 🇨🇳 Simplified Chinese | 专用引擎 | ~3–5% CER | ~3–5% CER | ⭐⭐⭐⭐⭐ |
| 🇹🇼 Traditional Chinese | 专用引擎 | ~3–5% CER | ~3–5% CER | ⭐⭐⭐⭐⭐ |
| 🇪🇸 Spanish | 高精度 / 最高精度 | ~3–4% | ~14–18% | ⭐⭐⭐⭐⭐ |
| 🇬🇧 English | 高精度 / 最高精度 | ~4–5% | ~12–16% | ⭐⭐⭐⭐⭐ |
| 🇫🇷 French | 高精度 / 最高精度 | ~6–7% | ~18–24% | ⭐⭐⭐⭐ |
| 🇩🇪 German | 高精度 / 最高精度 | ~5–7% | ~17–22% | ⭐⭐⭐⭐ |
| 🇮🇹 Italian | 高精度 / 最高精度 | ~5–7% | ~17–22% | ⭐⭐⭐⭐ |
| 🇵🇹 Portuguese | 高精度 / 最高精度 | ~5–6% | ~16–21% | ⭐⭐⭐⭐ |
| 🇷🇺 Russian | 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇳🇱 Dutch | 高精度 / 最高精度 | ~6–9% | ~18–24% | ⭐⭐⭐⭐ |
| 🇹🇷 Turkish | 高精度 / 最高精度 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇮🇩 Indonesian | 高精度 / 最高精度 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇵🇱 Polish | 高精度 / 最高精度 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇸🇪 Swedish | 高精度 / 最高精度 | ~7–10% | ~18–24% | ⭐⭐⭐⭐ |
| 🇪🇸 Catalan | 高精度 / 最高精度 | ~5–8% | ~14–18% | ⭐⭐⭐⭐ |
| 🇨🇿 Czech | 高精度 / 最高精度 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇳🇴 Norwegian | 高精度 / 最高精度 | ~7–10% | ~18–24% | ⭐⭐⭐⭐ |
| 🇩🇰 Danish | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇫🇮 Finnish | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇭🇺 Hungarian | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇬🇷 Greek | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇷🇴 Romanian | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇲🇾 Malay | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇸🇦 Arabic | 最高精度 | ~10–16% | ~26–34% | ⭐⭐⭐ |
| 🇹🇭 Thai | 专用引擎 | 差异显著 | — | ⭐⭐ |
| 🇯🇵 Japanese | 最高精度 必须 | ~10–14% | ~28–35% | ⭐⭐⭐ |
| 🇰🇷 Korean | 最高精度 必须 | ~10–13% | ~26–32% | ⭐⭐⭐ |
| 🇸🇮 Slovenian | 最高精度 | ~10–15% | ~28–35% | ⭐⭐⭐ |
| 🇮🇳 Hindi | 最高精度 | ~12–18% | ~30–40% | ⭐⭐⭐ |
| 🇺🇦 Ukrainian | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇻🇳 Vietnamese | 最高精度 | ~14–20% | ~32–40% | ⭐⭐⭐ |
| 🇭🇷 Croatian | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇸🇰 Slovak | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇧🇬 Bulgarian | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇷🇸 Serbian | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇮🇱 Hebrew | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇮🇷 Persian | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇵🇭 Filipino | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇱🇹 Lithuanian | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇱🇻 Latvian | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇪🇪 Estonian | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇦🇿 Azerbaijani | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇧🇩 Bengali | 最高精度 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇵🇰 Urdu | 最高精度 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇮🇳 Tamil | 最高精度 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇳🇵 Nepali | 最高精度 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇰🇪 Swahili | 最高精度 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇬🇪 Georgian | 最高精度 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇮🇸 Icelandic | 最高精度 | ~15–22% | ~34–42% | ⭐⭐⭐ |
来源:公开语音识别基准测试(Fleurs 数据集)及专项模型评估。实际结果可能有所不同。
GeekLink 允许你选择模型大小。更大的模型需要更多时间和磁盘空间,但能显著提升效果——特别是对日语和韩语。
| 模型 | 下载大小 | 速度 | 质量 | 最适用于 |
|---|---|---|---|---|
| 极速 | 75 MB | 最快 (~10x) | 较差 | 仅用于快速预览 |
| 快速 | 142 MB | 快 (~7x) | 一般 | 中文/西班牙语快速通过 |
| 均衡 | 466 MB | 中等 (~4x) | 良好 | 欧洲语言日常使用 |
| 高精度 | 1.5 GB | 较慢 (~2x) | 很好 | 西班牙语/英语/法语推荐 |
| 推荐 应用默认 | 1.6 GB | 快 (~6x) | 很好 | 大多数语言的最佳速度-准确率平衡 |
| 最高精度 | 2.9 GB | 最慢 (1x) | 最佳 | 日语/韩语必选;其他语言追求最高准确率 |
词错误率(WER)是被错误转录的词语百分比。WER 为 5% 意味着大约每 20 个词中有 1 个错误。中文使用 CER(字错误率),因为中文文本在词与词之间没有空格。
日语和韩语有复杂的书写系统(汉字、韩国汉字),高度依赖上下文来选择正确的字符。小模型缺乏足够的容量来捕捉这些上下文,导致错误率非常高。这两种语言请务必使用大模型。
GeekLink 对中文和泰语使用了专门针对这些语言优化的专用识别引擎。它们无需你选择模型大小就能持续提供高准确率。
不能。中文使用的是已针对普通话高度优化的专用引擎。切换模型大小不适用于中文识别。