AI 音声認識において、すべての言語が同じ精度というわけではありません。このページでは GeekLink がサポートする 22 言語の文字起こし精度を比較しているので、動画処理前に適切なモデルサイズを選択し、想定外の結果を避けることができます。
WER(単語誤り率)は、誤って文字起こしされた単語の割合を測定します——低いほど良い結果です。中国語は単語の境界がないため、代わりに CER(文字誤り率)を使用します。WER 5% とは、クリアな音声で約 20 語に 1 語の誤りがあることを意味します。
以下の数値はベンチマークデータセットからの参照値です。実際の精度は音声品質、背景ノイズ、アクセント、話速によって異なります。
デフォルトモデル = 推奨(アプリのデフォルト)。大きいモデルは時間がかかりますが、より正確に認識します——特に日本語と韓国語で顕著です。
| 言語 | 推奨モデル | 最良 WER | 高速 WER | 評価 |
|---|---|---|---|---|
| 🇨🇳 Simplified Chinese | 専用エンジン | ~3–5% CER | ~3–5% CER | ⭐⭐⭐⭐⭐ |
| 🇹🇼 Traditional Chinese | 専用エンジン | ~3–5% CER | ~3–5% CER | ⭐⭐⭐⭐⭐ |
| 🇪🇸 Spanish | 高精度 / 最高精度 | ~3–4% | ~14–18% | ⭐⭐⭐⭐⭐ |
| 🇬🇧 English | 高精度 / 最高精度 | ~4–5% | ~12–16% | ⭐⭐⭐⭐⭐ |
| 🇫🇷 French | 高精度 / 最高精度 | ~6–7% | ~18–24% | ⭐⭐⭐⭐ |
| 🇩🇪 German | 高精度 / 最高精度 | ~5–7% | ~17–22% | ⭐⭐⭐⭐ |
| 🇮🇹 Italian | 高精度 / 最高精度 | ~5–7% | ~17–22% | ⭐⭐⭐⭐ |
| 🇵🇹 Portuguese | 高精度 / 最高精度 | ~5–6% | ~16–21% | ⭐⭐⭐⭐ |
| 🇷🇺 Russian | 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇳🇱 Dutch | 高精度 / 最高精度 | ~6–9% | ~18–24% | ⭐⭐⭐⭐ |
| 🇹🇷 Turkish | 高精度 / 最高精度 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇮🇩 Indonesian | 高精度 / 最高精度 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇵🇱 Polish | 高精度 / 最高精度 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇸🇪 Swedish | 高精度 / 最高精度 | ~7–10% | ~18–24% | ⭐⭐⭐⭐ |
| 🇪🇸 Catalan | 高精度 / 最高精度 | ~5–8% | ~14–18% | ⭐⭐⭐⭐ |
| 🇨🇿 Czech | 高精度 / 最高精度 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇳🇴 Norwegian | 高精度 / 最高精度 | ~7–10% | ~18–24% | ⭐⭐⭐⭐ |
| 🇩🇰 Danish | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇫🇮 Finnish | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇭🇺 Hungarian | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇬🇷 Greek | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇷🇴 Romanian | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇲🇾 Malay | 高精度 / 最高精度 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇸🇦 Arabic | 最高精度 | ~10–16% | ~26–34% | ⭐⭐⭐ |
| 🇹🇭 Thai | 専用エンジン | 大きなばらつきあり | — | ⭐⭐ |
| 🇯🇵 Japanese | 最高精度 必須 | ~10–14% | ~28–35% | ⭐⭐⭐ |
| 🇰🇷 Korean | 最高精度 必須 | ~10–13% | ~26–32% | ⭐⭐⭐ |
| 🇸🇮 Slovenian | 最高精度 | ~10–15% | ~28–35% | ⭐⭐⭐ |
| 🇮🇳 Hindi | 最高精度 | ~12–18% | ~30–40% | ⭐⭐⭐ |
| 🇺🇦 Ukrainian | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇻🇳 Vietnamese | 最高精度 | ~14–20% | ~32–40% | ⭐⭐⭐ |
| 🇭🇷 Croatian | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇸🇰 Slovak | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇧🇬 Bulgarian | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇷🇸 Serbian | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇮🇱 Hebrew | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇮🇷 Persian | 最高精度 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇵🇭 Filipino | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇱🇹 Lithuanian | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇱🇻 Latvian | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇪🇪 Estonian | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇦🇿 Azerbaijani | 最高精度 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇧🇩 Bengali | 最高精度 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇵🇰 Urdu | 最高精度 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇮🇳 Tamil | 最高精度 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇳🇵 Nepali | 最高精度 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇰🇪 Swahili | 最高精度 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇬🇪 Georgian | 最高精度 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇮🇸 Icelandic | 最高精度 | ~15–22% | ~34–42% | ⭐⭐⭐ |
出典:公開音声認識ベンチマーク(Fleurs データセット)および専門モデル評価。実際の結果は異なる場合があります。
GeekLink ではモデルサイズを選択できます。大きいモデルは処理時間とディスク容量が増えますが、結果は大幅に向上します——特に日本語と韓国語で効果的です。
| モデル | ダウンロードサイズ | 速度 | 品質 | 最適な用途 |
|---|---|---|---|---|
| 最速 | 75 MB | 最速 (~10x) | 低い | クイックプレビュー専用 |
| 高速 | 142 MB | 速い (~7x) | 普通 | 中国語 / スペイン語の簡易チェック |
| バランス | 466 MB | 中程度 (~4x) | 良い | ヨーロッパ言語の日常利用 |
| 高精度 | 1.5 GB | 遅い (~2x) | とても良い | スペイン語 / 英語 / フランス語推奨 |
| 推奨 アプリのデフォルト | 1.6 GB | 速い (~6x) | とても良い | ほとんどの言語で最適な速度-精度バランス |
| 最高精度 | 2.9 GB | 最も遅い (1x) | 最良 | 日本語 / 韓国語は必須;その他の言語で最高精度を求める場合 |
単語誤り率(WER)は、誤って文字起こしされた単語の割合です。WER 5% とは、約 20 語に 1 語が誤りであることを意味します。中国語は単語間にスペースがないため、CER(文字誤り率)を使用します。
日本語と韓国語は複雑な文字体系(漢字、韓国の漢字)を持ち、正しい文字の選択に文脈への依存度が高いです。小さいモデルではこの文脈を十分に捉えるキャパシティが不足しており、非常に高い誤り率になります。これらの言語では必ず大きいモデルを使用してください。
GeekLink は中国語とタイ語に、それぞれの言語に特化して最適化された専用認識エンジンを使用しています。モデルサイズを選択する必要なく、一貫して高い精度を提供します。
いいえ。中国語は北京語に対して高度に最適化された専用エンジンを使用しています。モデルサイズの変更は中国語認識には適用されません。