言語別の音声認識精度:WER 参照テーブル

AI 音声認識において、すべての言語が同じ精度というわけではありません。このページでは GeekLink がサポートする 22 言語の文字起こし精度を比較しているので、動画処理前に適切なモデルサイズを選択し、想定外の結果を避けることができます。

WER とは?

WER(単語誤り率)は、誤って文字起こしされた単語の割合を測定します——低いほど良い結果です。中国語は単語の境界がないため、代わりに CER(文字誤り率)を使用します。WER 5% とは、クリアな音声で約 20 語に 1 語の誤りがあることを意味します。

以下の数値はベンチマークデータセットからの参照値です。実際の精度は音声品質、背景ノイズ、アクセント、話速によって異なります。

言語別精度クイックリファレンス

デフォルトモデル = 推奨(アプリのデフォルト)。大きいモデルは時間がかかりますが、より正確に認識します——特に日本語と韓国語で顕著です。

言語 推奨モデル 最良 WER 高速 WER 評価
🇨🇳 Simplified Chinese 専用エンジン ~3–5% CER ~3–5% CER ⭐⭐⭐⭐⭐
🇹🇼 Traditional Chinese 専用エンジン ~3–5% CER ~3–5% CER ⭐⭐⭐⭐⭐
🇪🇸 Spanish 高精度 / 最高精度 ~3–4% ~14–18% ⭐⭐⭐⭐⭐
🇬🇧 English 高精度 / 最高精度 ~4–5% ~12–16% ⭐⭐⭐⭐⭐
🇫🇷 French 高精度 / 最高精度 ~6–7% ~18–24% ⭐⭐⭐⭐
🇩🇪 German 高精度 / 最高精度 ~5–7% ~17–22% ⭐⭐⭐⭐
🇮🇹 Italian 高精度 / 最高精度 ~5–7% ~17–22% ⭐⭐⭐⭐
🇵🇹 Portuguese 高精度 / 最高精度 ~5–6% ~16–21% ⭐⭐⭐⭐
🇷🇺 Russian 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇳🇱 Dutch 高精度 / 最高精度 ~6–9% ~18–24% ⭐⭐⭐⭐
🇹🇷 Turkish 高精度 / 最高精度 ~7–10% ~20–26% ⭐⭐⭐⭐
🇮🇩 Indonesian 高精度 / 最高精度 ~7–10% ~20–26% ⭐⭐⭐⭐
🇵🇱 Polish 高精度 / 最高精度 ~7–10% ~20–26% ⭐⭐⭐⭐
🇸🇪 Swedish 高精度 / 最高精度 ~7–10% ~18–24% ⭐⭐⭐⭐
🇪🇸 Catalan 高精度 / 最高精度 ~5–8% ~14–18% ⭐⭐⭐⭐
🇨🇿 Czech 高精度 / 最高精度 ~7–10% ~20–26% ⭐⭐⭐⭐
🇳🇴 Norwegian 高精度 / 最高精度 ~7–10% ~18–24% ⭐⭐⭐⭐
🇩🇰 Danish 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇫🇮 Finnish 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇭🇺 Hungarian 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇬🇷 Greek 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇷🇴 Romanian 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇲🇾 Malay 高精度 / 最高精度 ~8–12% ~22–28% ⭐⭐⭐⭐
🇸🇦 Arabic 最高精度 ~10–16% ~26–34% ⭐⭐⭐
🇹🇭 Thai 専用エンジン 大きなばらつきあり ⭐⭐
🇯🇵 Japanese 最高精度 必須 ~10–14% ~28–35% ⭐⭐⭐
🇰🇷 Korean 最高精度 必須 ~10–13% ~26–32% ⭐⭐⭐
🇸🇮 Slovenian 最高精度 ~10–15% ~28–35% ⭐⭐⭐
🇮🇳 Hindi 最高精度 ~12–18% ~30–40% ⭐⭐⭐
🇺🇦 Ukrainian 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇻🇳 Vietnamese 最高精度 ~14–20% ~32–40% ⭐⭐⭐
🇭🇷 Croatian 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇸🇰 Slovak 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇧🇬 Bulgarian 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇷🇸 Serbian 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇮🇱 Hebrew 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇮🇷 Persian 最高精度 ~10–15% ~26–34% ⭐⭐⭐
🇵🇭 Filipino 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇱🇹 Lithuanian 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇱🇻 Latvian 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇪🇪 Estonian 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇦🇿 Azerbaijani 最高精度 ~12–18% ~28–36% ⭐⭐⭐
🇧🇩 Bengali 最高精度 ~15–20% ~32–40% ⭐⭐⭐
🇵🇰 Urdu 最高精度 ~15–20% ~32–40% ⭐⭐⭐
🇮🇳 Tamil 最高精度 ~15–20% ~32–40% ⭐⭐⭐
🇳🇵 Nepali 最高精度 ~15–22% ~34–42% ⭐⭐⭐
🇰🇪 Swahili 最高精度 ~15–22% ~34–42% ⭐⭐⭐
🇬🇪 Georgian 最高精度 ~15–22% ~34–42% ⭐⭐⭐
🇮🇸 Icelandic 最高精度 ~15–22% ~34–42% ⭐⭐⭐

出典:公開音声認識ベンチマーク(Fleurs データセット)および専門モデル評価。実際の結果は異なる場合があります。

モデルサイズ vs 精度 vs 速度

GeekLink ではモデルサイズを選択できます。大きいモデルは処理時間とディスク容量が増えますが、結果は大幅に向上します——特に日本語と韓国語で効果的です。

モデル ダウンロードサイズ 速度 品質 最適な用途
最速 75 MB 最速 (~10x) 低い クイックプレビュー専用
高速 142 MB 速い (~7x) 普通 中国語 / スペイン語の簡易チェック
バランス 466 MB 中程度 (~4x) 良い ヨーロッパ言語の日常利用
高精度 1.5 GB 遅い (~2x) とても良い スペイン語 / 英語 / フランス語推奨
推奨 アプリのデフォルト 1.6 GB 速い (~6x) とても良い ほとんどの言語で最適な速度-精度バランス
最高精度 2.9 GB 最も遅い (1x) 最良 日本語 / 韓国語は必須;その他の言語で最高精度を求める場合

モデル選択のヒント

既知の制限

よくある質問

WER とは何ですか?

単語誤り率(WER)は、誤って文字起こしされた単語の割合です。WER 5% とは、約 20 語に 1 語が誤りであることを意味します。中国語は単語間にスペースがないため、CER(文字誤り率)を使用します。

なぜベースモデルは日本語と韓国語で精度がずっと低いのですか?

日本語と韓国語は複雑な文字体系(漢字、韓国の漢字)を持ち、正しい文字の選択に文脈への依存度が高いです。小さいモデルではこの文脈を十分に捉えるキャパシティが不足しており、非常に高い誤り率になります。これらの言語では必ず大きいモデルを使用してください。

なぜ中国語とタイ語にはモデルサイズの選択肢がないのですか?

GeekLink は中国語とタイ語に、それぞれの言語に特化して最適化された専用認識エンジンを使用しています。モデルサイズを選択する必要なく、一貫して高い精度を提供します。

大きいモデルを使えば中国語の精度は向上しますか?

いいえ。中国語は北京語に対して高度に最適化された専用エンジンを使用しています。モデルサイズの変更は中国語認識には適用されません。

関連記事

GeekLink を始めよう

無料ダウンロードして、AI 搭載の字幕ツールを体験しましょう。

無料ダウンロード