Word Error Rate (WER) is the percentage of words that are incorrectly transcribed. A WER of 5% means about 1 in 20 words is wrong. Chinese uses CER (Character Error Rate) since Chinese text doesn't use spaces between words.

Why is the base model so much worse for Japanese and Korean?

Japanese and Korean have complex writing systems and rely heavily on context for correct character selection. Smaller models lack the capacity to capture this context well. Always use the large model for these languages.

Why don't Chinese and Thai have a model size option?

GeekLink uses purpose-built recognition engines for Chinese and Thai that are optimized specifically for those languages. These deliver consistently high accuracy without you needing to select a model size.

言語別の音声認識精度：WER 参照テーブル

AI 音声認識において、すべての言語が同じ精度というわけではありません。このページでは GeekLink がサポートする 22 言語の文字起こし精度を比較しているので、動画処理前に適切なモデルサイズを選択し、想定外の結果を避けることができます。

WER とは？

WER（単語誤り率）は、誤って文字起こしされた単語の割合を測定します——低いほど良い結果です。中国語は単語の境界がないため、代わりに CER（文字誤り率）を使用します。WER 5% とは、クリアな音声で約 20 語に 1 語の誤りがあることを意味します。

以下の数値はベンチマークデータセットからの参照値です。実際の精度は音声品質、背景ノイズ、アクセント、話速によって異なります。

言語別精度クイックリファレンス

デフォルトモデル = 推奨（アプリのデフォルト）。大きいモデルは時間がかかりますが、より正確に認識します——特に日本語と韓国語で顕著です。

言語	推奨モデル	最良 WER	高速 WER	評価
Simplified Chinese	専用エンジン	~3–5% CER	~3–5% CER	★★★★★
Traditional Chinese	専用エンジン	~3–5% CER	~3–5% CER	★★★★★
Spanish	高精度 / 最高精度	~3–4%	~14–18%	★★★★★
English	高精度 / 最高精度	~4–5%	~12–16%	★★★★★
French	高精度 / 最高精度	~6–7%	~18–24%	★★★★
German	高精度 / 最高精度	~5–7%	~17–22%	★★★★
Italian	高精度 / 最高精度	~5–7%	~17–22%	★★★★
Portuguese	高精度 / 最高精度	~5–6%	~16–21%	★★★★
Russian	最高精度	~8–12%	~22–28%	★★★★
Dutch	高精度 / 最高精度	~6–9%	~18–24%	★★★★
Turkish	高精度 / 最高精度	~7–10%	~20–26%	★★★★
Indonesian	高精度 / 最高精度	~7–10%	~20–26%	★★★★
Polish	高精度 / 最高精度	~7–10%	~20–26%	★★★★
Swedish	高精度 / 最高精度	~7–10%	~18–24%	★★★★
Catalan	高精度 / 最高精度	~5–8%	~14–18%	★★★★
Czech	高精度 / 最高精度	~7–10%	~20–26%	★★★★
Norwegian	高精度 / 最高精度	~7–10%	~18–24%	★★★★
Danish	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Finnish	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Hungarian	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Greek	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Romanian	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Malay	高精度 / 最高精度	~8–12%	~22–28%	★★★★
Arabic	最高精度	~10–16%	~26–34%	★★★
Thai	専用エンジン	大きなばらつきあり	—	★★
Japanese	最高精度必須	~10–14%	~28–35%	★★★
Korean	最高精度必須	~10–13%	~26–32%	★★★
Slovenian	最高精度	~10–15%	~28–35%	★★★
Hindi	最高精度	~12–18%	~30–40%	★★★
Ukrainian	最高精度	~12–18%	~28–36%	★★★
Vietnamese	最高精度	~14–20%	~32–40%	★★★
Croatian	最高精度	~10–15%	~26–34%	★★★
Slovak	最高精度	~10–15%	~26–34%	★★★
Bulgarian	最高精度	~10–15%	~26–34%	★★★
Serbian	最高精度	~10–15%	~26–34%	★★★
Hebrew	最高精度	~10–15%	~26–34%	★★★
Persian	最高精度	~10–15%	~26–34%	★★★
Filipino	最高精度	~12–18%	~28–36%	★★★
Lithuanian	最高精度	~12–18%	~28–36%	★★★
Latvian	最高精度	~12–18%	~28–36%	★★★
Estonian	最高精度	~12–18%	~28–36%	★★★
Azerbaijani	最高精度	~12–18%	~28–36%	★★★
Bengali	最高精度	~15–20%	~32–40%	★★★
Urdu	最高精度	~15–20%	~32–40%	★★★
Tamil	最高精度	~15–20%	~32–40%	★★★
Nepali	最高精度	~15–22%	~34–42%	★★★
Swahili	最高精度	~15–22%	~34–42%	★★★
Georgian	最高精度	~15–22%	~34–42%	★★★
Icelandic	最高精度	~15–22%	~34–42%	★★★

出典：公開音声認識ベンチマーク（Fleurs データセット）および専門モデル評価。実際の結果は異なる場合があります。

モデルサイズ vs 精度 vs 速度

GeekLink ではモデルサイズを選択できます。大きいモデルは処理時間とディスク容量が増えますが、結果は大幅に向上します——特に日本語と韓国語で効果的です。

モデル	ダウンロードサイズ	速度	品質	最適な用途
最速	75 MB	最速 (~10x)	低い	クイックプレビュー専用
高速	142 MB	速い (~7x)	普通	中国語 / スペイン語の簡易チェック
バランス	466 MB	中程度 (~4x)	良い	ヨーロッパ言語の日常利用
高精度	1.5 GB	遅い (~2x)	とても良い	スペイン語 / 英語 / フランス語推奨
推奨アプリのデフォルト	1.6 GB	速い (~6x)	とても良い	ほとんどの言語で最適な速度-精度バランス
最高精度	2.9 GB	最も遅い (1x)	最良	日本語 / 韓国語は必須；その他の言語で最高精度を求める場合

モデル選択のヒント

中国語とタイ語：GeekLink はこれらの言語に専用エンジンを使用しています。中国語の精度は一貫して高いです。タイ語の精度はコンテンツにより大きく異なります——標準的な発話には良好ですが、カジュアルな会話や方言では精度が低くなる場合があります。
日本語と韓国語：最高精度を強くお勧めします。高速モデルは非常に高い誤り率（26–35%）で、多くの単語を見落とします。
スペイン語、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、オランダ語、トルコ語、インドネシア語、ポーランド語、スウェーデン語、カタルーニャ語、チェコ語、ノルウェー語、デンマーク語、フィンランド語、ハンガリー語、ギリシャ語、ルーマニア語、マレー語：高精度が速度と精度の最良のバランスです。プロフェッショナル品質には最高精度をお使いください。
ロシア語：最高精度で顕著な違いが出ます。高精度でも許容範囲です。
アラビア語、ヒンディー語、ウクライナ語、ベトナム語、スロベニア語、クロアチア語、スロバキア語、ブルガリア語、セルビア語、ヘブライ語、ペルシア語、フィリピン語、リトアニア語、ラトビア語、エストニア語、アゼルバイジャン語、ベンガル語、ウルドゥー語、タミル語、ネパール語、スワヒリ語、ジョージア語、アイスランド語：最高精度を推奨。標準的な発音とクリアな音声で最良の結果が得られます。

既知の制限

背景音楽：GeekLink は無音化前処理を行いますが、ボーカルと音楽の重なりが激しい場合、すべての言語で精度が低下します。
方言とアクセント：標準アクセントが最適です。方言（例：広東語、四川方言）は専用エンジンでも誤り率が高くなります。
日本語の漢字：書き方が標準的な慣習と異なる場合があります——翻訳前に重要な用語を確認してください。
文の分割：AI が長い文を生成することがあります。GeekLink の字幕エディタで必要に応じて分割してください。

よくある質問

WER とは何ですか？

単語誤り率（WER）は、誤って文字起こしされた単語の割合です。WER 5% とは、約 20 語に 1 語が誤りであることを意味します。中国語は単語間にスペースがないため、CER（文字誤り率）を使用します。

なぜベースモデルは日本語と韓国語で精度がずっと低いのですか？

日本語と韓国語は複雑な文字体系（漢字、韓国の漢字）を持ち、正しい文字の選択に文脈への依存度が高いです。小さいモデルではこの文脈を十分に捉えるキャパシティが不足しており、非常に高い誤り率になります。これらの言語では必ず大きいモデルを使用してください。

なぜ中国語とタイ語にはモデルサイズの選択肢がないのですか？

GeekLink は中国語とタイ語に、それぞれの言語に特化して最適化された専用認識エンジンを使用しています。モデルサイズを選択する必要なく、一貫して高い精度を提供します。

大きいモデルを使えば中国語の精度は向上しますか？

いいえ。中国語は北京語に対して高度に最適化された専用エンジンを使用しています。モデルサイズの変更は中国語認識には適用されません。

GeekLink を始めよう

無料ダウンロードして、AI 搭載の字幕ツールを体験しましょう。

無料ダウンロード