音声認識

動画の音声から字幕テキストを自動的に書き起こします

音声認識とは

音声認識機能は、動画の音声トラックを自動的に分析し、音声内容をテキストに変換して、タイムライン付きの字幕ファイルを生成します。既存の字幕がない動画（自分で撮影した Vlog、会議録画、講座動画など）に適しています。

出力結果は原文言語の SRT 字幕ファイルで、字幕エディタでさらに修正・調整できます。

使い方

動画をメディアライブラリにインポート動画ファイルを GeekLink のメディアライブラリにドラッグするか、「動画を追加」ボタンをクリックしてファイルを選択します。
「字幕なし・音声のみ」を選択設定パネルで「字幕なし・音声のみ」を選択すると、GeekLink が動画の音声から字幕を認識します（翻訳も必要な場合は「別の言語にも翻訳する」にチェックを入れてください）。
認識言語を選択設定パネルで動画の原文言語（中国語、英語、日本語など）を選択します。
認識モデルを選択精度の要件やデバイスの性能に合わせて適切なモデルを選択します。デフォルトの「おすすめ」から始めることをお勧めします。
「音声認識を実行」をクリック設定を確認したら、ボタンをクリックして認識を開始します。複数の動画を選択して一括処理することもできます。
結果を確認・修正認識完了後、「字幕エディタを開く」をクリックして書き起こし結果を確認し、1つずつ校正・修正します。

認識モデルの選択

GeekLink では複数の認識モデルを提供しており、精度と速度のバランスが異なります。モデルを初めて使用する際は、自動的にモデルファイルがダウンロードされます。

モデル	ファイルサイズ	メモリ使用量	精度	速度	適用シーン
最速	75 MB	~200 MB	低	最速	クイックプレビュー・テスト
高速	142 MB	~300 MB	普通	速い	日常使用、精度をあまり求めない場合
おすすめ	466 MB	~600 MB	やや高い	中程度	デフォルト推奨、精度と速度のバランス
高精度	1.5 GB	~2 GB	高い	やや遅い	プロ向け、背景ノイズが多い場合
最高精度＋高速	1.6 GB	~2.5 GB	最高	やや速い	最高精度と速度の両立
最高精度	2.9 GB	~4 GB	最高	最も遅い	究極の精度、速度は問わない場合

ヒント モデルが大きいほど精度は高くなりますが、速度は遅くなり、メモリ使用量も増えます。Mac のメモリが 8GB 以下の場合は、「おすすめ」以下のモデルをお勧めします。

詳細設定

アプリ内で「詳細設定」をクリックすると、高度なオプションが展開されます：

AI 句読点修正 PRO

句読点のみを修正し、テキスト内容は変更しません。中国語のシーンで最も効果的です。中国語の音声認識では句読点が欠落しがちですが、有効にすると読点や句点などの句読点が自動的に補完され、字幕の読みやすさが大幅に向上します。

バラエティモード

バラエティ番組、音楽、古い映画など、背景音が大きいコンテンツに最適化されており、そうした条件での認識精度を高めます。長く続く連続した会話にはお勧めしません。また、「高精度タイムライン」を有効にすると自動的に含まれるため、両方を同時にオンにする必要はありません。

高精度タイムライン

デフォルトではオフです。有効にすると（中国語以外の音声向け）、GeekLink が各単語を音声に合わせて整列させ、正確なタイムスタンプを生成するとともに単語ごとの信頼度を算出するため、自信のなかった行にフラグを立てられます。初回実行時には整列用のコンポーネントがダウンロードされます。タイミングの正確さや低信頼度行のレビューが重要な場合はオンにしてください。それ以外の場合は標準モードの方が高速です。ここで生成される低信頼度のマークは、SE レビューパックが Subtitle Edit でのレビュー用にエクスポートするものです。

AI スマートセグメンテーション PRO

LLM を使って書き起こしを自然な字幕行に分割します。講演やナレーションなど、長く続く発話に役立ちます。短いやり取りの会話にはお勧めしません——短い掛け合いはすでに適切に区切られており、再分割すると別々の話者の行が結合されたり、1つの行が過剰に分割されたりすることがあります。会話が中心のコンテンツではオフのままにして、認識エンジン自身の区切りを信頼してください。

Whisper プロンプト＆自動修正ルール（固有名詞）

人名、地名、ブランド名を正しく認識するには、2つの補完的なツールを使います。Whisper プロンプトは認識エンジンにあらかじめ文脈を与え、自動修正ルールは認識後に既知の誤認識を確実に置き換えます。両方を併用すると最も効果的で、標準モードと高精度モードの両方に適用されます。シリーズ全体では、第1話で誤認識された名前を集めて一度追加すれば、残りのシーズンも一貫した結果になります。

1回の処理で認識と翻訳を同時に行う

翻訳のために別の手順を踏む必要はありません。音声認識パネルで「別の言語にも翻訳する」にチェックを入れ、対象言語と翻訳エンジンを選択すると、GeekLink が音声を書き起こしながら1回の処理で翻訳まで行い、原文と翻訳の両方の字幕が得られます。エンジンの選択肢については翻訳ページをご覧ください。

2つの手順に分けた方がよい場合：精度が重要な場合は、まず認識を行い、エディタで原文字幕を修正してから翻訳してください——きれいな入力の方が良い翻訳結果になります。両方をまとめて行う方が速いですが、別々に行えば、翻訳に誤りが持ち込まれる前に修正できるチェックポイントが得られます。

よくある質問

モデルの初回使用時にとても遅いのはなぜですか？

新しいモデルを初めて使用する際、モデルファイルが自動的にダウンロードされます（サイズは上の表を参照）。ダウンロード速度はネットワーク環境によります。ダウンロード完了後は、次回からそのモデルは直接起動され、再ダウンロードは不要です。

認識結果に誤りがある場合はどうすればよいですか？

音声認識は 100% 正確ではありません。特に背景ノイズが大きい場合、話速が速い場合、またはアクセントが強い場合に誤りが生じやすくなります。認識完了後に字幕エディタを開いて1つずつ修正することをお勧めします。特定の語彙が頻繁に誤認識される場合は、「自動修正ルール」PRO を使用してよくある誤りを一括修正できます。

認識結果に句読点がないのはなぜですか？

音声認識モデル自体が句読点を出力しない場合があります。特に中国語のシーンで顕著です。「AI 句読点修正」PRO を有効にすると、句読点が自動的に補完され、字幕が読みやすくなります。