音声認識

動画の音声から字幕テキストを自動的に書き起こします

音声認識とは

音声認識機能は、動画の音声トラックを自動的に分析し、音声内容をテキストに変換して、タイムライン付きの字幕ファイルを生成します。既存の字幕がない動画(自分で撮影した Vlog、会議録画、講座動画など)に適しています。

出力結果はソース言語の SRT 字幕ファイルで、字幕エディタでさらに修正・調整できます。

使い方

  1. 動画をメディアライブラリにインポート動画ファイルを GeekLink のメディアライブラリにドラッグするか、「動画を追加」ボタンをクリックしてファイルを選択します。
  2. 「音声認識」タブに切り替えメインインターフェース上部で「音声認識」タブを選択します。
  3. 認識言語を選択設定パネルで動画のソース言語(中国語、英語、日本語など)を選択します。
  4. 認識モデルを選択精度の要件やデバイスの性能に合わせて適切なモデルを選択します。デフォルトの「おすすめ」から始めることをお勧めします。
  5. 「音声認識を実行」をクリック設定を確認したら、ボタンをクリックして認識を開始します。複数の動画を選択して一括処理することもできます。
  6. 結果を確認・修正認識完了後、「字幕エディタを開く」をクリックして書き起こし結果を確認し、1つずつ校正・修正します。

認識モデルの選択

GeekLink では複数の認識モデルを提供しており、精度と速度のバランスが異なります。モデルを初めて使用する際は、自動的にモデルファイルがダウンロードされます。

モデル ファイルサイズ メモリ使用量 精度 速度 適用シーン
最速 75 MB ~200 MB 最速 クイックプレビュー・テスト
高速 142 MB ~300 MB 普通 速い 日常使用、精度をあまり求めない場合
おすすめ 466 MB ~600 MB やや高い 中程度 デフォルト推奨、精度と速度のバランス
高精度 1.5 GB ~2 GB 高い やや遅い プロ向け、背景ノイズが多い場合
最高精度+高速 1.6 GB ~2.5 GB 最高 やや速い 最高精度と速度の両立
最高精度 2.9 GB ~4 GB 最高 最も遅い 究極の精度、速度は問わない場合
ヒント モデルが大きいほど精度は高くなりますが、速度は遅くなり、メモリ使用量も増えます。Mac のメモリが 8GB 以下の場合は、「おすすめ」以下のモデルをお勧めします。

詳細設定

アプリ内で「詳細設定」をクリックすると、高度なオプションが展開されます:

ソース言語の1行あたり最大文字数

1つの字幕の最大テキスト長を制御します。範囲は 10〜200 で、空欄の場合は制限なしです。読みやすさを調整するのに適しています。特に中国語字幕の場合、中国語には自然な単語間のスペースがないため、長い文が改行されないと視聴体験に影響します。

AI 句読点修正 PRO

句読点のみを修正し、テキスト内容は変更しません。中国語のシーンで最も効果的です。中国語の音声認識では句読点が欠落しがちですが、有効にすると読点や句点などの句読点が自動的に補完され、字幕の読みやすさが大幅に向上します。

バラエティモード

バラエティ番組やリアリティショーなど、背景ノイズが大きく、複数人が高速に会話するシーンに最適化されています。有効にすると認識戦略が調整され、騒がしい環境や高速な音声の切り替えにより良く対応します。

よくある質問

モデルの初回使用時にとても遅いのはなぜですか?

新しいモデルを初めて使用する際、モデルファイルが自動的にダウンロードされます(サイズは上の表を参照)。ダウンロード速度はネットワーク環境によります。ダウンロード完了後は、次回からそのモデルは直接起動され、再ダウンロードは不要です。

認識結果に誤りがある場合はどうすればよいですか?

音声認識は 100% 正確ではありません。特に背景ノイズが大きい場合、話速が速い場合、またはアクセントが強い場合に誤りが生じやすくなります。認識完了後に字幕エディタを開いて1つずつ修正することをお勧めします。特定の語彙が頻繁に誤認識される場合は、「自動修正ルール」PRO を使用してよくある誤りを一括修正できます。

認識結果に句読点がないのはなぜですか?

音声認識モデル自体が句読点を出力しない場合があります。特に中国語のシーンで顕著です。「AI 句読点修正」PRO を有効にすると、句読点が自動的に補完され、字幕が読みやすくなります。