OCRを使って動画から焼き込み字幕を抽出する方法(2026年ガイド)

著者:Flora Wang、映像ローカライゼーション専門家 · 更新日:2026年5月31日 · 読了時間:約9分

焼き込み字幕(ハードコード字幕)は動画フレームに恒久的に焼き付けられたテキストであり、OCR抽出なしではオフにしたり、コピーしたり、編集したりすることができません。AIを活用したOCRはこのテキストをフレームごとに読み取り、タイミングを再構成し、編集可能なSRTファイルとして出力できます。本ガイドでは、中国短編ドラマ、日本のアニメ、バラエティ番組、旧作映画など、すべての主要シナリオを網羅し、焼き込み字幕をMac上でローカルに抽出・編集・翻訳するためのステップバイステップの手順を解説します。

焼き込み字幕とは何か?ソフト字幕との違いは?

字幕には根本的に異なる2つの形式があり、その違いは抽出において重要です。

ソフト字幕(外部字幕、可開関字幕とも呼ばれる)は、SRT、ASS、VTTなどの独立したテキストファイルで、動画プレーヤーが再生時にオーバーレイ表示するものです。オン・オフの切り替え、言語の切り替え、テキストファイルの直接編集が可能です。YouTubeの字幕トラック、Netflixの言語オプション、ダウンロードした.srtファイルはすべてソフト字幕です。

焼き込み字幕(ハードコード字幕、埋め込み字幕、オープンキャプションとも呼ばれる)は、動画画像そのものの一部です。動画編集時にテキストが各フレームに直接レンダリングされています。独立したテキストレイヤーは存在せず、字幕のピクセルは動画プレーヤーにとって画像の他の部分と区別がつきません。

重要なポイント:焼き込み字幕は、動画ファイルを開いてテキストトラックを探すだけでは抽出できません。テキストを復元する唯一の方法は、OCR(光学文字認識)を使って画像から「読み取る」ことです。

どちらのタイプか判別する方法:

  • 動画プレーヤーに字幕切り替えボタンがあり、オフにするとテキストが消える → ソフト字幕
  • プレーヤーの設定に関係なくテキストが表示され続ける → 焼き込み字幕
  • VLCで動画を開き → 字幕メニュー → トラックが表示されない → 焼き込み字幕
  • ffprobe -i video.mp4 を実行して字幕ストリームが見つからない → 焼き込み字幕

なぜ焼き込み字幕を抽出する必要があるのか?

動画から焼き込み字幕を抽出する理由は主に4つあります。

1. 他の言語への翻訳

最も一般的なユースケースです。中国語の焼き込み字幕がある動画(Douyin、Bilibili、WeChat Channelsで一般的)を英語、日本語、または他の言語に翻訳したい場合です。編集できないものは翻訳できないため、まず抽出が必要です。

2. 検索可能なトランスクリプトの作成

研究者、ジャーナリスト、アーキビストは、インデックス作成、検索、引用のために動画コンテンツのテキスト版を必要とすることがよくあります。焼き込み字幕には情報が含まれていますが、ピクセル形式に閉じ込められています。

3. 字幕のスタイル変更・位置変更

焼き込み字幕の位置が悪い(重要な映像を覆い隠している)、モバイルで読むには小さすぎる、または用途に合わないスタイルの場合があります。テキストを抽出すれば、好みのフォント、サイズ、色、位置で再レンダリングできます。

4. アクセシビリティとコンプライアンス

YouTubeなどのプラットフォームでは、自動翻訳機能やアクセシビリティツールのために字幕ファイル(焼き込みテキストではなく)が必要です。焼き込み字幕をSRT形式に抽出することで、スクリーンリーダー、自動翻訳、カスタマイズされたキャプション設定を使用する聴覚障害者にコンテンツをアクセシブルにできます。

OCR字幕抽出は実際にどう動くのか?

OCR字幕抽出は4段階のパイプラインです:フレームサンプリング、テキスト検出、文字認識、重複排除とタイムスタンプ割り当て。これらの段階を理解することで、精度の問題をトラブルシューティングできます。

ステージ1:フレームサンプリング

30fpsの動画は1分あたり1,800フレームを含みます。ほとんどの字幕は2〜5秒間画面に表示されるため、新しいテキストを含むフレームはごく一部です。スマートなOCRツールは一定間隔(例:0.5秒ごと)でフレームをサンプリングし、字幕テキストが変わるタイミングを検出します。すべてのフレームを処理するわけではありません。

処理速度が動画によって異なるのはこのためです — 60行の字幕がある10分の動画では、約120フレーム(出現・消失の検出)の認識が必要で、18,000フレームではありません。

ステージ2:テキスト領域の検出

OCRエンジンが各フレーム内のテキスト出現位置を特定します。字幕は通常画面下部の20〜30%にありますが、バラエティ番組やアニメでは上部、中央、吹き出し内など任意の場所にテキストが配置されることがあります。高度な検出モデルは位置に関係なくテキストを検出します。

ステージ3:文字認識

テキスト領域が分離されると、OCRモデルが個々の文字を読み取ります。ここで言語が大きく影響します:

  • ラテン文字(英語、スペイン語、フランス語)— 高精度、すべてのOCRエンジンで十分に対応
  • CJK文字(中国語、日本語、韓国語)— 数千の文字バリエーションに対応した専用モデルが必要。中国語だけでも一般的に使用される文字は6,763字(GB 2312規格
  • 混合スクリプト(漢字+ひらがな+カタカナ+英語が混在する日本語)— 1行内で複数のスクリプトを検出する必要があり、最も難しいケース

ステージ4:重複排除とタイミング

同じ字幕行が多くの連続フレームにわたって表示されます。OCRシステムはフレーム150〜220がすべて同じテキストを含むことを認識し、それらを1つの字幕エントリにグループ化し、正しい開始・終了タイムスタンプを割り当てる必要があります。良好な重複排除は、クリーンな60行のSRTファイルと重複だらけの乱雑な500行ファイルの違いを生みます。

焼き込み字幕をステップバイステップで抽出するには?

このウォークスルーではmacOS上のGeekLinkを使用します。プロセス全体がローカルで実行され、動画がマシンの外に出ることはありません。

ステップ1:動画をインポート

動画ファイルをGeekLinkにドラッグ&ドロップします。MP4、MOV、MKV、AVI、WebM、FLVなどのフォーマットに対応しています。ファイルサイズの制限はありません — OCRは個々のフレームを処理するもので、動画ビットストリーム全体を処理するわけではありません。

バッチワークフロー(例:ドラマのシーズン全体から字幕を抽出する場合)では、複数のファイルを一度にインポートできます。GeekLinkはハードウェアに応じて順次または並列で処理します。

ステップ2:抽出方法としてOCRを選択

GeekLinkは2つの字幕抽出方法を提供しています:

  • 音声認識 — 音声をテキストに文字起こしします。字幕が存在しない場合や不正確な場合に使用します。
  • OCR抽出 — 動画フレームからテキストを読み取ります。字幕が既に動画に焼き込まれている場合に使用します。

OCRを選択します。エンジンはオーディオトラックを処理するのではなく、視覚的なテキストを読み取ります。

ステップ3:字幕領域の設定(推奨)

字幕が表示されるフレーム内の領域を定義します。ほとんどのコンテンツでは画面下部の20〜30%です。領域を設定すると:

  • 画面上のテキスト、ウォーターマーク、チャンネルロゴによる誤検出を排除できます
  • スキャン範囲を縮小して処理を高速化できます
  • モデルが解析する視覚的ノイズを減らして精度を向上させます

標準的でない位置に字幕があるバラエティ番組の場合は、それに応じて領域を調整してください。複数の位置にテキストがあるアニメの場合は、フレーム全体を使用する必要があるかもしれません。

ステップ4:抽出を実行

GeekLinkがフレームごとに動画を処理します:

  1. 検出されたテキスト変化に基づいてアダプティブな間隔でフレームをサンプリング
  2. 各サンプリングフレーム内のテキスト領域を検出
  3. CJK最適化またはラテン文字モデルを使って文字を認識
  4. 連続する同一テキストを重複排除してクリーンな字幕エントリを生成
  5. 各エントリに開始・終了タイムスタンプを割り当て

処理はすべてMacのCPU/GPUで実行されます。10分の動画は字幕密度とハードウェアに応じて通常1〜3分で処理されます。

ステップ5:内蔵エディタでレビュー

字幕エディタを開いて結果を確認します。一般的な修正事項:

  • 文字エラー — OCRは類似文字を混同することがあります:已/己/巳、未/末、rn/m、0/O。これらは素早い手動修正で対応できます。
  • 行の分割 — 2つの別々の字幕エントリであるべき長い行が結合されることがあります。自然な文の区切りで分割してください。
  • タイムスタンプの調整 — 字幕が0.2〜0.5秒早く、または遅れて表示される場合、タイムスタンプをドラッグして音声に正確に合わせます。
  • 装飾テキストの削除 — バラエティ番組では、メインの字幕ではない装飾テキストが抽出されることがあります。これらのエントリを削除してください。

ステップ6:エクスポート

抽出した字幕を希望のフォーマットでエクスポートします:

  • SRT — 汎用的な互換性。YouTube、Vimeo、VLC、Premiere、Final Cut、DaVinci Resolveで使用可能。
  • ASS — CJKコンテンツ向けの高度なスタイリング。カスタムフォント、色、位置、エフェクトに対応。
  • VTT — HTML5動画プレーヤー向けのWebネイティブフォーマット。

OCR字幕の精度を最大化するには?

OCRの精度は字幕の視覚的特性に依存します — 動画の種類ではありません。同じツールでも、1080pのクリーンな白テキストでは99%、480pのぼやけた装飾フォントでは80%になります。以下はコントロールできる要因です。

1. ソース動画の解像度が最も重要

720pが信頼性のあるOCRの最低条件です。720p未満では文字の輪郭が曖昧になり、精度が急激に低下します — 特にストロークの詳細が異なる文字を区別するCJK文字で顕著です。

ソースが480p以下の場合は、OCR抽出前にAIアップスケーリングを検討してください。2倍のアップスケール(480p → 960p)でも、文字境界の明瞭度が十分に改善され、5〜10%の精度向上が期待できます。

2. テキストと背景のコントラスト

任意の背景上に黒枠付き白テキスト:優秀。枠なしの明るいシーン上の黄色テキスト:問題あり。字幕テキストが明るい背景に溶け込むシーンがある場合、その特定のフレームでは精度が低下します。

3. 字幕領域の定義

ステップ3で述べたように、スキャン範囲を字幕が実際に表示される場所に限定することで、ウォーターマーク、ロゴ、画面上のグラフィックによる誤検出を排除できます。これだけでバラエティ番組のコンテンツでの精度を85%から95%に向上させることができます。

4. 高圧縮動画の処理を避ける

動画圧縮(特に低ビットレート時)はテキスト縁にアーティファクト — OCRを混乱させるブロック状の歪み — を生み出します。可能であれば最高品質のソースを使用してください。8 Mbpsの1080pファイルは、同じコンテンツの2 Mbps版よりもOCR精度が大幅に向上します。

5. 多言語コンテンツの正しい処理

一部の動画は2つの言語を同時に表示します(例:中国語+英語が別々の行に)。OCRは両方を抽出します。1つの言語のみ必要な場合は:

  • 必要な行のみに領域を制限する(異なる垂直位置にある場合)
  • 抽出後にエディタで不要な言語のエントリを削除する

6. 後処理:一般的な置換パターン

OCR後、特定の文字混同は予測可能で一括修正できます:

  • 英語:rnmlI0O
  • 中国語:
  • 日本語:(カタカナ長音)↔ (漢字の「いち」)

焼き込み字幕を抽出して翻訳を1つのワークフローで実行できるか?

はい — ここがOCR抽出が最も力を発揮する場面です。抽出・翻訳・エクスポートのワークフローにより、外国語の焼き込み字幕がある動画を、単一のアプリケーションを離れることなく、目的言語の字幕付き動画に変換できます。

ワークフロー:

  1. 抽出 — OCRが焼き込まれた中国語/日本語/韓国語の字幕を読み取り、編集可能なSRTを生成
  2. 翻訳 — AI翻訳が抽出されたテキストを目的言語(英語、スペイン語、ポルトガル語など)に文脈を考慮して変換
  3. エクスポート — 字幕ファイルとして出力、または翻訳したテキストを新しい焼き込み字幕として動画に書き戻し

最も一般的な実際のユースケースは:中国語の焼き込み字幕がある中国短編ドラマがあり、英語字幕が欲しい場合 — SRTファイルとして、または別の位置に焼き込む形で。

ローカル処理のプライバシー上の利点

このワークフローでは、動画と音声がMacの外に出ることはありません。翻訳APIに送信されるのは抽出された字幕テキスト(プレーンテキスト、数KB)のみです。以下の場合に重要です:

  • 配布権を持っていない未公開またはコピーライトコンテンツ
  • 専有情報を含む企業・教育動画
  • NDAにより第三者サービスへのコンテンツアップロードが禁止されているクライアントワーク

複数エピソードのバッチ処理

シリーズコンテンツ(ドラマのシーズン、講義シリーズ、YouTubeプレイリスト)では、バッチ処理により手動介入なしで20〜50エピソードを一晩で抽出・翻訳できます。すべてのエピソードをインポートし、OCR設定を一度だけ構成して、就寝中に順次処理させてください。

OCR字幕抽出の制限事項は?

OCRは完璧ではありません。制限事項を理解することで、現実的な期待値を設定し、代替アプローチが必要な場合を知ることができます。

元の字幕を削除することはできない

OCRはテキストを抽出しますが、動画画像から焼き込み字幕を消すことはありません。元のテキストを消す必要がある場合は、動画インペインティング(独立した計算コストの高いプロセス)が必要です。実用的な回避策:翻訳した新しい字幕を元の字幕の上または下に配置するか、やや不透明な背景バーを使用します。

装飾テキストと特殊効果

強いグラデーション、グロー効果、3D回転、アニメーションのあるテキストは正確に認識されない場合があります。モデルは印刷テキストパターンでトレーニングされているため、視覚が標準的な印刷文字から離れるほど、精度は低下します。

非常に低解像度のソース

360p以下では、CJK文字が曖昧になります(ストロークが融合し、部首が区別できなくなります)。ラテン文字は文字形状がシンプルなため、低解像度でもやや優位です。ネイティブ解像度で精度が許容できない場合は、まずアップスケールしてください。

テキストの重なりと多言語の混在

2つのテキストレイヤーが重なる場合(例:ウォーターマークの上の字幕、同じ位置にある2人の話者の字幕)、OCRは重なった部分で文字化けした出力を生成する可能性があります。2つの対処法:特定の領域を定義して必要な字幕レイヤーを分離する、または言語フィルタリングを使用する — 例えば、日本語の動画に簡体字中国語の焼き込み字幕がある場合、日本語文字をフィルタアウトして中国語テキストのみを認識させることで、よりクリーンな結果が得られます。

手書きや高度にスタイル化されたフォント

OCRモデルは主に印刷書体でトレーニングされています。手書きテキスト、書道スタイル、または高度に装飾的なフォント(バラエティ番組の「リアクションテキスト」で一般的)は、認識率が大幅に低下します。

よくある質問

焼き込み字幕とは何ですか?

焼き込み字幕(ハードコード字幕、オープンキャプションとも呼ばれる)は、編集やエンコーディング時に動画画像に恒久的にレンダリングされたテキストです。ピクセルの一部であり、OCR抽出なしではオフにしたり、言語を変更したり、編集したりすることができません。一般的な例:中国のDouyin/Bilibili動画、ファンサブのアニメリリース、古いDVDリッピング、CapCutなどで編集されたSNSクリップ。

OCRはどの言語の字幕でも抽出できますか?

最新のOCRはほとんどの主要なスクリプトに対応しています:中国語(簡体字・繁体字)、日本語(漢字+ひらがな+カタカナ)、韓国語(ハングル)、英語、スペイン語、フランス語、ドイツ語、ポルトガル語、ロシア語、アラビア語(RTL)、タイ語、ベトナム語、その他のラテン文字言語。CJK文字は文字セットが大きいため(中国語だけでも一般的な文字が6,763字)専用モデルが必要です。GeekLinkにはMac上でローカルに動作するCJK最適化モデルが含まれています。

OCR字幕抽出の精度はどの程度ですか?

精度は動画の解像度、テキストのコントラスト、フォントスタイルに依存します — 動画コンテンツの種類ではありません。720p以上で枠付きクリーンな白テキスト:95〜99%。720pでのスタイル付きまたは装飾テキスト:85〜93%。低解像度480pのソース:80〜90%。CJK文字はストロークの詳細が重要なため、ラテン文字よりも高い解像度が必要です。プロフェッショナルな使用では、公開前に必ず字幕エディタでOCR出力を確認してください。

OCR字幕抽出は音声認識より優れていますか?

それぞれ異なる問題を解決します。字幕が既に動画に焼き込まれていてその正確なテキストを抽出したい場合はOCRを使用します。字幕がなく音声を文字起こしたい場合は音声認識を使用します。焼き込み字幕があり音声もクリアな動画では、OCRの方が通常正確です。音声を解釈するのではなく、既に書かれたものを読むからです。音声品質が悪いがクリーンな字幕がある動画では、OCRが明らかに優れています。

動画から焼き込み字幕を削除できますか?

OCRはテキスト内容を抽出しますが、動画フレームから焼き込み字幕を視覚的に削除することはありません。削除にはビデオインペインティング(テキスト背後の領域を埋める処理)が必要で、これは独立した計算コストの高いプロセスです。実用的なアプローチ:OCRでテキストを抽出し、翻訳してから、元の字幕の上または隣に新しい字幕をオーバーレイします。

OCR字幕抽出にはどのくらい時間がかかりますか?

処理時間は動画の長さ、字幕密度、ハードウェアに依存します。Apple Silicon Mac(M1以降)での一般的なベンチマーク:約60行の字幕がある10分の動画は1〜3分。45分のドラマエピソードは5〜12分。バッチ処理はバックグラウンドで実行されます — 20エピソードのシーズン全体をキューに入れて一晩処理させることができます。

関連記事

開示:本ガイドはGeekLinkチームが執筆しています。GeekLinkはOCR抽出機能を搭載したmacOS字幕ツールです。すべての精度数値は、中国語、日本語、韓国語、英語の様々な解像度の200以上の動画を使用した社内テストに基づいています。実際の結果はソース動画の品質と字幕スタイルによって異なる場合があります。

今すぐ焼き込み字幕を抽出

GeekLinkを無料でダウンロード。任意の動画から字幕を抽出・翻訳・エクスポート — Macでローカルに動作、アカウント登録不要。

Mac版無料ダウンロード