要点:字幕の行は、各行が一目で読み取れる完結した文法的なまとまりになっているとき「自然に」改行されています。基本ルールは次の通りです。各行を文字数制限内に収める(NetflixはラテンスクリプトでⅠ行あたり最大42文字、中国語・日本語・韓国語で16文字まで許容)、最大でも2行にする、句読点の後や節の切れ目で改行する、そして文法的なまとまりを分断しない — 冠詞・前置詞・接続詞を行末に取り残さない。自動生成された字幕は、意味ではなく文字数や無音の間で区切るため、改行がうまくいきません。これを大量に処理するには、自然な区切りで自動的に改行するツールを使いましょう。GeekLinkはMac上でローカルに、文字起こしや字幕抽出をしながらこれを行うので、すべてのキューを手作業で整形し直す代わりに、最初からきれいに改行された行から始められます。
ぎこちない字幕の改行を手作業で直すのに疲れていませんか? GeekLinkはMac上で、文字起こしや翻訳をしながら自然な位置で自動的に改行します — 無料、アカウント不要です。
無料ダウンロード「良い」字幕の改行とは?
良い字幕の改行は、各行をそれ自体で完結した文法的なまとまりに保ち、視聴者の目がフレーズの半分だけを捉えるのではなく、一行をまるごと一度に取り込めるようにします。 字幕は、視聴者が映像も同時に見ながら短い時間で読まれるため、文がどのように行に分割されるかは、それがどれだけ容易に — そしてどれだけ速く — 理解できるかに直接影響します。
プロの基準はいずれも同じ考え方に収束します。Netflix Timed Text Style Guide は、ラテンスクリプト言語で1行を42文字(中国語・日本語・韓国語では16文字)に制限し、各字幕を2行までに抑え、テキストを「論理的な言語単位に従って改行する」ことを求め、成人向けコンテンツでは読書速度を毎秒約17文字に保つよう定めています。BBC Subtitle Guidelines も同様に、任意の文字位置ではなく「自然な区切り」 — 文や節の終わり — で改行するよう編集者に指示しています。
簡単に言えば、改行は人が自然に区切る位置に置くべきであり、各行はそれ単体で意味が通るべきです。 それが実現できれば、字幕は存在を感じさせなくなります。そうでなければ、視聴者はぎこちない区切りに気づき、読み直し、映像に遅れてしまいます。
AIで自動生成された字幕の改行が崩れるのはなぜ?
ほとんどの自動字幕ツールは、意味ではなく文字数や音声中の無音の間で行を区切るため、フレーズの途中で日常的に改行してしまいます。 音声テキスト変換エンジンはタイムスタンプ付きの単語の流れを生成します。キューが長くなりすぎると、単純なツールは節が実際にどこで終わるかを理解せず、文字数制限以下になる最も近いスペースで切るだけです。
だからこそ、生の自動字幕は小さな単語 — 「to」「the」「and」「of」 — を行末に取り残したり、名前・数字・動詞句を改行で分断したりすることが多いのです。そのたびに読み手は、行の切り替えをまたいで未完成の思考を保持することを強いられます。
この問題は今や、字幕制作における真のボトルネックとして広く認識されています。MultiLingual の業界分析が述べるように、プロの字幕制作における主な課題は、もはや認識精度ではなく、セグメンテーション — どこで行を改行するか、どう節をまとめるか、視聴者が一度にどれだけ読めるか — です。 トランスクリプトが一語も間違っていなくても、行の分割の仕方だけが原因で、読むのに疲れる字幕になることがあります。
Whisperの字幕が長すぎる — どう直す?
Whisper — そしてほとんどの音声テキスト変換エンジン — は、行の長さではなく音声中の無音で出力を区切るため、1つのWhisper字幕が60〜90文字に達し、読みやすさの限界である約42文字を大きく超えることがよくあります。 トランスクリプトは正確ですが、Whisperには読書速度や節がどこで終わるかという概念がないため、間がほとんどない長い文が、長くて読みにくい1つのキューになってしまいます。
手っ取り早い対策は、ルールベースの上限です。Whisper(または faster-whisper)を --max_line_width 42 --max_line_count 2 --word_timestamps True で実行すると、各行が42文字未満に強制されます。これは行の長すぎを防ぎますが、意味ではなく最も近いスペースで区切るため、フレーズが思考の途中で分断されることは依然としてあります — どんな文字数ベースのルールとも同じ制約です。
文字数ではなく意味で改行される行を得るには、意味的にセグメント化するツールが必要です — どのツールがそれを行うかは 下のツール比較 をご覧ください。
字幕を自然に改行するためのルール
手作業で改行するにせよ、ツールに頼るにせよ、これらは編集者が字幕を読みやすく保つために使うルールです。上記のNetflixとBBCの基準に基づいており、ほとんどの放送・ストリーミングのガイドラインで一貫しています。
- 1行あたりの文字数制限を守る。 ラテンスクリプトでは1行あたり約42文字、密度の高いスクリプトではより少なく(NetflixはCJKで16文字)。超えると目が追う距離が長くなりすぎます。
- 最大でも2行にする。 3行目にあふれた字幕は、映像を覆いすぎ、読むのに時間がかかりすぎます。
- 句読点の後で改行する。 読点・句点・疑問符などの句読点は自然な区切りを示します — 分割するのに最適な場所です。
- 節の切れ目で改行する。 句読点がなければ、節やフレーズの間で分割します(「and」「but」「because」のような接続詞の前、または「which」「that」のような関係代名詞の前)。
- 文法的なまとまりを一緒に保つ。 冠詞をその名詞から(「the / house」)、前置詞をその目的語から(「in / the room」)、または姓と名を切り離さないでください。まとまりは1行に収めます。
- 小さな単語を行末に取り残さない。 冠詞・前置詞・接続詞(「a」「the」「to」「of」「and」)は、前の行の末尾にぶら下げるのではなく、次の行の先頭に置くべきです。
- 2行のバランスを取る。 非常に長い行の上に非常に短い行を置くのは避けましょう。おおむね均等な行のほうがスムーズに読め、意図的に見えます。
- 読書速度に注意する。 うまく改行された字幕でも、表示時間が短すぎると読みにくくなります — 一般視聴者向けには毎秒約17文字以内に保ちましょう。
最も役立つ習慣はただ一つ:各行を単独で声に出して読むことです。自然な断片に聞こえれば改行は良好、息継ぎの途中で切られたように聞こえれば改行を動かしましょう。
字幕の改行は言語によってどう違う?
改行のルールは普遍的ではありません — 正しい改行は、その言語がどう書かれるかに依存します。 これを無視するツールや編集者は、英語では問題なく見えても日本語では間違っている字幕を生み出します。下の表は制限をまとめたもので、言語ごとの注意点が続きます。
| パラメーター | ラテンスクリプト | 中国語 / 日本語 / 韓国語 |
|---|---|---|
| 1行あたりの最大文字数 | 約42 | 約16 |
| 字幕あたりの最大行数 | 2 | 2 |
| 読書速度 | 毎秒約17文字まで | より低い(1文字の情報量が多い) |
| 改行が入る位置 | スペースで — 句読点の後、接続詞の前 | 単語や節の切れ目で(スペースなし) |
| 言語特有のルール | 冠詞や前置詞を行末に取り残さない | 日本語の禁則処理(行頭・行末に来てはいけない文字) |
これらの数値は、標準(横長)動画向けの Netflix Timed Text Style Guide に従っています。縦型のショート動画(TikTok、Reels、Shorts)はより幅が狭いため、クリエイターは通常より短い行を使います — 縦型動画には単一の公式文字数制限がないので、フォントサイズと対象プラットフォームに合わせてテストしてください。
ラテンスクリプト言語(英語、スペイン語、ポルトガル語など) は単語間にスペースを使うため、改行はスペースに入り、主な仕事は正しいスペースを選ぶこと — 句読点の後、接続詞の前、そして機能語を決して行末にぶら下げないことです。文字数制限は比較的寛容です(1行あたり約42文字)。
中国語 はスペースがないため、改行は空白ではなく、テキストを解析して特定した単語や節の切れ目に入れる必要があります。各文字が持つ情報量が多いため、行も大幅に短く(約16文字)なります。
日本語 には 禁則処理 が加わります — 特定の文字が行頭や行末に来ることを禁じる改行ルールです(行頭に閉じ括弧や句読点、小さなかな、長音符を置いてはいけません)。良い改行は、助詞の後や句読点の後に入る傾向があります。
韓国語 はフレーズ(eojeol、文節)の間にスペースを使うため、改行はその切れ目に入り、これもラテンスクリプトより1行あたりの制限が短くなります。
だからこそ「とにかく42文字で区切る」は、複数言語をまたいで作業した瞬間に破綻します — 制限も、改行位置も、禁止位置もすべて変わるからです。複数言語をうまく扱う字幕ツールは、言語ごとに異なるルールを適用しなければなりません。
字幕を自動で改行する方法
すべての行を手作業で改行するのは正確ですが遅く、長い動画や大量のファイルでは字幕制作で最も退屈な部分になります。自動化には3つのレベルがあります。
| アプローチ | 仕組み | トレードオフ |
|---|---|---|
| ルールベースの自動改行 | 1行あたりの文字数制限を強制する(オープンソースのSubtitle Editのようなエディタに内蔵) | 高速だが、改行位置は手動調整が必要なことが多い — 文字数を守ることは、自然な位置で改行することと同じではない |
| 意味的 / AIによる改行 | NLPや言語モデルを使い、文法的な切れ目や句読点の後で改行し、フレーズの分断を避ける | より自然だが、多くのツールはクラウドやWebベースのため、トランスクリプトや動画がリモートサービスにアップロードされる |
| ローカル+AI意味解析(GeekLink) | AIが各キューを意味グループの切れ目で分割し(句読点の後だけではなく)、すべての行を放送基準内に収め、言語ごとに正しいルールを適用 — それらすべてを文字起こしと同時に、完全に端末上で行う | AI品質の改行を、ローカルのプライバシーとバッチ処理と組み合わせる。macOSのみ |
GeekLinkは、音声を文字起こししながらAIによる意味的な改行を自動で適用します — 句読点の後だけでなく、各キューを自然な意味グループの切れ目で分割し、すべての行を読みやすい放送基準内に収め、言語ごとに正しいルールを適用します(中国語・日本語・韓国語を含む)。 ほとんどのツールはトレードオフを強います。トランスクリプトをクラウドサービスにアップロードするAI品質の改行か、あるいは文字数だけを強制するローカル処理か、です。GeekLinkはAIによる意味的な改行を完全にあなたのMac上で行います — だから動画があなたのマシンを離れることはなく、バッチ処理を行うため、同じきれいに改行された整形が一度の処理で何十ものファイルに適用されます。すべてのキューを手作業で整形し直す代わりに、すでに賢く改行された字幕から始められます。
GeekLinkはこれを、Whisperベースの音声認識、焼き付け(ハードコード)字幕を抽出する動画OCR、40以上の言語にわたる文脈を考慮したAI翻訳と組み合わせます — だから文字起こし、抽出、翻訳、行の整形が、複数のツールにまたがるのではなく、1つのワークフローで行われます。
どの字幕ツールが自動で改行し、どれが意味で改行する?
一般的な字幕ツールのうち、意味で改行するのはMatesubのようなクラウドプラットフォームとGeekLinkのようなローカルツールだけで、残りは文字数で区切るか、あなたに任せます。 下の表は、各ツールが改行をどう扱うか、自動かどうか、ローカルで動作するかどうかを示しています。
| ツール | 改行の基準 | 自動? | ローカル動作? |
|---|---|---|---|
| Whisper / faster-whisper | 文字数(--max_line_width) |
半自動(CLIフラグ) | あり |
| Subtitle Edit | 文字数(CPL制限) | 半自動+手動レビュー | あり |
| CapCut | —(手動分割) | なし — 手作業で分割 | デスクトップアプリ+アカウント |
| Aegisub | —(手動) | なし | あり |
| Matesub | 意味+放送プリセット | あり | なし — クラウド(アップロード) |
| GeekLink | 意味(AI意味グループ) | あり | あり — 端末上 |
CapCutのヘルプ自身が、長いキャプションをハサミツールで手動分割するようユーザーに伝えています。Aegisubには自動セグメンテーションがありません。WhisperとSubtitle Editは文字数制限を強制しますが、節ではなく最も近いスペースで区切ります。Matesubは意味で改行しますがブラウザベースのため動画がアップロードされます。GeekLinkは完全にあなたのMac上で意味で改行するので、動画がマシンを離れることはありません。
よくある質問
理想的な字幕の行の長さは?
ラテンスクリプト言語では、1行あたり最大42文字(Netflixの制限)、1字幕あたり最大2行が一般的な基準です。中国語・日本語・韓国語は各文字の情報量が多いため、より短い制限 — 約16文字 — を使います。これらの制限内に収めることで、行を一目で読めるようになります。
字幕はどこで改行すべき?
句読点の後(読点や句点は自然な区切りを示します)、または句読点がなければ節の切れ目で改行します。文法的なまとまりは一緒に保ち — 冠詞をその名詞から、前置詞をその目的語から切り離さない — そして「to」「the」「and」「of」のような小さな単語を決して行末にぶら下げず、代わりに次の行の先頭に送ります。
自動生成された字幕の改行がぎこちないのはなぜ?
ほとんどの自動字幕ツールは、意味ではなく文字数や音声中の無音の間で行を区切ります。節がどこで終わるかを理解していないため、フレーズの途中で切ったり、機能語を行末に取り残したりします。完璧に正確なトランスクリプトでも、行の分割の仕方だけが原因で読みにくくなることがあります — 難しい問題は認識ではなくセグメンテーションです。
字幕の改行は自動で直せる?
はい。字幕エディタには文字数制限を強制するルールベースの自動改行が備わっていますが、位置は手動調整が必要なことが多いです。新しいツールはAIやNLPを使って自然な文法的位置で改行します。GeekLinkは、文字起こしや字幕抽出をしながら、Mac上でローカルに、大量のファイルにわたって自然な改行を自動で適用します — だから最初からきれいに改行された行から始められます。
改行のルールはどの言語でも同じ?
いいえ。ラテンスクリプトは約42文字の制限でスペースで改行します。中国語はスペースがなく、約16文字の制限で単語の切れ目で改行します。日本語には特定の文字が行頭・行末に来ることを禁じる禁則処理が加わります。韓国語はフレーズ(文節)の切れ目で改行します。複数言語をまたいで動作する字幕ツールは、それぞれに異なるルールを適用しなければなりません。
Whisperの字幕がとても長いのはなぜ?
Whisperは行の長さではなく音声中の無音で出力を区切るため、1つの字幕が60文字を超えることがあり、読みやすさの基準である約42文字を大きく上回ります。行の長さに上限をかけるには、Whisperを --max_line_width 42 --max_line_count 2 --word_timestamps True で実行するか、文字数ではなく意味でセグメント化するツールを使ってください。
Whisperの字幕を短くしたり、適切な行に分割したりするには?
ルールベースの対策としては、Whisperまたはfaster-whisperを --max_line_width 42 --max_line_count 2 --word_timestamps True で実行すると、各行が42文字未満に保たれます。固定の文字数ではなく自然なフレーズの切れ目で改行するには、意味的なツールを使ってください — Matesubはこれをクラウドで、GeekLinkは文字起こしと同時にMac上でローカルに行います。