WhisperなどのAI文字起こしツールで最も多い問題が、BGMによるゴースト字幕の発生です。誰も話していないのに意味不明な文字、聞き間違いの歌詞、繰り返しのフレーズが表示されます。Whisperで動画を処理したとき、インストルメンタルなイントロ部分で「Thank you for watching」やランダムな英単語が字幕として表示された経験はありませんか?GeekLinkは内蔵VAD(音声活動検出)でこの問題を解決します。文字起こしの前に非音声セグメントを自動で検出・ミュートし、実際に人が話している内容だけが字幕になります。
BGMはAI文字起こし品質の隠れた天敵です。BGM付きの動画をWhisperや任意の音声テキスト変換エンジンに入力すると、モデルは人の声とギターのリフを区別できません。聞こえるすべてを文字起こししようとし、文字起こしすべき音声がない場合は幻覚を起こします。意味不明な断片から、誰も言っていないのに堂々とした文章まで、ゴースト字幕が生成されます。歌詞(時には間違った言語の)、「Thank you」や「Subscribe」のような繰り返しフレーズ、あるいは悪夢のような完全な意味不明文字が表示されます。
ほぼすべてのタイプの動画コンテンツに影響します:イントロ・アウトロ音楽付きのYouTube動画、ジングル付きのポッドキャスト、常にBGMが流れるバラエティ番組、背景音楽付きの企業研修動画、ライセンス音楽付きのVlog、DJ音楽付きの結婚式動画、ゲーム内サウンドトラック付きの配信。音楽が目立つほど、幻覚は悪化します。静かなBGMでさえ、発話の合間にゴースト字幕を引き起こすことがあります。
なぜこうなるのか?Whisperなどのモデルは音声から発話を見つけるよう訓練されています。音声に音楽はあるが発話がない場合、モデルは無音を出力せず、発話に一致するパターンを見つけようとし、ほぼ常に間違った推測を生成します。「ここには発話がない、スキップしろ」とモデルに伝えるプレフィルタリングがなければ、音声の毎秒に対してテキストを幻覚します。Redditでは「なぜWhisperはBGMをランダムな英単語として文字起こしするのか?」「音楽セグメントのゴースト字幕をどう止めるか?」という質問であふれています。答えはVADによるプレフィルタリングです。
手動の回避策は大変です。Audacityで動画を開き、音楽のみのセグメントを特定して除去し、ノイズ除去フィルタを適用し、クリーンな音声をエクスポートし、文字起こしツールに再インポートします。1本の動画でも面倒です。文字起こしを始める前に15〜30分の注意深い音声編集が必要です。複数の動画を処理する場合、完全に非現実的です。50本のYouTube動画やシーズン一本分の番組に字幕をつける場合、音声前処理だけで1本15分×50本で12時間以上の手作業になります。
クラウド文字起こしサービスは音声の分単位で課金され、そのほとんどが同じBGM問題を抱えています。文字起こしすべきでない音楽に対してお金を払っていることになります。一部のサービスはVADをプレミアムオプションとして提供していますが、それでも他社のサーバーに動画をアップロードし、継続的に料金を支払う必要があります。ほとんどのデスクトップ版Whisper GUIにはVADが含まれておらず、生の音声をそのままWhisperに渡しているだけです。
はい。VADは歌唱を含む音声活動を検出するので、動画で人が歌っている場合、そのセグメントは保持され文字起こしされます。VADはインストルメンタル音楽、効果音、非音声の音声を特にフィルタリングします。動画にバッキングトラック上で歌うシンガーがいる場合、ボーカルセグメントは保持され、純粋なインストルメンタル部分のみがフィルタリングされます。
音楽のみのイントロセグメントはVADによって自動ミュートされ、ホストが話し始めると文字起こしが開始されます。ポッドキャストが発話の下で音楽を再生する場合(トランジションでよく使われる手法)、VADは音楽の上に人の声を検出するため、これらのセグメントを有効に保ちます。音声認識モデルは音楽上の発話を比較的うまく処理します——幻覚を引き起こすのは音楽のみのセグメントであり、VADが排除するのはまさにそれです。
音声活動検出は音声波形を分析し、各セグメントを音声または非音声に分類します。GeekLinkはSilero VADを使用しています。これはこのタスク専用に訓練されたニューラルネットワークモデルです。Mac上でローカルに動作し、リアルタイムで音声を処理して、人の声が含まれる時間範囲のマップを生成します。これらの範囲のみが音声認識エンジンに送信されます。このモデルは人の声を音楽、ノイズ、拍手、無音と区別する精度が非常に高いです。
ほとんど影響ありません。VAD分析は動画の長さに関係なく、1本あたり数秒しか追加しません。実際には、音声認識エンジンが処理する音声量が減るため、全体のプロセスが速くなることが多いです——非音声セグメントはすべてスキップされます。事後にゴースト字幕を手動で確認・削除する必要がなくなる時間の節約は、VADのわずかなオーバーヘッドをはるかに上回ります。
はい。プレフィルタリングなしの生の文字起こし出力が必要な場合は、GeekLinkの設定でVADプレフィルタリングをオフにできます。非音声の音声を意図的に文字起こししたい場合や、テスト・比較目的など、まれなケースで役立つかもしれません。デフォルトではVADが有効になっています。大多数の動画でより高品質な結果を生み出すためです。