동영상 자막의 배경 음악 간섭 문제 해결 방법

Whisper 같은 AI 전사 도구에서 가장 흔한 불만은 배경 음악이 유령 자막을 생성하는 것입니다. 아무도 말하지 않는 곳에 의미 없는 텍스트, 잘못 인식된 가사, 반복되는 문구가 나타납니다. Whisper로 동영상을 처리했을 때 악기 인트로 부분에서 "Thank you for watching"이나 무작위 영어 단어가 자막으로 표시된 적이 있다면 이 문제를 잘 아실 것입니다. GeekLink는 내장 VAD(음성 활동 감지)로 이 문제를 해결합니다. 전사 전에 비음성 구간을 자동으로 감지하고 음소거하여 자막에 실제로 사람이 말한 내용만 포함되도록 합니다.

배경 음악 문제

배경 음악은 AI 전사 품질의 보이지 않는 적입니다. 배경 음악이 포함된 동영상을 Whisper나 다른 음성-텍스트 변환 엔진에 넣으면, 모델은 사람의 목소리와 기타 리프를 구분하지 못합니다. 들리는 모든 것을 전사하려 하고, 전사할 음성이 없으면 환각을 일으킵니다. 무의미한 조각부터 아무도 말한 적 없는 자신감 넘치는 문장까지 유령 자막을 생성합니다. 노래 가사(때로는 엉뚱한 언어로), "Thank you"나 "Subscribe" 같은 반복 문구, 또는 완전히 의미 없는 문자가 나타납니다.

거의 모든 유형의 동영상 콘텐츠에 영향을 미칩니다: 인트로/아웃트로 음악이 있는 YouTube 동영상, 징글 전환이 있는 팟캐스트, 지속적으로 BGM이 흐르는 예능 프로그램, 배경 음악이 있는 기업 교육 동영상, 라이선스 음악이 포함된 Vlog, DJ 음악이 있는 결혼식 영상, 게임 내 사운드트랙이 있는 방송. 음악이 두드러질수록 환각이 심해집니다. 조용한 배경 음악조차 발화 사이 정지 구간에서 유령 자막을 유발할 수 있습니다.

왜 이런 일이 발생할까요? Whisper와 유사한 모델은 오디오에서 음성을 찾도록 훈련됩니다. 오디오에 음악은 있지만 음성이 없을 때, 모델은 무음을 출력하지 않습니다. 음성과 일치하는 패턴을 찾으려 하고, 거의 항상 틀린 추측을 생성합니다. 모델에게 "여기에는 음성이 없으니 건너뛰라"고 알려주는 사전 필터링 없이는 오디오의 매 초마다 텍스트를 환각합니다. Reddit에는 "왜 Whisper가 내 배경 음악을 무작위 영어 단어로 전사하나요?"와 "음악 구간의 유령 자막을 어떻게 멈추나요?"라는 질문이 넘쳐납니다. 답은 VAD를 사용한 사전 필터링입니다.

수동 오디오 편집이 확장되지 않는 이유

수동 해결 방법은 고통스럽습니다: Audacity에서 동영상을 열고, 음악만 있는 구간을 찾아 제거하고, 노이즈 감소 필터를 적용하고, 정리된 오디오를 내보내고, 전사 도구에 다시 가져와야 합니다. 단일 동영상에도 번거롭습니다. 전사를 시작하기도 전에 15-30분의 세심한 오디오 편집이 필요합니다. 여러 동영상을 처리하는 사람에게는 완전히 비현실적입니다. YouTube 동영상 50개나 시즌 전체에 자막을 달려면, 동영상당 오디오 전처리 15분만으로도 12시간 이상의 수작업이 됩니다.

클라우드 전사 서비스는 오디오 분당 요금을 부과하며, 대부분 동일한 배경 음악 문제를 가지고 있습니다. 전사해서는 안 될 음악에 대해 비용을 지불하는 셈입니다. 일부 서비스는 VAD를 프리미엄 부가 기능으로 제공하지만, 여전히 동영상을 다른 사람의 서버에 업로드하고 지속적으로 비용을 지불해야 합니다. 대부분의 데스크톱 Whisper GUI에는 VAD가 전혀 포함되어 있지 않습니다. 원시 오디오를 그대로 Whisper에 전달할 뿐입니다.

GeekLink 내장 VAD로 깨끗한 자막 만드는 방법

  1. GeekLink에 동영상 가져오기 — 동영상 파일을 GeekLink로 드래그 앤 드롭하세요. MP4, MKV, AVI, MOV 등 모든 일반적인 동영상 형식을 지원합니다. 오디오 추출이나 전처리가 필요 없습니다.
  2. 원본 언어 선택 및 음성 인식 실행 — 동영상에서 사용되는 언어를 선택하고 전사를 시작하세요. VAD 사전 필터링은 기본적으로 활성화되어 있으며, 별도 설정이 필요 없습니다.
  3. VAD가 자동으로 비음성 오디오 필터링 — 오디오가 음성 인식 엔진에 도달하기 전에, GeekLink의 Silero VAD가 파형을 분석하고 각 구간을 음성 또는 비음성으로 분류합니다. 음악만 있는 인트로, BGM 구간, 관객 웃음소리, 효과음은 자동으로 음소거되어 전사 모델이 전혀 접근하지 않습니다.
  4. 깨끗한 전사 결과 확인 — 출력에는 실제 발화 내용만 포함됩니다. 음악 구간의 유령 자막 없음, 효과음의 의미 없는 문자 없음, 무음 구간의 환각 텍스트 없음. GeekLink의 내장 편집기에서 자막을 확인하세요.
  5. SRT로 내보내기 또는 동영상에 자막 굽기 — 깨끗한 자막을 SRT 파일로 저장하여 모든 동영상 플레이어에서 사용하거나, 동영상에 직접 굽어 영구 자막으로 만드세요.

GeekLink가 최적의 도구인 이유

자주 묻는 질문

누군가 노래하고 있을 때도 작동하나요?

네. VAD는 노래를 포함한 음성 활동을 감지하므로, 동영상에서 누군가 노래하고 있다면 해당 구간은 유지되어 전사됩니다. VAD는 악기 음악, 효과음, 비음성 오디오를 특별히 필터링합니다. 동영상에 반주 위에서 노래하는 가수가 있다면, 보컬 구간은 유지되고 순수 악기 구간만 필터링됩니다.

음악이 있는 팟캐스트 인트로는 어떻게 되나요?

음악만 있는 인트로 구간은 VAD에 의해 자동으로 음소거되고, 진행자가 말하기 시작하면 전사가 시작됩니다. 팟캐스트가 발화 아래에 음악을 재생하는 경우(전환에서 흔히 사용되는 기법), VAD는 음악 위의 사람 목소리를 감지하므로 해당 구간을 활성 상태로 유지합니다. 음성 인식 모델은 음악 위의 발화를 비교적 잘 처리합니다. 환각을 일으키는 것은 음악만 있는 구간이며, VAD가 제거하는 것이 바로 그것입니다.

VAD는 실제로 어떻게 작동하나요?

음성 활동 감지는 오디오 파형을 분석하여 각 구간을 음성 또는 비음성으로 분류합니다. GeekLink는 이 작업을 위해 특별히 훈련된 신경망 모델인 Silero VAD를 사용합니다. Mac에서 로컬로 실행되며, 실시간으로 오디오를 처리하여 사람 목소리가 포함된 시간 범위의 맵을 생성합니다. 해당 범위만 음성 인식 엔진으로 전송됩니다. 이 모델은 사람 목소리를 음악, 노이즈, 박수, 무음과 구분하는 데 매우 높은 정확도를 보입니다.

VAD가 처리 속도를 늦추나요?

거의 영향 없습니다. VAD 분석은 동영상 길이에 관계없이 동영상당 몇 초만 추가됩니다. 사실 음성 인식 엔진이 처리할 오디오가 줄어들기 때문에 전체 프로세스가 더 빨라지는 경우가 많습니다. 비음성 구간을 완전히 건너뜁니다. 나중에 유령 자막을 수동으로 검토하고 삭제할 필요가 없어 절약되는 시간이 VAD의 미미한 오버헤드를 훨씬 능가합니다.

VAD를 비활성화할 수 있나요?

네. 사전 필터링 없이 원시 전사 출력을 원한다면 GeekLink 설정에서 VAD 사전 필터링을 끌 수 있습니다. 비음성 오디오를 의도적으로 전사하고 싶거나, 테스트 및 비교 목적에 유용할 수 있습니다. 기본적으로 VAD는 활성화되어 있습니다. 대다수의 동영상에서 훨씬 깨끗한 결과를 제공하기 때문입니다.

관련 글

GeekLink 시작하기

무료로 다운로드하고 노이즈 없는 깨끗한 자막을 만드세요.

무료 다운로드