하드코딩된 자막(번인 자막)은 동영상 프레임에 영구적으로 구워진 텍스트로, 끄거나 복사하거나 편집할 수 없으며 OCR 추출 없이는 접근이 불가능합니다. AI 기반 OCR은 이 텍스트를 프레임별로 읽어 타이밍을 재구성하고 편집 가능한 SRT 파일로 출력할 수 있습니다. 이 가이드는 중국 숏드라마, 일본 애니메이션, 예능 프로그램, 구작 영화 등 모든 주요 시나리오를 다루며 — Mac에서 로컬로 하드코딩된 자막을 추출, 편집, 번역하는 단계별 안내를 제공합니다.
하드코딩 자막이란 무엇이며, 소프트 자막과 어떻게 다를까요?
자막은 근본적으로 두 가지 형태로 나뉘며, 이 구분은 추출 방식에 중요한 영향을 미칩니다.
소프트 자막(외부 자막 또는 온/오프 가능한 자막이라고도 함)은 별도의 텍스트 파일(SRT, ASS, VTT)로, 동영상 플레이어가 재생 중 오버레이로 표시합니다. 켜고 끌 수 있고, 언어를 전환할 수 있으며, 텍스트 파일을 직접 편집할 수 있습니다. YouTube 자막 트랙, Netflix 언어 옵션, 다운로드된 .srt 파일이 모두 소프트 자막입니다.
하드코딩 자막(번인 자막, 임베디드 자막, 오픈 캡션이라고도 함)은 동영상 이미지 자체의 일부입니다. 동영상 편집 과정에서 텍스트가 각 프레임에 직접 렌더링됩니다. 별도의 텍스트 레이어가 없으며, 자막 픽셀은 동영상 플레이어 입장에서 나머지 이미지와 구별할 수 없습니다.
핵심 결론: 하드코딩된 자막은 동영상 파일을 열어 텍스트 트랙을 찾는 것만으로는 추출할 수 없습니다. 텍스트를 복원하는 유일한 방법은 OCR(광학 문자 인식)을 사용하여 이미지에서 "읽는" 것입니다.
어떤 유형인지 확인하는 방법:
- 동영상 플레이어에 자막 토글 버튼이 있고, 끄면 텍스트가 사라지면 → 소프트 자막
- 플레이어 설정에 관계없이 텍스트가 항상 보이면 → 하드코딩 자막
- VLC에서 동영상을 열고 → 자막 메뉴에서 트랙이 표시되지 않으면 → 하드코딩 자막
ffprobe -i video.mp4를 실행했을 때 자막 스트림이 없으면 → 하드코딩 자막
왜 하드코딩된 자막을 추출해야 할까요?
동영상에서 번인 자막을 추출하는 네 가지 주요 이유가 있습니다:
1. 다른 언어로 번역
가장 흔한 사용 사례입니다. 중국어 하드코딩 자막이 있는 동영상(더우인, 비리비리, 웨이신 채널에서 흔함)을 영어, 일본어 또는 다른 언어로 번역하고 싶을 때입니다. 편집할 수 없는 것은 번역할 수도 없습니다 — 따라서 추출이 먼저입니다.
2. 검색 가능한 텍스트 생성
연구자, 기자, 아카이비스트는 종종 동영상 콘텐츠를 색인, 검색, 인용하기 위해 텍스트 버전이 필요합니다. 하드코딩된 자막은 정보를 담고 있지만 픽셀 형태에 갇혀 있습니다.
3. 자막 스타일 변경 또는 재배치
번인된 자막의 위치가 부적절하거나(중요한 영상을 가림), 모바일에서 읽기에 너무 작거나, 용도에 맞지 않는 스타일일 수 있습니다. 텍스트를 추출하면 원하는 폰트, 크기, 색상, 위치로 다시 렌더링할 수 있습니다.
4. 접근성 및 규정 준수
YouTube와 같은 플랫폼은 자동 번역 기능과 접근성 도구를 위해 자막 파일(번인 텍스트가 아닌)을 요구합니다. 하드코딩된 자막을 SRT 형식으로 추출하면 화면 읽기 프로그램, 자동 번역, 맞춤 캡션 설정을 사용하는 청각 장애인에게 콘텐츠를 접근 가능하게 만듭니다.
OCR 자막 추출은 실제로 어떻게 작동할까요?
OCR 자막 추출은 네 단계 파이프라인으로 이루어집니다: 프레임 샘플링, 텍스트 감지, 문자 인식, 중복 제거 및 타임스탬프 할당. 이 단계를 이해하면 정확도 문제를 해결하는 데 도움이 됩니다.
1단계: 프레임 샘플링
30fps 동영상은 1분에 1,800개의 프레임을 포함합니다. 대부분의 자막은 2-5초간 화면에 표시되므로, 실제로 새로운 텍스트를 포함하는 프레임은 일부에 불과합니다. 스마트 OCR 도구는 모든 프레임을 처리하는 대신 일정 간격(예: 0.5초마다)으로 프레임을 샘플링하고 자막 텍스트가 변경되는 시점을 감지합니다.
이것이 처리 속도가 달라지는 이유입니다 — 60개의 자막 라인이 있는 10분 동영상은 18,000개가 아닌 약 120개의 프레임(입/출 감지)만 인식하면 됩니다.
2단계: 텍스트 영역 감지
OCR 엔진이 각 프레임에서 텍스트가 나타나는 위치를 식별합니다. 자막은 일반적으로 화면 하단 20-30%에 위치하지만, 예능 프로그램이나 애니메이션은 상단, 중앙, 말풍선 등 어디에나 텍스트가 배치될 수 있습니다. 고급 감지 모델은 위치에 관계없이 텍스트를 찾아냅니다.
3단계: 문자 인식
텍스트 영역이 분리되면 OCR 모델이 개별 문자를 읽습니다. 이 단계에서 언어가 크게 중요합니다:
- 라틴 문자(영어, 스페인어, 프랑스어) — 높은 정확도, 모든 OCR 엔진이 잘 처리
- CJK 문자(중국어, 일본어, 한국어) — 수천 가지 문자 변형에 대해 훈련된 전문 모델이 필요. 중국어만 해도 6,763개의 상용 문자가 있습니다(GB 2312 표준)
- 혼합 문자(한자 + 히라가나 + 가타카나 + 간헐적 영어가 포함된 일본어) — 한 줄 내에서 다중 스크립트 감지가 필요한 가장 어려운 경우
4단계: 중복 제거 및 타이밍
동일한 자막 라인이 연속된 여러 프레임에 걸쳐 나타납니다. OCR 시스템은 프레임 150-220이 모두 같은 텍스트를 포함한다는 것을 인식하고, 이를 하나의 자막 항목으로 그룹화하며, 올바른 시작 및 종료 타임스탬프를 할당해야 합니다. 좋은 중복 제거는 깨끗한 60줄 SRT 파일과 중복이 가득한 엉망인 500줄 파일의 차이를 만듭니다.
하드코딩된 자막을 단계별로 추출하는 방법
이 안내는 macOS에서 GeekLink를 사용합니다. 전체 과정이 로컬에서 실행됩니다 — 동영상이 컴퓨터 밖으로 나가지 않습니다.
1단계: 동영상 가져오기
동영상 파일을 GeekLink에 드래그 앤 드롭합니다. 지원 형식은 MP4, MOV, MKV, AVI, WebM, FLV입니다. 파일 크기 제한이 없습니다 — OCR은 전체 동영상 비트스트림이 아닌 개별 프레임을 처리합니다.
일괄 작업(예: 드라마 전체 시즌의 자막 추출)의 경우, 여러 파일을 한 번에 가져올 수 있습니다. GeekLink는 하드웨어에 따라 순차 또는 병렬로 처리합니다.
2단계: 추출 방법으로 OCR 선택
GeekLink는 두 가지 자막 추출 방법을 제공합니다:
- 음성 인식 — 음성 오디오를 텍스트로 변환합니다. 자막이 없거나 부정확할 때 사용합니다.
- OCR 추출 — 동영상 프레임에서 텍스트를 읽습니다. 자막이 이미 동영상에 번인되어 있을 때 사용합니다.
OCR을 선택합니다. 엔진이 오디오 트랙을 처리하는 대신 시각적 텍스트를 읽습니다.
3단계: 자막 영역 설정 (권장)
자막이 나타나는 프레임 영역을 정의합니다. 대부분의 콘텐츠에서 이는 화면 하단 20-30%입니다. 영역 설정의 장점:
- 화면 텍스트, 워터마크, 채널 로고로 인한 오탐을 제거
- 스캔할 영역을 줄여 처리 속도 향상
- 모델이 파싱할 시각적 노이즈를 줄여 정확도 향상
비표준 위치에 자막이 있는 예능 프로그램의 경우 영역을 그에 맞게 조정합니다. 여러 위치에 텍스트가 있는 애니메이션의 경우 전체 프레임을 사용해야 할 수 있습니다.
4단계: 추출 실행
GeekLink가 동영상을 프레임별로 처리합니다:
- 감지된 텍스트 변화에 따라 적응형 간격으로 프레임 샘플링
- 각 샘플링된 프레임 내에서 텍스트 영역 감지
- CJK 최적화 또는 라틴 문자 모델을 사용하여 문자 인식
- 연속된 동일 텍스트를 중복 제거하여 깨끗한 자막 항목 생성
- 각 항목에 시작 및 종료 타임스탬프 할당
처리는 전적으로 Mac의 CPU/GPU에서 실행됩니다. 10분 동영상은 자막 밀도와 하드웨어에 따라 보통 1-3분이 소요됩니다.
5단계: 내장 편집기에서 검토
자막 편집기를 열어 결과를 검토합니다. 흔한 수정 사항:
- 문자 오류 — OCR이 비슷한 문자를 혼동할 수 있습니다: 已/己/巳, 未/末, rn/m, 0/O. 빠르게 수동으로 수정할 수 있습니다.
- 줄 분할 — 두 개의 별도 자막 항목이어야 할 긴 줄이 하나로 합쳐지는 경우가 있습니다. 자연스러운 문장 경계에서 분할합니다.
- 타임스탬프 조정 — 자막이 0.2-0.5초 일찍 또는 늦게 나타나면, 타임스탬프를 드래그하여 음성과 정확히 맞춥니다.
- 장식 텍스트 제거 — 예능 프로그램은 본 자막이 아닌 장식 텍스트가 추출될 수 있습니다. 이러한 항목을 삭제합니다.
6단계: 내보내기
추출된 자막을 원하는 형식으로 내보냅니다:
- SRT — 범용 호환성. YouTube, Vimeo, VLC, Premiere, Final Cut, DaVinci Resolve에서 사용 가능.
- ASS — CJK 콘텐츠를 위한 고급 스타일링. 커스텀 폰트, 색상, 위치, 효과 지원.
- VTT — HTML5 동영상 플레이어를 위한 웹 네이티브 형식.
OCR 자막 정확도를 최대화하는 방법
OCR 정확도는 자막의 시각적 특성에 따라 달라집니다 — 동영상 유형이 아닙니다. 동일한 도구라도 1080p의 깨끗한 흰색 텍스트에서는 99%를, 480p의 흐릿한 장식 폰트에서는 80%를 얻을 수 있습니다. 다음은 제어할 수 있는 요소입니다.
1. 소스 동영상 해상도가 가장 중요합니다
720p가 안정적인 OCR을 위한 최소 조건입니다. 720p 이하에서는 문자 가장자리가 모호해지고 정확도가 급격히 떨어집니다 — 특히 획의 세부 사항이 서로 다른 문자를 구분하는 CJK 문자에서 그렇습니다.
소스가 480p 이하인 경우, OCR 추출 전에 AI 업스케일링을 고려하세요. 2배 업스케일(480p → 960p)만으로도 문자 경계 선명도를 개선하여 5-10%의 정확도 향상을 얻을 수 있습니다.
2. 텍스트와 배경 간의 대비
모든 배경에 검은 테두리가 있는 흰색 텍스트: 우수. 테두리 없이 밝은 장면 위의 노란색 텍스트: 문제 발생. 자막 텍스트가 밝은 배경에 섞이는 장면이 있는 동영상은 해당 특정 프레임의 정확도가 낮아집니다.
3. 자막 영역 정의
3단계에서 언급한 바와 같이: 스캔 영역을 자막이 실제로 나타나는 곳으로 제한하면 워터마크, 로고, 화면 그래픽으로 인한 오탐을 제거합니다. 이것만으로도 예능 프로그램 콘텐츠에서 정밀도를 85%에서 95%로 향상시킬 수 있습니다.
4. 심하게 압축된 동영상 처리 피하기
동영상 압축(특히 낮은 비트레이트)은 텍스트 가장자리 주변에 아티팩트(블록형 왜곡)를 생성하여 OCR을 혼란시킵니다. 가능하면 가장 고품질의 소스를 사용하세요. 8 Mbps의 1080p 파일이 동일한 콘텐츠를 2 Mbps로 처리한 것보다 OCR 결과가 훨씬 좋습니다.
5. 다국어 콘텐츠 올바르게 처리
일부 동영상은 두 언어를 동시에 표시합니다(예: 중국어 + 영어가 별도 줄에). OCR은 둘 다 추출합니다. 한 언어만 필요한 경우:
- 영역을 필요한 줄로만 제한합니다(서로 다른 수직 위치에 있는 경우)
- 추출 후 편집기에서 불필요한 언어 항목을 삭제합니다
6. 후처리: 일반적인 치환 패턴
OCR 후 특정 문자 혼동은 예측 가능하며 일괄 수정할 수 있습니다:
- 영어:
rn→m,l→I,0→O - 중국어:
已↔己,未↔末,土↔士 - 일본어:
ー(가타카나 장음) ↔一(한자 "일")
하드코딩된 자막을 추출하고 한 번에 번역할 수 있을까요?
네 — 이것이 OCR 추출이 가장 강력해지는 부분입니다. 추출-번역-내보내기 워크플로우는 외국어 하드코딩 자막이 있는 동영상을 단일 애플리케이션 내에서 대상 언어 자막이 있는 동영상으로 변환합니다.
워크플로우:
- 추출 — OCR이 하드코딩된 중국어/일본어/한국어 자막을 읽고 편집 가능한 SRT를 생성
- 번역 — AI 번역이 추출된 텍스트를 전체 문장 컨텍스트와 함께 대상 언어(영어, 스페인어, 포르투갈어 등)로 변환
- 내보내기 — 자막 파일로 출력하거나, 번역된 텍스트를 동영상에 새로운 하드코딩 자막으로 다시 굽기
이것이 가장 흔한 실제 사용 사례입니다: 중국어 번인 자막이 있는 중국 숏드라마에서 영어 자막을 원하는 경우 — SRT 파일이든 다른 위치에 번인된 형태든.
로컬 처리의 프라이버시 장점
이 워크플로우에서 동영상과 오디오는 Mac을 벗어나지 않습니다. 추출된 자막 텍스트(일반 텍스트, 수 KB)만 번역 API로 전송됩니다. 이것이 중요한 경우:
- 미공개 또는 저작권이 있는 콘텐츠로 배포 권한이 없는 경우
- 독점 정보가 포함된 기업 또는 교육 동영상
- NDA에 의해 제3자 서비스에 콘텐츠 업로드가 금지된 클라이언트 작업
다중 에피소드 일괄 처리
시리즈 콘텐츠(드라마 시즌, 강의 시리즈, YouTube 재생목록)의 경우, 일괄 처리로 수동 개입 없이 20-50개의 에피소드를 밤새 추출하고 번역할 수 있습니다. 모든 에피소드를 가져오고, OCR 설정을 한 번 구성한 후, 잠자는 동안 도구가 순차적으로 처리하도록 두면 됩니다.
OCR 자막 추출의 한계점은 무엇인가요?
OCR은 완벽하지 않습니다. 한계를 이해하면 현실적인 기대치를 설정하고 대안적 접근이 필요한 시점을 파악할 수 있습니다.
원본 자막을 제거할 수 없음
OCR은 텍스트를 추출하지만 — 동영상 이미지에서 번인된 자막을 지우지는 않습니다. 원본 텍스트를 제거하려면 비디오 인페인팅(별도의 계산 비용이 높은 프로세스)이 필요합니다. 실용적인 해결 방법: 번역된 새 자막을 원본 위 또는 아래에 배치하거나, 약간 불투명한 배경 바를 사용합니다.
장식 텍스트와 특수 효과
심한 그라데이션, 글로우 효과, 3D 회전 또는 애니메이션이 적용된 텍스트는 정확하게 인식되지 않을 수 있습니다. 모델은 인쇄된 텍스트 패턴으로 훈련되었으며 — 시각적 형태가 표준 인쇄 문자에서 벗어날수록 정확도가 낮아집니다.
매우 낮은 해상도 소스
360p 이하에서는 CJK 문자가 모호해집니다(획이 합쳐지고 부수를 구별할 수 없음). 라틴 텍스트는 더 단순한 문자 형태 덕분에 저해상도에서 약간 더 나은 결과를 보입니다. 네이티브 해상도에서 정확도가 허용 수준이 아니면 먼저 업스케일하세요.
겹치는 텍스트와 혼합 언어
두 텍스트 레이어가 겹칠 때(예: 워터마크 위의 자막, 또는 같은 위치의 두 화자 자막), OCR은 겹치는 부분에서 깨진 출력을 생성할 수 있습니다. 두 가지 처리 방법: 원하는 자막 레이어를 분리하기 위해 특정 영역을 정의하거나, 언어 필터링을 사용합니다 — 예를 들어, 일본어 동영상에 중국어 간체 자막이 번인되어 있다면, 일본어 문자를 필터링하여 중국어 텍스트만 인식하게 하면 훨씬 깨끗한 결과를 얻을 수 있습니다.
손글씨 또는 고도로 양식화된 폰트
OCR 모델은 주로 인쇄 서체로 훈련됩니다. 손글씨, 서예 스타일, 또는 과도하게 장식된 폰트(예능 프로그램의 "리액션 텍스트"에서 흔함)는 인식률이 상당히 낮습니다.
자주 묻는 질문
하드코딩 자막이란 무엇인가요?
하드코딩 자막(번인 자막 또는 오픈 캡션이라고도 함)은 편집 또는 인코딩 과정에서 동영상 이미지에 영구적으로 렌더링된 텍스트입니다. 픽셀의 일부로, 끄거나 언어를 변경하거나 OCR 추출 없이는 편집할 수 없습니다. 일반적인 예: 중국 더우인/비리비리 동영상, 팬섭 애니메이션, 구형 DVD 리핑, CapCut 등으로 편집된 소셜 미디어 클립.
OCR로 모든 언어의 자막을 추출할 수 있나요?
최신 OCR은 대부분의 주요 문자 체계를 처리합니다: 중국어(간체 및 번체), 일본어(한자 + 히라가나 + 가타카나), 한국어(한글), 영어, 스페인어, 프랑스어, 독일어, 포르투갈어, 러시아어, 아랍어(RTL), 태국어, 베트남어 및 기타 라틴 문자 언어. CJK 문자는 대규모 문자 집합(중국어만 6,763개의 상용 문자)으로 인해 전문 모델이 필요합니다. GeekLink는 Mac에서 로컬로 실행되는 CJK 최적화 모델을 포함합니다.
OCR 자막 추출의 정확도는 어느 정도인가요?
정확도는 동영상 해상도, 텍스트 대비, 폰트 스타일에 따라 달라지며 — 동영상 콘텐츠 유형과는 무관합니다. 720p 이상에서 테두리가 있는 깨끗한 흰색 텍스트: 95-99%. 720p에서 스타일이 적용된 또는 장식 텍스트: 85-93%. 저해상도 480p 소스: 80-90%. CJK 문자는 획 세부 사항이 더 중요하므로 라틴 텍스트보다 높은 해상도가 필요합니다. 전문적인 용도에서는 게시 전에 항상 자막 편집기에서 OCR 결과를 검토하세요.
OCR 자막 추출이 음성 인식보다 나은가요?
두 방법은 서로 다른 문제를 해결합니다. 자막이 이미 동영상에 번인되어 있고 해당 텍스트를 정확히 추출하고 싶을 때 OCR을 사용합니다. 자막이 없고 음성 오디오를 텍스트로 변환해야 할 때 음성 인식을 사용합니다. 동영상에 하드코딩 자막과 깨끗한 오디오가 모두 있다면, OCR이 일반적으로 더 정확한 결과를 제공합니다 — 오디오를 해석하는 것이 아니라 이미 적힌 텍스트를 읽기 때문입니다. 오디오 품질이 나쁘지만 자막이 깨끗한 동영상에서는 OCR이 확실히 우수합니다.
동영상에서 하드코딩 자막을 제거할 수 있나요?
OCR은 텍스트 내용을 추출하지만 동영상 프레임에서 번인된 자막을 시각적으로 제거하지는 않습니다. 제거하려면 비디오 인페인팅(텍스트 뒤의 영역을 채우는 작업)이 필요하며, 이는 별도의 계산 비용이 높은 프로세스입니다. 실용적인 접근법: OCR로 텍스트를 추출하고, 번역한 후, 원본 위 또는 인접한 위치에 새 자막을 오버레이합니다.
OCR 자막 추출은 얼마나 걸리나요?
처리 시간은 동영상 길이, 자막 밀도, 하드웨어에 따라 달라집니다. Apple Silicon Mac(M1 이상)에서의 일반적인 벤치마크: 약 60줄의 자막이 있는 10분 동영상은 1-3분이 소요됩니다. 45분 드라마 에피소드는 5-12분이 걸립니다. 일괄 처리는 백그라운드에서 실행됩니다 — 20개 에피소드 전체 시즌을 큐에 넣고 밤새 처리하도록 둘 수 있습니다.
관련 기사
고지: 이 가이드는 GeekLink 팀이 작성했습니다. GeekLink는 OCR 추출 기능을 포함한 macOS 자막 도구입니다. 모든 정확도 수치는 다양한 해상도의 중국어, 일본어, 한국어, 영어 동영상 200개 이상에 대한 내부 테스트를 기반으로 합니다. 소스 동영상 품질과 자막 스타일에 따라 결과가 달라질 수 있습니다.