음성 인식

영상 오디오에서 자막 텍스트를 자동으로 추출합니다

음성 인식이란

음성 인식 기능은 영상의 오디오 트랙을 자동으로 분석하여 음성 내용을 텍스트로 변환하고, 타임라인이 포함된 자막 파일을 생성합니다. 기존 자막이 없는 영상에 적합하며, 직접 촬영한 Vlog, 회의 녹화, 강의 영상 등에 활용할 수 있습니다.

출력 결과는 원본 언어의 SRT 자막 파일이며, 자막 편집기에서 추가로 수정하고 조정할 수 있습니다.

사용 방법

  1. 미디어 라이브러리에 영상 가져오기영상 파일을 GeekLink의 미디어 라이브러리에 끌어다 놓거나, "영상 추가" 버튼을 클릭하여 파일을 선택합니다.
  2. "음성 인식" 탭으로 전환메인 화면 상단에서 "음성 인식" 탭을 선택합니다.
  3. 인식 언어 선택설정 패널에서 영상의 원본 언어(예: 한국어, 영어, 일본어 등)를 선택합니다.
  4. 인식 모델 선택정확도 요구 사항과 기기 성능에 맞는 모델을 선택합니다. 기본 "추천" 모델부터 시작하는 것을 권장합니다.
  5. "음성 인식 실행" 클릭설정을 확인한 후 버튼을 클릭하여 인식을 시작합니다. 여러 영상을 선택하면 일괄 처리할 수 있습니다.
  6. 결과 확인 및 수정인식이 완료되면 "자막 편집기 열기"를 클릭하여 추출 결과를 확인하고, 한 줄씩 교정 및 수정합니다.

인식 모델 선택

GeekLink는 다양한 인식 모델을 제공하며, 정확도와 속도에 각각 차이가 있습니다. 특정 모델을 처음 사용할 때 모델 파일이 자동으로 다운로드됩니다.

모델 파일 크기 메모리 사용량 정확도 속도 적합한 상황
가장 빠름 75 MB ~200 MB 낮음 가장 빠름 빠른 미리보기, 테스트
빠름 142 MB ~300 MB 보통 빠름 일상적인 사용, 정확도가 크게 중요하지 않은 경우
추천 466 MB ~600 MB 높음 보통 기본 추천, 정확도와 속도의 균형
고정밀 1.5 GB ~2 GB 높음 느림 전문적인 상황, 배경 소음이 많은 경우
최고 정밀도+빠름 1.6 GB ~2.5 GB 최고 비교적 빠름 최고 정확도를 유지하면서 속도도 중시하는 경우
최고 정밀도 2.9 GB ~4 GB 최고 가장 느림 극한의 정확도, 속도는 신경 쓰지 않는 경우
모델이 클수록 정확도는 높아지지만 속도는 느려지고 메모리 사용량도 늘어납니다. Mac 메모리가 8GB 이하인 경우 "추천" 또는 더 작은 모델을 사용하는 것이 좋습니다.

추가 설정

앱에서 "추가 설정"을 클릭하여 고급 옵션을 펼칩니다:

원본 언어 자막당 최대 글자 수

단일 자막의 최대 텍스트 길이를 제어하며, 범위는 10~200입니다. 비워두면 제한이 없습니다. 읽기 밀도를 조절하는 데 적합하며, 특히 중국어 자막에 유용합니다. 중국어에는 자연적인 단어 사이 공백이 없어 긴 문장이 줄바꿈 없이 표시되면 시청 경험에 영향을 줄 수 있습니다.

AI 구두점 교정 PRO

구두점만 수정하고 텍스트 내용은 변경하지 않습니다. 중국어 음성 인식은 구두점이 빠지는 경우가 많으며, 활성화하면 쉼표, 마침표 등의 구두점을 자동으로 보완하여 자막 가독성을 크게 향상시킵니다.

예능 모드

예능 프로그램, 리얼리티 쇼 등 배경 소음이 심하고 여러 사람이 빠르게 대화하는 상황에 최적화되어 있습니다. 활성화하면 인식 전략이 조정되어 소음이 많은 환경과 빠른 음성 전환을 더 잘 처리합니다.

자주 묻는 질문

특정 모델을 처음 사용할 때 느린가요?

새 모델을 처음 사용할 때 모델 파일이 자동으로 다운로드됩니다(크기는 위 표 참조). 다운로드 속도는 네트워크 환경에 따라 달라집니다. 다운로드가 완료되면 이후 해당 모델 사용 시 바로 시작되며, 반복 다운로드가 필요하지 않습니다.

인식 결과에 오류가 있으면 어떻게 하나요?

음성 인식은 100% 정확할 수 없으며, 특히 배경 소음이 크거나, 말이 빠르거나, 억양이 강한 경우에 그렇습니다. 인식이 완료된 후 자막 편집기를 열어 한 줄씩 수정하는 것을 권장합니다. 특정 단어가 자주 잘못 인식되는 경우 "자동 교정 규칙" PRO을 사용하여 일반적인 오류를 일괄 수정할 수 있습니다.

인식 결과에 구두점이 없나요?

음성 인식 모델 자체가 구두점을 출력하지 않을 수 있으며, 특히 중국어의 경우 더욱 그렇습니다. "AI 구두점 교정" PRO을 활성화하면 구두점을 자동으로 보완하여 자막을 더 읽기 쉽게 만들 수 있습니다.