음성 인식

영상 오디오에서 자막 텍스트를 자동으로 추출합니다

음성 인식이란

음성 인식 기능은 영상의 오디오 트랙을 자동으로 분석하여 음성 내용을 텍스트로 변환하고, 타임라인이 포함된 자막 파일을 생성합니다. 기존 자막이 없는 영상에 적합하며, 직접 촬영한 Vlog, 회의 녹화, 강의 영상 등에 활용할 수 있습니다.

출력 결과는 원문 언어의 SRT 자막 파일이며, 자막 편집기에서 추가로 수정하고 조정할 수 있습니다.

사용 방법

미디어 라이브러리에 영상 가져오기영상 파일을 GeekLink의 미디어 라이브러리에 끌어다 놓거나, "영상 추가" 버튼을 클릭하여 파일을 선택합니다.
"자막 없음, 오디오만" 선택설정 패널에서 "자막 없음, 오디오만" 옵션을 선택합니다 — GeekLink가 영상의 오디오에서 자막을 인식합니다(번역도 함께 원하면 "다른 언어로 번역도 실행"을 체크하세요).
인식 언어 선택설정 패널에서 영상의 원문 언어(예: 한국어, 영어, 일본어 등)를 선택합니다.
인식 모델 선택정확도 요구 사항과 기기 성능에 맞는 모델을 선택합니다. 기본 "추천" 모델부터 시작하는 것을 권장합니다.
"음성 인식 실행" 클릭설정을 확인한 후 버튼을 클릭하여 인식을 시작합니다. 여러 영상을 선택하면 일괄 처리할 수 있습니다.
결과 확인 및 수정인식이 완료되면 "자막 편집기 열기"를 클릭하여 추출 결과를 확인하고, 한 줄씩 교정 및 수정합니다.

인식 모델 선택

GeekLink는 다양한 인식 모델을 제공하며, 정확도와 속도에 각각 차이가 있습니다. 특정 모델을 처음 사용할 때 모델 파일이 자동으로 다운로드됩니다.

모델	파일 크기	메모리 사용량	정확도	속도	적합한 상황
가장 빠름	75 MB	~200 MB	낮음	가장 빠름	빠른 미리보기, 테스트
빠름	142 MB	~300 MB	보통	빠름	일상적인 사용, 정확도가 크게 중요하지 않은 경우
추천	466 MB	~600 MB	높음	보통	기본 추천, 정확도와 속도의 균형
고정밀	1.5 GB	~2 GB	높음	느림	전문적인 상황, 배경 소음이 많은 경우
최고 정밀도+빠름	1.6 GB	~2.5 GB	최고	비교적 빠름	최고 정확도를 유지하면서 속도도 중시하는 경우
최고 정밀도	2.9 GB	~4 GB	최고	가장 느림	극한의 정확도, 속도는 신경 쓰지 않는 경우

팁 모델이 클수록 정확도는 높아지지만 속도는 느려지고 메모리 사용량도 늘어납니다. Mac 메모리가 8GB 이하인 경우 "추천" 또는 더 작은 모델을 사용하는 것이 좋습니다.

추가 설정

앱에서 "추가 설정"을 클릭하여 고급 옵션을 펼칩니다:

AI 구두점 교정 PRO

구두점만 수정하고 텍스트 내용은 변경하지 않습니다. 중국어 음성 인식은 구두점이 빠지는 경우가 많으며, 활성화하면 쉼표, 마침표 등의 구두점을 자동으로 보완하여 자막 가독성을 크게 향상시킵니다.

예능 모드

예능 프로그램, 음악, 오래된 영화 등 배경 오디오가 심한 콘텐츠에 최적화되어 있어, 이러한 조건에서 인식 정확도를 높여줍니다. 길게 이어지는 대화에는 권장하지 않습니다. 정밀 타임라인을 켜면 예능 모드가 자동으로 함께 적용되므로, 두 가지를 모두 켤 필요는 없습니다.

한 번에 인식하고 번역하기

번역을 위해 별도의 단계를 거칠 필요가 없습니다. 음성 인식 패널에서 "다른 언어로 번역도 실행"을 체크한 다음, 대상 언어와 번역 엔진을 선택하면 — GeekLink가 한 번의 실행으로 오디오를 인식하고 번역까지 처리하여, 원문 자막과 번역 자막을 모두 제공합니다. 엔진 선택에 대해서는 번역 페이지를 참고하세요.

두 단계로 나누는 것이 나은 경우: 정확도가 중요하다면 먼저 인식을 실행하고, 편집기에서 원문 자막을 교정한 뒤 번역하세요 — 깔끔한 입력이 더 나은 번역 결과를 만듭니다. 둘을 합치면 더 빠르지만, 따로 진행하면 오류가 번역에 그대로 이어지기 전에 바로잡을 수 있는 검토 지점이 생깁니다.

자주 묻는 질문

특정 모델을 처음 사용할 때 느린가요?

새 모델을 처음 사용할 때 모델 파일이 자동으로 다운로드됩니다(크기는 위 표 참조). 다운로드 속도는 네트워크 환경에 따라 달라집니다. 다운로드가 완료되면 이후 해당 모델 사용 시 바로 시작되며, 반복 다운로드가 필요하지 않습니다.

인식 결과에 오류가 있으면 어떻게 하나요?

음성 인식은 100% 정확할 수 없으며, 특히 배경 소음이 크거나, 말이 빠르거나, 억양이 강한 경우에 그렇습니다. 인식이 완료된 후 자막 편집기를 열어 한 줄씩 수정하는 것을 권장합니다. 특정 단어가 자주 잘못 인식되는 경우 "자동 교정 규칙" PRO을 사용하여 일반적인 오류를 일괄 수정할 수 있습니다.

인식 결과에 구두점이 없나요?

음성 인식 모델 자체가 구두점을 출력하지 않을 수 있으며, 특히 중국어의 경우 더욱 그렇습니다. "AI 구두점 교정" PRO을 활성화하면 구두점을 자동으로 보완하여 자막을 더 읽기 쉽게 만들 수 있습니다.