Word Error Rate (WER) is the percentage of words that are incorrectly transcribed. A WER of 5% means about 1 in 20 words is wrong. Chinese uses CER (Character Error Rate) since Chinese text doesn't use spaces between words.

Why is the base model so much worse for Japanese and Korean?

Japanese and Korean have complex writing systems and rely heavily on context for correct character selection. Smaller models lack the capacity to capture this context well. Always use the large model for these languages.

Why don't Chinese and Thai have a model size option?

GeekLink uses purpose-built recognition engines for Chinese and Thai that are optimized specifically for those languages. These deliver consistently high accuracy without you needing to select a model size.

언어별 음성 인식 정확도: WER 참조 테이블

AI 음성 인식에서 모든 언어의 정확도가 같지는 않습니다. 이 페이지는 GeekLink이 지원하는 22개 언어의 인식 정확도를 비교하여, 영상 처리 전에 올바른 모델 크기를 선택하고 예상치 못한 결과를 방지할 수 있도록 합니다.

WER이란?

WER(단어 오류율)은 잘못 인식된 단어의 비율을 측정합니다 — 낮을수록 좋습니다. 중국어는 단어 경계가 없어 CER(글자 오류율)을 대신 사용합니다. WER 5%는 깨끗한 오디오에서 약 20단어당 1개의 오류를 의미합니다.

아래 수치는 벤치마크 데이터셋의 참조값입니다. 실제 정확도는 오디오 품질, 배경 소음, 억양, 말하기 속도에 따라 달라집니다.

언어 정확도 빠른 참조

기본 모델 = 추천(앱 기본값). 더 큰 모델은 시간이 더 걸리지만 정확도가 높습니다 — 특히 일본어와 한국어에서 두드러집니다.

언어	추천 모델	최고 WER	빠른 WER	평가
Simplified Chinese	전용 엔진	~3–5% CER	~3–5% CER	★★★★★
Traditional Chinese	전용 엔진	~3–5% CER	~3–5% CER	★★★★★
Spanish	고정밀 / 최고 정밀	~3–4%	~14–18%	★★★★★
English	고정밀 / 최고 정밀	~4–5%	~12–16%	★★★★★
French	고정밀 / 최고 정밀	~6–7%	~18–24%	★★★★
German	고정밀 / 최고 정밀	~5–7%	~17–22%	★★★★
Italian	고정밀 / 최고 정밀	~5–7%	~17–22%	★★★★
Portuguese	고정밀 / 최고 정밀	~5–6%	~16–21%	★★★★
Russian	최고 정밀	~8–12%	~22–28%	★★★★
Dutch	고정밀 / 최고 정밀	~6–9%	~18–24%	★★★★
Turkish	고정밀 / 최고 정밀	~7–10%	~20–26%	★★★★
Indonesian	고정밀 / 최고 정밀	~7–10%	~20–26%	★★★★
Polish	고정밀 / 최고 정밀	~7–10%	~20–26%	★★★★
Swedish	고정밀 / 최고 정밀	~7–10%	~18–24%	★★★★
Catalan	고정밀 / 최고 정밀	~5–8%	~14–18%	★★★★
Czech	고정밀 / 최고 정밀	~7–10%	~20–26%	★★★★
Norwegian	고정밀 / 최고 정밀	~7–10%	~18–24%	★★★★
Danish	고정밀 / 최고 정밀	~8–12%	~22–28%	★★★★
Finnish	고정밀 / 최고 정밀	~8–12%	~22–28%	★★★★
Hungarian	고정밀 / 최고 정밀	~8–12%	~22–28%	★★★★
Greek	고정밀 / 최고 정밀	~8–12%	~22–28%	★★★★
Romanian	고정밀 / 최고 정밀	~8–12%	~22–28%	★★★★
Malay	고정밀 / 최고 정밀	~8–12%	~22–28%	★★★★
Arabic	최고 정밀	~10–16%	~26–34%	★★★
Thai	전용 엔진	편차가 큼	—	★★
Japanese	최고 정밀 필수	~10–14%	~28–35%	★★★
Korean	최고 정밀 필수	~10–13%	~26–32%	★★★
Slovenian	최고 정밀	~10–15%	~28–35%	★★★
Hindi	최고 정밀	~12–18%	~30–40%	★★★
Ukrainian	최고 정밀	~12–18%	~28–36%	★★★
Vietnamese	최고 정밀	~14–20%	~32–40%	★★★
Croatian	최고 정밀	~10–15%	~26–34%	★★★
Slovak	최고 정밀	~10–15%	~26–34%	★★★
Bulgarian	최고 정밀	~10–15%	~26–34%	★★★
Serbian	최고 정밀	~10–15%	~26–34%	★★★
Hebrew	최고 정밀	~10–15%	~26–34%	★★★
Persian	최고 정밀	~10–15%	~26–34%	★★★
Filipino	최고 정밀	~12–18%	~28–36%	★★★
Lithuanian	최고 정밀	~12–18%	~28–36%	★★★
Latvian	최고 정밀	~12–18%	~28–36%	★★★
Estonian	최고 정밀	~12–18%	~28–36%	★★★
Azerbaijani	최고 정밀	~12–18%	~28–36%	★★★
Bengali	최고 정밀	~15–20%	~32–40%	★★★
Urdu	최고 정밀	~15–20%	~32–40%	★★★
Tamil	최고 정밀	~15–20%	~32–40%	★★★
Nepali	최고 정밀	~15–22%	~34–42%	★★★
Swahili	최고 정밀	~15–22%	~34–42%	★★★
Georgian	최고 정밀	~15–22%	~34–42%	★★★
Icelandic	최고 정밀	~15–22%	~34–42%	★★★

출처: 공개 음성 인식 벤치마크(Fleurs 데이터셋) 및 전문 모델 평가. 실제 결과는 다를 수 있습니다.

모델 크기 vs 정확도 vs 속도

GeekLink에서는 모델 크기를 선택할 수 있습니다. 큰 모델은 더 많은 시간과 디스크 공간이 필요하지만 결과가 크게 향상됩니다 — 특히 일본어와 한국어에서 효과적입니다.

모델	다운로드 크기	속도	품질	최적 용도
최고속	75 MB	가장 빠름 (~10x)	낮음	빠른 미리보기 전용
빠름	142 MB	빠름 (~7x)	보통	중국어 / 스페인어 빠른 체크
균형	466 MB	보통 (~4x)	좋음	유럽 언어 일상 사용
고정밀	1.5 GB	느림 (~2x)	매우 좋음	스페인어 / 영어 / 프랑스어 추천
추천 앱 기본값	1.6 GB	빠름 (~6x)	매우 좋음	대부분의 언어에서 최적의 속도-정확도 균형
최고 정밀	2.9 GB	가장 느림 (1x)	최상	일본어 / 한국어 필수; 기타 언어 최고 정확도

모델 선택 팁

중국어와 태국어: GeekLink은 이 언어들에 전용 엔진을 사용합니다. 중국어 정확도는 일관되게 높습니다. 태국어 정확도는 콘텐츠에 따라 크게 다릅니다 — 표준 발화에서는 잘 작동하지만, 일상 대화와 방언에서는 결과가 좋지 않을 수 있습니다.
일본어와 한국어: 최고 정밀을 강력히 추천합니다. 빠름 모델은 매우 높은 오류율(26–35%)로 많은 단어를 놓칩니다.
스페인어, 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 네덜란드어, 터키어, 인도네시아어, 폴란드어, 스웨덴어, 카탈루냐어, 체코어, 노르웨이어, 덴마크어, 핀란드어, 헝가리어, 그리스어, 루마니아어, 말레이어: 고정밀이 속도와 정확도의 최적 균형입니다. 전문가급 출력에는 최고 정밀을 사용하세요.
러시아어: 최고 정밀이 눈에 띄는 차이를 만듭니다. 고정밀도 허용 범위입니다.
아랍어, 힌디어, 우크라이나어, 베트남어, 슬로베니아어, 크로아티아어, 슬로바키아어, 불가리아어, 세르비아어, 히브리어, 페르시아어, 필리핀어, 리투아니아어, 라트비아어, 에스토니아어, 아제르바이잔어, 벵골어, 우르두어, 타밀어, 네팔어, 스와힐리어, 조지아어, 아이슬란드어: 최고 정밀 추천. 표준 발음과 깨끗한 오디오에서 최상의 결과를 얻을 수 있습니다.

알려진 제한 사항

배경 음악: GeekLink은 무음 전처리를 적용하지만, 보컬과 음악이 크게 겹치면 모든 언어에서 정확도가 저하됩니다.
방언과 억양: 표준 억양에서 가장 잘 작동합니다. 방언(예: 광둥어, 쓰촨 보통화)은 전용 엔진을 사용하더라도 오류율이 높습니다.
일본어 한자: 표기가 표준 관례와 다를 수 있습니다 — 번역 전에 주요 용어를 확인하세요.
문장 분할: AI가 때때로 긴 문장을 생성합니다. GeekLink의 자막 편집기를 사용하여 필요에 따라 분할하세요.

자주 묻는 질문

WER은 무엇을 의미하나요?

단어 오류율(WER)은 잘못 인식된 단어의 비율입니다. WER 5%는 약 20단어 중 1개가 오류임을 의미합니다. 중국어는 단어 사이에 공백이 없으므로 CER(글자 오류율)을 사용합니다.

왜 기본 모델은 일본어와 한국어에서 훨씬 나쁜가요?

일본어와 한국어는 복잡한 문자 체계(한자, 한국 한자)를 가지고 있으며 올바른 문자 선택을 위해 문맥에 크게 의존합니다. 작은 모델은 이 문맥을 충분히 포착할 용량이 부족하여 매우 높은 오류율을 보입니다. 이 언어들에는 반드시 큰 모델을 사용하세요.

왜 중국어와 태국어에는 모델 크기 옵션이 없나요?

GeekLink은 중국어와 태국어에 해당 언어에 특별히 최적화된 전용 인식 엔진을 사용합니다. 모델 크기를 선택할 필요 없이 일관되게 높은 정확도를 제공합니다.

큰 모델을 사용하면 중국어 정확도가 향상되나요?

아니요. 중국어는 이미 보통화에 대해 고도로 최적화된 전용 엔진을 사용합니다. 모델 크기 변경은 중국어 인식에 적용되지 않습니다.