AI 음성 인식에서 모든 언어의 정확도가 같지는 않습니다. 이 페이지는 GeekLink이 지원하는 22개 언어의 인식 정확도를 비교하여, 영상 처리 전에 올바른 모델 크기를 선택하고 예상치 못한 결과를 방지할 수 있도록 합니다.
WER(단어 오류율)은 잘못 인식된 단어의 비율을 측정합니다 — 낮을수록 좋습니다. 중국어는 단어 경계가 없어 CER(글자 오류율)을 대신 사용합니다. WER 5%는 깨끗한 오디오에서 약 20단어당 1개의 오류를 의미합니다.
아래 수치는 벤치마크 데이터셋의 참조값입니다. 실제 정확도는 오디오 품질, 배경 소음, 억양, 말하기 속도에 따라 달라집니다.
기본 모델 = 추천(앱 기본값). 더 큰 모델은 시간이 더 걸리지만 정확도가 높습니다 — 특히 일본어와 한국어에서 두드러집니다.
| 언어 | 추천 모델 | 최고 WER | 빠른 WER | 평가 |
|---|---|---|---|---|
| 🇨🇳 Simplified Chinese | 전용 엔진 | ~3–5% CER | ~3–5% CER | ⭐⭐⭐⭐⭐ |
| 🇹🇼 Traditional Chinese | 전용 엔진 | ~3–5% CER | ~3–5% CER | ⭐⭐⭐⭐⭐ |
| 🇪🇸 Spanish | 고정밀 / 최고 정밀 | ~3–4% | ~14–18% | ⭐⭐⭐⭐⭐ |
| 🇬🇧 English | 고정밀 / 최고 정밀 | ~4–5% | ~12–16% | ⭐⭐⭐⭐⭐ |
| 🇫🇷 French | 고정밀 / 최고 정밀 | ~6–7% | ~18–24% | ⭐⭐⭐⭐ |
| 🇩🇪 German | 고정밀 / 최고 정밀 | ~5–7% | ~17–22% | ⭐⭐⭐⭐ |
| 🇮🇹 Italian | 고정밀 / 최고 정밀 | ~5–7% | ~17–22% | ⭐⭐⭐⭐ |
| 🇵🇹 Portuguese | 고정밀 / 최고 정밀 | ~5–6% | ~16–21% | ⭐⭐⭐⭐ |
| 🇷🇺 Russian | 최고 정밀 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇳🇱 Dutch | 고정밀 / 최고 정밀 | ~6–9% | ~18–24% | ⭐⭐⭐⭐ |
| 🇹🇷 Turkish | 고정밀 / 최고 정밀 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇮🇩 Indonesian | 고정밀 / 최고 정밀 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇵🇱 Polish | 고정밀 / 최고 정밀 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇸🇪 Swedish | 고정밀 / 최고 정밀 | ~7–10% | ~18–24% | ⭐⭐⭐⭐ |
| 🇪🇸 Catalan | 고정밀 / 최고 정밀 | ~5–8% | ~14–18% | ⭐⭐⭐⭐ |
| 🇨🇿 Czech | 고정밀 / 최고 정밀 | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇳🇴 Norwegian | 고정밀 / 최고 정밀 | ~7–10% | ~18–24% | ⭐⭐⭐⭐ |
| 🇩🇰 Danish | 고정밀 / 최고 정밀 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇫🇮 Finnish | 고정밀 / 최고 정밀 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇭🇺 Hungarian | 고정밀 / 최고 정밀 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇬🇷 Greek | 고정밀 / 최고 정밀 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇷🇴 Romanian | 고정밀 / 최고 정밀 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇲🇾 Malay | 고정밀 / 최고 정밀 | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇸🇦 Arabic | 최고 정밀 | ~10–16% | ~26–34% | ⭐⭐⭐ |
| 🇹🇭 Thai | 전용 엔진 | 편차가 큼 | — | ⭐⭐ |
| 🇯🇵 Japanese | 최고 정밀 필수 | ~10–14% | ~28–35% | ⭐⭐⭐ |
| 🇰🇷 Korean | 최고 정밀 필수 | ~10–13% | ~26–32% | ⭐⭐⭐ |
| 🇸🇮 Slovenian | 최고 정밀 | ~10–15% | ~28–35% | ⭐⭐⭐ |
| 🇮🇳 Hindi | 최고 정밀 | ~12–18% | ~30–40% | ⭐⭐⭐ |
| 🇺🇦 Ukrainian | 최고 정밀 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇻🇳 Vietnamese | 최고 정밀 | ~14–20% | ~32–40% | ⭐⭐⭐ |
| 🇭🇷 Croatian | 최고 정밀 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇸🇰 Slovak | 최고 정밀 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇧🇬 Bulgarian | 최고 정밀 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇷🇸 Serbian | 최고 정밀 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇮🇱 Hebrew | 최고 정밀 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇮🇷 Persian | 최고 정밀 | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇵🇭 Filipino | 최고 정밀 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇱🇹 Lithuanian | 최고 정밀 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇱🇻 Latvian | 최고 정밀 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇪🇪 Estonian | 최고 정밀 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇦🇿 Azerbaijani | 최고 정밀 | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇧🇩 Bengali | 최고 정밀 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇵🇰 Urdu | 최고 정밀 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇮🇳 Tamil | 최고 정밀 | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇳🇵 Nepali | 최고 정밀 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇰🇪 Swahili | 최고 정밀 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇬🇪 Georgian | 최고 정밀 | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇮🇸 Icelandic | 최고 정밀 | ~15–22% | ~34–42% | ⭐⭐⭐ |
출처: 공개 음성 인식 벤치마크(Fleurs 데이터셋) 및 전문 모델 평가. 실제 결과는 다를 수 있습니다.
GeekLink에서는 모델 크기를 선택할 수 있습니다. 큰 모델은 더 많은 시간과 디스크 공간이 필요하지만 결과가 크게 향상됩니다 — 특히 일본어와 한국어에서 효과적입니다.
| 모델 | 다운로드 크기 | 속도 | 품질 | 최적 용도 |
|---|---|---|---|---|
| 최고속 | 75 MB | 가장 빠름 (~10x) | 낮음 | 빠른 미리보기 전용 |
| 빠름 | 142 MB | 빠름 (~7x) | 보통 | 중국어 / 스페인어 빠른 체크 |
| 균형 | 466 MB | 보통 (~4x) | 좋음 | 유럽 언어 일상 사용 |
| 고정밀 | 1.5 GB | 느림 (~2x) | 매우 좋음 | 스페인어 / 영어 / 프랑스어 추천 |
| 추천 앱 기본값 | 1.6 GB | 빠름 (~6x) | 매우 좋음 | 대부분의 언어에서 최적의 속도-정확도 균형 |
| 최고 정밀 | 2.9 GB | 가장 느림 (1x) | 최상 | 일본어 / 한국어 필수; 기타 언어 최고 정확도 |
단어 오류율(WER)은 잘못 인식된 단어의 비율입니다. WER 5%는 약 20단어 중 1개가 오류임을 의미합니다. 중국어는 단어 사이에 공백이 없으므로 CER(글자 오류율)을 사용합니다.
일본어와 한국어는 복잡한 문자 체계(한자, 한국 한자)를 가지고 있으며 올바른 문자 선택을 위해 문맥에 크게 의존합니다. 작은 모델은 이 문맥을 충분히 포착할 용량이 부족하여 매우 높은 오류율을 보입니다. 이 언어들에는 반드시 큰 모델을 사용하세요.
GeekLink은 중국어와 태국어에 해당 언어에 특별히 최적화된 전용 인식 엔진을 사용합니다. 모델 크기를 선택할 필요 없이 일관되게 높은 정확도를 제공합니다.
아니요. 중국어는 이미 보통화에 대해 고도로 최적화된 전용 엔진을 사용합니다. 모델 크기 변경은 중국어 인식에 적용되지 않습니다.