Precisão do reconhecimento de voz por idioma: tabela de referência WER

Nem todos os idiomas têm a mesma precisão no reconhecimento de voz com IA. Esta página compara a precisão de transcrição nos 22 idiomas suportados pelo GeekLink, para que você possa escolher o tamanho de modelo adequado antes de processar seu vídeo e evitar surpresas.

O que é WER?

WER (Word Error Rate, taxa de erro de palavras) mede quantas palavras são transcritas incorretamente — quanto menor, melhor. O chinês usa CER (Character Error Rate, taxa de erro de caracteres), pois não tem separação entre palavras. Um WER de 5% significa aproximadamente 1 erro a cada 20 palavras em áudio limpo.

Os números abaixo são valores de referência de conjuntos de dados de benchmark. A precisão real varia conforme a qualidade do áudio, ruído de fundo, sotaque e velocidade de fala.

Referência rápida de precisão por idioma

Modelo padrão = Recomendado (padrão do app). Modelos maiores demoram mais mas reconhecem com maior precisão — especialmente para japonês e coreano.

Idioma Modelo recomendado Melhor WER WER rápido Avaliação
🇨🇳 Simplified Chinese Motor dedicado ~3–5% CER ~3–5% CER ⭐⭐⭐⭐⭐
🇹🇼 Traditional Chinese Motor dedicado ~3–5% CER ~3–5% CER ⭐⭐⭐⭐⭐
🇪🇸 Spanish Alta precisão / Máxima precisão ~3–4% ~14–18% ⭐⭐⭐⭐⭐
🇬🇧 English Alta precisão / Máxima precisão ~4–5% ~12–16% ⭐⭐⭐⭐⭐
🇫🇷 French Alta precisão / Máxima precisão ~6–7% ~18–24% ⭐⭐⭐⭐
🇩🇪 German Alta precisão / Máxima precisão ~5–7% ~17–22% ⭐⭐⭐⭐
🇮🇹 Italian Alta precisão / Máxima precisão ~5–7% ~17–22% ⭐⭐⭐⭐
🇵🇹 Portuguese Alta precisão / Máxima precisão ~5–6% ~16–21% ⭐⭐⭐⭐
🇷🇺 Russian Máxima precisão ~8–12% ~22–28% ⭐⭐⭐⭐
🇳🇱 Dutch Alta precisão / Máxima precisão ~6–9% ~18–24% ⭐⭐⭐⭐
🇹🇷 Turkish Alta precisão / Máxima precisão ~7–10% ~20–26% ⭐⭐⭐⭐
🇮🇩 Indonesian Alta precisão / Máxima precisão ~7–10% ~20–26% ⭐⭐⭐⭐
🇵🇱 Polish Alta precisão / Máxima precisão ~7–10% ~20–26% ⭐⭐⭐⭐
🇸🇪 Swedish Alta precisão / Máxima precisão ~7–10% ~18–24% ⭐⭐⭐⭐
🇪🇸 Catalan Alta precisão / Máxima precisão ~5–8% ~14–18% ⭐⭐⭐⭐
🇨🇿 Czech Alta precisão / Máxima precisão ~7–10% ~20–26% ⭐⭐⭐⭐
🇳🇴 Norwegian Alta precisão / Máxima precisão ~7–10% ~18–24% ⭐⭐⭐⭐
🇩🇰 Danish Alta precisão / Máxima precisão ~8–12% ~22–28% ⭐⭐⭐⭐
🇫🇮 Finnish Alta precisão / Máxima precisão ~8–12% ~22–28% ⭐⭐⭐⭐
🇭🇺 Hungarian Alta precisão / Máxima precisão ~8–12% ~22–28% ⭐⭐⭐⭐
🇬🇷 Greek Alta precisão / Máxima precisão ~8–12% ~22–28% ⭐⭐⭐⭐
🇷🇴 Romanian Alta precisão / Máxima precisão ~8–12% ~22–28% ⭐⭐⭐⭐
🇲🇾 Malay Alta precisão / Máxima precisão ~8–12% ~22–28% ⭐⭐⭐⭐
🇸🇦 Arabic Máxima precisão ~10–16% ~26–34% ⭐⭐⭐
🇹🇭 Thai Motor dedicado Varia bastante ⭐⭐
🇯🇵 Japanese Máxima precisão obrigatório ~10–14% ~28–35% ⭐⭐⭐
🇰🇷 Korean Máxima precisão obrigatório ~10–13% ~26–32% ⭐⭐⭐
🇸🇮 Slovenian Máxima precisão ~10–15% ~28–35% ⭐⭐⭐
🇮🇳 Hindi Máxima precisão ~12–18% ~30–40% ⭐⭐⭐
🇺🇦 Ukrainian Máxima precisão ~12–18% ~28–36% ⭐⭐⭐
🇻🇳 Vietnamese Máxima precisão ~14–20% ~32–40% ⭐⭐⭐
🇭🇷 Croatian Máxima precisão ~10–15% ~26–34% ⭐⭐⭐
🇸🇰 Slovak Máxima precisão ~10–15% ~26–34% ⭐⭐⭐
🇧🇬 Bulgarian Máxima precisão ~10–15% ~26–34% ⭐⭐⭐
🇷🇸 Serbian Máxima precisão ~10–15% ~26–34% ⭐⭐⭐
🇮🇱 Hebrew Máxima precisão ~10–15% ~26–34% ⭐⭐⭐
🇮🇷 Persian Máxima precisão ~10–15% ~26–34% ⭐⭐⭐
🇵🇭 Filipino Máxima precisão ~12–18% ~28–36% ⭐⭐⭐
🇱🇹 Lithuanian Máxima precisão ~12–18% ~28–36% ⭐⭐⭐
🇱🇻 Latvian Máxima precisão ~12–18% ~28–36% ⭐⭐⭐
🇪🇪 Estonian Máxima precisão ~12–18% ~28–36% ⭐⭐⭐
🇦🇿 Azerbaijani Máxima precisão ~12–18% ~28–36% ⭐⭐⭐
🇧🇩 Bengali Máxima precisão ~15–20% ~32–40% ⭐⭐⭐
🇵🇰 Urdu Máxima precisão ~15–20% ~32–40% ⭐⭐⭐
🇮🇳 Tamil Máxima precisão ~15–20% ~32–40% ⭐⭐⭐
🇳🇵 Nepali Máxima precisão ~15–22% ~34–42% ⭐⭐⭐
🇰🇪 Swahili Máxima precisão ~15–22% ~34–42% ⭐⭐⭐
🇬🇪 Georgian Máxima precisão ~15–22% ~34–42% ⭐⭐⭐
🇮🇸 Icelandic Máxima precisão ~15–22% ~34–42% ⭐⭐⭐

Fonte: benchmarks públicos de reconhecimento de voz (dataset Fleurs) e avaliações de modelos especializados. Resultados reais podem variar.

Tamanho do modelo vs Precisão vs Velocidade

O GeekLink permite que você escolha o tamanho do modelo. Modelos maiores exigem mais tempo e espaço em disco, mas produzem resultados significativamente melhores — especialmente para japonês e coreano.

Modelo Tamanho do download Velocidade Qualidade Ideal para
Mais rápido 75 MB Mais rápido (~10x) Baixa Apenas para pré-visualização rápida
Rápido 142 MB Rápido (~7x) Razoável Chinês / Espanhol verificação rápida
Equilibrado 466 MB Médio (~4x) Boa Idiomas europeus uso diário
Alta precisão 1.5 GB Lento (~2x) Muito boa Espanhol / Inglês / Francês recomendado
Recomendado Padrão do app 1.6 GB Rápido (~6x) Muito boa Melhor equilíbrio velocidade-precisão para a maioria dos idiomas
Máxima precisão 2.9 GB Mais lento (1x) A melhor Japonês / Coreano obrigatório; outros idiomas máxima precisão

Dicas para escolha do modelo

Limitações conhecidas

Perguntas frequentes

O que significa WER?

A taxa de erro de palavras (WER) é a porcentagem de palavras transcritas incorretamente. Um WER de 5% significa que cerca de 1 em cada 20 palavras está errada. O chinês usa CER (taxa de erro de caracteres) já que o texto chinês não usa espaços entre palavras.

Por que o modelo base é muito pior para japonês e coreano?

O japonês e o coreano têm sistemas de escrita complexos (kanji, hanja) e dependem muito do contexto para a seleção correta de caracteres. Modelos menores não têm capacidade suficiente para capturar bem esse contexto, levando a taxas de erro muito altas. Sempre use o modelo grande para esses idiomas.

Por que chinês e tailandês não têm opção de tamanho de modelo?

O GeekLink usa motores de reconhecimento especializados para chinês e tailandês, otimizados especificamente para esses idiomas. Eles oferecem precisão consistentemente alta sem que você precise selecionar um tamanho de modelo.

A precisão vai melhorar se eu usar o modelo grande para chinês?

Não. O chinês usa um motor dedicado que já é altamente otimizado para mandarim. A mudança de tamanho do modelo não se aplica ao reconhecimento de chinês.

Artigos relacionados

Comece com o GeekLink

Baixe gratuitamente e experimente ferramentas de legendagem com IA.

Download gratuito