Word Error Rate (WER) is the percentage of words that are incorrectly transcribed. A WER of 5% means about 1 in 20 words is wrong. Chinese uses CER (Character Error Rate) since Chinese text doesn't use spaces between words.

Why is the base model so much worse for Japanese and Korean?

Japanese and Korean have complex writing systems and rely heavily on context for correct character selection. Smaller models lack the capacity to capture this context well. Always use the large model for these languages.

Why don't Chinese and Thai have a model size option?

GeekLink uses purpose-built recognition engines for Chinese and Thai that are optimized specifically for those languages. These deliver consistently high accuracy without you needing to select a model size.

Precisão do reconhecimento de voz por idioma: tabela de referência WER

Nem todos os idiomas têm a mesma precisão no reconhecimento de voz com IA. Esta página compara a precisão de transcrição nos 22 idiomas suportados pelo GeekLink, para que você possa escolher o tamanho de modelo adequado antes de processar seu vídeo e evitar surpresas.

O que é WER?

WER (Word Error Rate, taxa de erro de palavras) mede quantas palavras são transcritas incorretamente — quanto menor, melhor. O chinês usa CER (Character Error Rate, taxa de erro de caracteres), pois não tem separação entre palavras. Um WER de 5% significa aproximadamente 1 erro a cada 20 palavras em áudio limpo.

Os números abaixo são valores de referência de conjuntos de dados de benchmark. A precisão real varia conforme a qualidade do áudio, ruído de fundo, sotaque e velocidade de fala.

Referência rápida de precisão por idioma

Modelo padrão = Recomendado (padrão do app). Modelos maiores demoram mais mas reconhecem com maior precisão — especialmente para japonês e coreano.

Idioma	Modelo recomendado	Melhor WER	WER rápido	Avaliação
Simplified Chinese	Motor dedicado	~3–5% CER	~3–5% CER	★★★★★
Traditional Chinese	Motor dedicado	~3–5% CER	~3–5% CER	★★★★★
Spanish	Alta precisão / Máxima precisão	~3–4%	~14–18%	★★★★★
English	Alta precisão / Máxima precisão	~4–5%	~12–16%	★★★★★
French	Alta precisão / Máxima precisão	~6–7%	~18–24%	★★★★
German	Alta precisão / Máxima precisão	~5–7%	~17–22%	★★★★
Italian	Alta precisão / Máxima precisão	~5–7%	~17–22%	★★★★
Portuguese	Alta precisão / Máxima precisão	~5–6%	~16–21%	★★★★
Russian	Máxima precisão	~8–12%	~22–28%	★★★★
Dutch	Alta precisão / Máxima precisão	~6–9%	~18–24%	★★★★
Turkish	Alta precisão / Máxima precisão	~7–10%	~20–26%	★★★★
Indonesian	Alta precisão / Máxima precisão	~7–10%	~20–26%	★★★★
Polish	Alta precisão / Máxima precisão	~7–10%	~20–26%	★★★★
Swedish	Alta precisão / Máxima precisão	~7–10%	~18–24%	★★★★
Catalan	Alta precisão / Máxima precisão	~5–8%	~14–18%	★★★★
Czech	Alta precisão / Máxima precisão	~7–10%	~20–26%	★★★★
Norwegian	Alta precisão / Máxima precisão	~7–10%	~18–24%	★★★★
Danish	Alta precisão / Máxima precisão	~8–12%	~22–28%	★★★★
Finnish	Alta precisão / Máxima precisão	~8–12%	~22–28%	★★★★
Hungarian	Alta precisão / Máxima precisão	~8–12%	~22–28%	★★★★
Greek	Alta precisão / Máxima precisão	~8–12%	~22–28%	★★★★
Romanian	Alta precisão / Máxima precisão	~8–12%	~22–28%	★★★★
Malay	Alta precisão / Máxima precisão	~8–12%	~22–28%	★★★★
Arabic	Máxima precisão	~10–16%	~26–34%	★★★
Thai	Motor dedicado	Varia bastante	—	★★
Japanese	Máxima precisão obrigatório	~10–14%	~28–35%	★★★
Korean	Máxima precisão obrigatório	~10–13%	~26–32%	★★★
Slovenian	Máxima precisão	~10–15%	~28–35%	★★★
Hindi	Máxima precisão	~12–18%	~30–40%	★★★
Ukrainian	Máxima precisão	~12–18%	~28–36%	★★★
Vietnamese	Máxima precisão	~14–20%	~32–40%	★★★
Croatian	Máxima precisão	~10–15%	~26–34%	★★★
Slovak	Máxima precisão	~10–15%	~26–34%	★★★
Bulgarian	Máxima precisão	~10–15%	~26–34%	★★★
Serbian	Máxima precisão	~10–15%	~26–34%	★★★
Hebrew	Máxima precisão	~10–15%	~26–34%	★★★
Persian	Máxima precisão	~10–15%	~26–34%	★★★
Filipino	Máxima precisão	~12–18%	~28–36%	★★★
Lithuanian	Máxima precisão	~12–18%	~28–36%	★★★
Latvian	Máxima precisão	~12–18%	~28–36%	★★★
Estonian	Máxima precisão	~12–18%	~28–36%	★★★
Azerbaijani	Máxima precisão	~12–18%	~28–36%	★★★
Bengali	Máxima precisão	~15–20%	~32–40%	★★★
Urdu	Máxima precisão	~15–20%	~32–40%	★★★
Tamil	Máxima precisão	~15–20%	~32–40%	★★★
Nepali	Máxima precisão	~15–22%	~34–42%	★★★
Swahili	Máxima precisão	~15–22%	~34–42%	★★★
Georgian	Máxima precisão	~15–22%	~34–42%	★★★
Icelandic	Máxima precisão	~15–22%	~34–42%	★★★

Fonte: benchmarks públicos de reconhecimento de voz (dataset Fleurs) e avaliações de modelos especializados. Resultados reais podem variar.

Tamanho do modelo vs Precisão vs Velocidade

O GeekLink permite que você escolha o tamanho do modelo. Modelos maiores exigem mais tempo e espaço em disco, mas produzem resultados significativamente melhores — especialmente para japonês e coreano.

Modelo	Tamanho do download	Velocidade	Qualidade	Ideal para
Mais rápido	75 MB	Mais rápido (~10x)	Baixa	Apenas para pré-visualização rápida
Rápido	142 MB	Rápido (~7x)	Razoável	Chinês / Espanhol verificação rápida
Equilibrado	466 MB	Médio (~4x)	Boa	Idiomas europeus uso diário
Alta precisão	1.5 GB	Lento (~2x)	Muito boa	Espanhol / Inglês / Francês recomendado
Recomendado Padrão do app	1.6 GB	Rápido (~6x)	Muito boa	Melhor equilíbrio velocidade-precisão para a maioria dos idiomas
Máxima precisão	2.9 GB	Mais lento (1x)	A melhor	Japonês / Coreano obrigatório; outros idiomas máxima precisão

Dicas para escolha do modelo

Chinês e tailandês: O GeekLink usa um motor dedicado para esses idiomas. A precisão do chinês é consistentemente alta. A precisão do tailandês varia significativamente conforme o conteúdo — funciona bem para fala padrão, mas conversas informais e dialetos podem apresentar resultados ruins.
Japonês e coreano: Recomenda-se fortemente a Máxima precisão. O modelo Rápido tem uma taxa de erro muito alta (26–35%) e perderá muitas palavras.
Espanhol, inglês, francês, alemão, italiano, português, holandês, turco, indonésio, polonês, sueco, catalão, tcheco, norueguês, dinamarquês, finlandês, húngaro, grego, romeno, malaio: Alta precisão é o melhor equilíbrio entre velocidade e precisão. Use Máxima precisão para qualidade profissional.
Russo: Máxima precisão faz uma diferença perceptível; Alta precisão também é aceitável.
Árabe, hindi, ucraniano, vietnamita, esloveno, croata, eslovaco, búlgaro, sérvio, hebraico, persa, filipino, lituano, letão, estoniano, azerbaijano, bengali, urdu, tâmil, nepalês, suaíli, georgiano, islandês: recomenda-se Máxima precisão. Pronúncia padrão com áudio limpo produz os melhores resultados.

Limitações conhecidas

Música de fundo: O GeekLink aplica pré-processamento de silêncio, mas a sobreposição intensa de voz/música degrada a precisão em todos os idiomas.
Dialetos e sotaques: O sotaque padrão funciona melhor. Dialetos (ex.: cantonês, mandarim de Sichuan) têm taxas de erro mais altas mesmo com motores dedicados.
Kanji japonês: A forma escrita pode diferir das convenções padrão — revise os termos-chave antes de traduzir.
Segmentação de frases: A IA às vezes produz frases longas. Use o editor de legendas do GeekLink para dividi-las conforme necessário.

Perguntas frequentes

O que significa WER?

A taxa de erro de palavras (WER) é a porcentagem de palavras transcritas incorretamente. Um WER de 5% significa que cerca de 1 em cada 20 palavras está errada. O chinês usa CER (taxa de erro de caracteres) já que o texto chinês não usa espaços entre palavras.

Por que o modelo base é muito pior para japonês e coreano?

O japonês e o coreano têm sistemas de escrita complexos (kanji, hanja) e dependem muito do contexto para a seleção correta de caracteres. Modelos menores não têm capacidade suficiente para capturar bem esse contexto, levando a taxas de erro muito altas. Sempre use o modelo grande para esses idiomas.

Por que chinês e tailandês não têm opção de tamanho de modelo?

O GeekLink usa motores de reconhecimento especializados para chinês e tailandês, otimizados especificamente para esses idiomas. Eles oferecem precisão consistentemente alta sem que você precise selecionar um tamanho de modelo.

A precisão vai melhorar se eu usar o modelo grande para chinês?

Não. O chinês usa um motor dedicado que já é altamente otimizado para mandarim. A mudança de tamanho do modelo não se aplica ao reconhecimento de chinês.