Word Error Rate (WER) is the percentage of words that are incorrectly transcribed. A WER of 5% means about 1 in 20 words is wrong. Chinese uses CER (Character Error Rate) since Chinese text doesn't use spaces between words.

Why is the base model so much worse for Japanese and Korean?

Japanese and Korean have complex writing systems and rely heavily on context for correct character selection. Smaller models lack the capacity to capture this context well. Always use the large model for these languages.

Why don't Chinese and Thai have a model size option?

GeekLink uses purpose-built recognition engines for Chinese and Thai that are optimized specifically for those languages. These deliver consistently high accuracy without you needing to select a model size.

Precisión del reconocimiento de voz por idioma: tabla de referencia WER

No todos los idiomas rinden igual en el reconocimiento de voz con IA. Esta página compara la precisión de transcripción en los 22 idiomas compatibles con GeekLink, para que puedas elegir el tamaño de modelo adecuado antes de procesar tu video y evitar sorpresas.

¿Qué es WER?

WER (Word Error Rate, tasa de error de palabras) mide cuántas palabras se transcriben incorrectamente — cuanto menor, mejor. El chino usa CER (Character Error Rate, tasa de error de caracteres) ya que no tiene separación entre palabras. Un WER del 5% significa aproximadamente 1 error cada 20 palabras en audio limpio.

Los números a continuación son valores de referencia de conjuntos de datos benchmark. La precisión real varía según la calidad del audio, el ruido de fondo, el acento y la velocidad de habla.

Referencia rápida de precisión por idioma

Modelo por defecto = Recomendado (predeterminado de la app). Los modelos más grandes tardan más pero reconocen con mayor precisión — especialmente para japonés y coreano.

Idioma	Modelo recomendado	Mejor WER	WER rápido	Calificación
Simplified Chinese	Motor dedicado	~3–5% CER	~3–5% CER	★★★★★
Traditional Chinese	Motor dedicado	~3–5% CER	~3–5% CER	★★★★★
Spanish	Alta precisión / Máxima precisión	~3–4%	~14–18%	★★★★★
English	Alta precisión / Máxima precisión	~4–5%	~12–16%	★★★★★
French	Alta precisión / Máxima precisión	~6–7%	~18–24%	★★★★
German	Alta precisión / Máxima precisión	~5–7%	~17–22%	★★★★
Italian	Alta precisión / Máxima precisión	~5–7%	~17–22%	★★★★
Portuguese	Alta precisión / Máxima precisión	~5–6%	~16–21%	★★★★
Russian	Máxima precisión	~8–12%	~22–28%	★★★★
Dutch	Alta precisión / Máxima precisión	~6–9%	~18–24%	★★★★
Turkish	Alta precisión / Máxima precisión	~7–10%	~20–26%	★★★★
Indonesian	Alta precisión / Máxima precisión	~7–10%	~20–26%	★★★★
Polish	Alta precisión / Máxima precisión	~7–10%	~20–26%	★★★★
Swedish	Alta precisión / Máxima precisión	~7–10%	~18–24%	★★★★
Catalan	Alta precisión / Máxima precisión	~5–8%	~14–18%	★★★★
Czech	Alta precisión / Máxima precisión	~7–10%	~20–26%	★★★★
Norwegian	Alta precisión / Máxima precisión	~7–10%	~18–24%	★★★★
Danish	Alta precisión / Máxima precisión	~8–12%	~22–28%	★★★★
Finnish	Alta precisión / Máxima precisión	~8–12%	~22–28%	★★★★
Hungarian	Alta precisión / Máxima precisión	~8–12%	~22–28%	★★★★
Greek	Alta precisión / Máxima precisión	~8–12%	~22–28%	★★★★
Romanian	Alta precisión / Máxima precisión	~8–12%	~22–28%	★★★★
Malay	Alta precisión / Máxima precisión	~8–12%	~22–28%	★★★★
Arabic	Máxima precisión	~10–16%	~26–34%	★★★
Thai	Motor dedicado	Varía ampliamente	—	★★
Japanese	Máxima precisión requerido	~10–14%	~28–35%	★★★
Korean	Máxima precisión requerido	~10–13%	~26–32%	★★★
Slovenian	Máxima precisión	~10–15%	~28–35%	★★★
Hindi	Máxima precisión	~12–18%	~30–40%	★★★
Ukrainian	Máxima precisión	~12–18%	~28–36%	★★★
Vietnamese	Máxima precisión	~14–20%	~32–40%	★★★
Croatian	Máxima precisión	~10–15%	~26–34%	★★★
Slovak	Máxima precisión	~10–15%	~26–34%	★★★
Bulgarian	Máxima precisión	~10–15%	~26–34%	★★★
Serbian	Máxima precisión	~10–15%	~26–34%	★★★
Hebrew	Máxima precisión	~10–15%	~26–34%	★★★
Persian	Máxima precisión	~10–15%	~26–34%	★★★
Filipino	Máxima precisión	~12–18%	~28–36%	★★★
Lithuanian	Máxima precisión	~12–18%	~28–36%	★★★
Latvian	Máxima precisión	~12–18%	~28–36%	★★★
Estonian	Máxima precisión	~12–18%	~28–36%	★★★
Azerbaijani	Máxima precisión	~12–18%	~28–36%	★★★
Bengali	Máxima precisión	~15–20%	~32–40%	★★★
Urdu	Máxima precisión	~15–20%	~32–40%	★★★
Tamil	Máxima precisión	~15–20%	~32–40%	★★★
Nepali	Máxima precisión	~15–22%	~34–42%	★★★
Swahili	Máxima precisión	~15–22%	~34–42%	★★★
Georgian	Máxima precisión	~15–22%	~34–42%	★★★
Icelandic	Máxima precisión	~15–22%	~34–42%	★★★

Fuente: benchmarks públicos de reconocimiento de voz (dataset Fleurs) y evaluaciones de modelos especializados. Los resultados reales pueden variar.

Tamaño del modelo vs Precisión vs Velocidad

GeekLink te permite elegir el tamaño del modelo. Los modelos más grandes requieren más tiempo y espacio en disco pero producen resultados significativamente mejores — especialmente para japonés y coreano.

Modelo	Tamaño de descarga	Velocidad	Calidad	Ideal para
Más rápido	75 MB	Más rápido (~10x)	Baja	Solo para vista previa rápida
Rápido	142 MB	Rápido (~7x)	Regular	Chino / Español revisión rápida
Equilibrado	466 MB	Medio (~4x)	Buena	Idiomas europeos uso diario
Alta precisión	1.5 GB	Lento (~2x)	Muy buena	Español / Inglés / Francés recomendado
Recomendado Predeterminado	1.6 GB	Rápido (~6x)	Muy buena	Mejor balance velocidad-precisión para la mayoría de idiomas
Máxima precisión	2.9 GB	Más lento (1x)	La mejor	Japonés / Coreano obligatorio; otros idiomas máxima precisión

Consejos para elegir el modelo

Chino y tailandés: GeekLink usa un motor dedicado para estos idiomas. La precisión del chino es consistentemente alta. La precisión del tailandés varía significativamente según el contenido — funciona bien para habla estándar, pero la conversación casual y los dialectos pueden producir resultados pobres.
Japonés y coreano: Se recomienda encarecidamente Máxima precisión. El modelo Rápido tiene una tasa de error muy alta (26–35%) y perderá muchas palabras.
Español, inglés, francés, alemán, italiano, portugués, neerlandés, turco, indonesio, polaco, sueco, catalán, checo, noruego, danés, finlandés, húngaro, griego, rumano, malayo: Alta precisión es el mejor equilibrio entre velocidad y precisión. Usa Máxima precisión para calidad profesional.
Ruso: Máxima precisión marca una diferencia notable; Alta precisión también es aceptable.
Árabe, hindi, ucraniano, vietnamita, esloveno, croata, eslovaco, búlgaro, serbio, hebreo, persa, filipino, lituano, letón, estonio, azerbaiyano, bengalí, urdu, tamil, nepalí, suajili, georgiano, islandés: se recomienda Máxima precisión. La pronunciación estándar con audio claro produce los mejores resultados.

Limitaciones conocidas

Música de fondo: GeekLink aplica preprocesamiento de silencio, pero la superposición intensa de voz/música degrada la precisión en todos los idiomas.
Dialectos y acentos: El acento estándar funciona mejor. Los dialectos (ej. cantonés, mandarín de Sichuan) tienen tasas de error más altas incluso con motores dedicados.
Kanji japonés: La forma escrita puede diferir de las convenciones estándar — revisa los términos clave antes de traducir.
Segmentación de oraciones: La IA a veces produce oraciones largas. Usa el editor de subtítulos de GeekLink para dividirlas según sea necesario.

Preguntas frecuentes

¿Qué significa WER?

La tasa de error de palabras (WER) es el porcentaje de palabras transcritas incorrectamente. Un WER del 5% significa que aproximadamente 1 de cada 20 palabras es incorrecta. El chino usa CER (tasa de error de caracteres) ya que el texto chino no usa espacios entre palabras.

¿Por qué el modelo base es mucho peor para japonés y coreano?

El japonés y el coreano tienen sistemas de escritura complejos (kanji, hanja) y dependen mucho del contexto para la selección correcta de caracteres. Los modelos más pequeños carecen de la capacidad para capturar bien este contexto, lo que lleva a tasas de error muy altas. Usa siempre el modelo grande para estos idiomas.

¿Por qué el chino y el tailandés no tienen opción de tamaño de modelo?

GeekLink usa motores de reconocimiento especializados para chino y tailandés, optimizados específicamente para esos idiomas. Ofrecen una precisión consistentemente alta sin que necesites seleccionar un tamaño de modelo.

¿Mejorará la precisión si uso el modelo grande para chino?

No. El chino usa un motor dedicado que ya está altamente optimizado para mandarín. Cambiar el tamaño del modelo no aplica al reconocimiento de chino.