Precisión del reconocimiento de voz por idioma: tabla de referencia WER

No todos los idiomas rinden igual en el reconocimiento de voz con IA. Esta página compara la precisión de transcripción en los 22 idiomas compatibles con GeekLink, para que puedas elegir el tamaño de modelo adecuado antes de procesar tu video y evitar sorpresas.

¿Qué es WER?

WER (Word Error Rate, tasa de error de palabras) mide cuántas palabras se transcriben incorrectamente — cuanto menor, mejor. El chino usa CER (Character Error Rate, tasa de error de caracteres) ya que no tiene separación entre palabras. Un WER del 5% significa aproximadamente 1 error cada 20 palabras en audio limpio.

Los números a continuación son valores de referencia de conjuntos de datos benchmark. La precisión real varía según la calidad del audio, el ruido de fondo, el acento y la velocidad de habla.

Referencia rápida de precisión por idioma

Modelo por defecto = Recomendado (predeterminado de la app). Los modelos más grandes tardan más pero reconocen con mayor precisión — especialmente para japonés y coreano.

Idioma Modelo recomendado Mejor WER WER rápido Calificación
🇨🇳 Simplified Chinese Motor dedicado ~3–5% CER ~3–5% CER ⭐⭐⭐⭐⭐
🇹🇼 Traditional Chinese Motor dedicado ~3–5% CER ~3–5% CER ⭐⭐⭐⭐⭐
🇪🇸 Spanish Alta precisión / Máxima precisión ~3–4% ~14–18% ⭐⭐⭐⭐⭐
🇬🇧 English Alta precisión / Máxima precisión ~4–5% ~12–16% ⭐⭐⭐⭐⭐
🇫🇷 French Alta precisión / Máxima precisión ~6–7% ~18–24% ⭐⭐⭐⭐
🇩🇪 German Alta precisión / Máxima precisión ~5–7% ~17–22% ⭐⭐⭐⭐
🇮🇹 Italian Alta precisión / Máxima precisión ~5–7% ~17–22% ⭐⭐⭐⭐
🇵🇹 Portuguese Alta precisión / Máxima precisión ~5–6% ~16–21% ⭐⭐⭐⭐
🇷🇺 Russian Máxima precisión ~8–12% ~22–28% ⭐⭐⭐⭐
🇳🇱 Dutch Alta precisión / Máxima precisión ~6–9% ~18–24% ⭐⭐⭐⭐
🇹🇷 Turkish Alta precisión / Máxima precisión ~7–10% ~20–26% ⭐⭐⭐⭐
🇮🇩 Indonesian Alta precisión / Máxima precisión ~7–10% ~20–26% ⭐⭐⭐⭐
🇵🇱 Polish Alta precisión / Máxima precisión ~7–10% ~20–26% ⭐⭐⭐⭐
🇸🇪 Swedish Alta precisión / Máxima precisión ~7–10% ~18–24% ⭐⭐⭐⭐
🇪🇸 Catalan Alta precisión / Máxima precisión ~5–8% ~14–18% ⭐⭐⭐⭐
🇨🇿 Czech Alta precisión / Máxima precisión ~7–10% ~20–26% ⭐⭐⭐⭐
🇳🇴 Norwegian Alta precisión / Máxima precisión ~7–10% ~18–24% ⭐⭐⭐⭐
🇩🇰 Danish Alta precisión / Máxima precisión ~8–12% ~22–28% ⭐⭐⭐⭐
🇫🇮 Finnish Alta precisión / Máxima precisión ~8–12% ~22–28% ⭐⭐⭐⭐
🇭🇺 Hungarian Alta precisión / Máxima precisión ~8–12% ~22–28% ⭐⭐⭐⭐
🇬🇷 Greek Alta precisión / Máxima precisión ~8–12% ~22–28% ⭐⭐⭐⭐
🇷🇴 Romanian Alta precisión / Máxima precisión ~8–12% ~22–28% ⭐⭐⭐⭐
🇲🇾 Malay Alta precisión / Máxima precisión ~8–12% ~22–28% ⭐⭐⭐⭐
🇸🇦 Arabic Máxima precisión ~10–16% ~26–34% ⭐⭐⭐
🇹🇭 Thai Motor dedicado Varía ampliamente ⭐⭐
🇯🇵 Japanese Máxima precisión requerido ~10–14% ~28–35% ⭐⭐⭐
🇰🇷 Korean Máxima precisión requerido ~10–13% ~26–32% ⭐⭐⭐
🇸🇮 Slovenian Máxima precisión ~10–15% ~28–35% ⭐⭐⭐
🇮🇳 Hindi Máxima precisión ~12–18% ~30–40% ⭐⭐⭐
🇺🇦 Ukrainian Máxima precisión ~12–18% ~28–36% ⭐⭐⭐
🇻🇳 Vietnamese Máxima precisión ~14–20% ~32–40% ⭐⭐⭐
🇭🇷 Croatian Máxima precisión ~10–15% ~26–34% ⭐⭐⭐
🇸🇰 Slovak Máxima precisión ~10–15% ~26–34% ⭐⭐⭐
🇧🇬 Bulgarian Máxima precisión ~10–15% ~26–34% ⭐⭐⭐
🇷🇸 Serbian Máxima precisión ~10–15% ~26–34% ⭐⭐⭐
🇮🇱 Hebrew Máxima precisión ~10–15% ~26–34% ⭐⭐⭐
🇮🇷 Persian Máxima precisión ~10–15% ~26–34% ⭐⭐⭐
🇵🇭 Filipino Máxima precisión ~12–18% ~28–36% ⭐⭐⭐
🇱🇹 Lithuanian Máxima precisión ~12–18% ~28–36% ⭐⭐⭐
🇱🇻 Latvian Máxima precisión ~12–18% ~28–36% ⭐⭐⭐
🇪🇪 Estonian Máxima precisión ~12–18% ~28–36% ⭐⭐⭐
🇦🇿 Azerbaijani Máxima precisión ~12–18% ~28–36% ⭐⭐⭐
🇧🇩 Bengali Máxima precisión ~15–20% ~32–40% ⭐⭐⭐
🇵🇰 Urdu Máxima precisión ~15–20% ~32–40% ⭐⭐⭐
🇮🇳 Tamil Máxima precisión ~15–20% ~32–40% ⭐⭐⭐
🇳🇵 Nepali Máxima precisión ~15–22% ~34–42% ⭐⭐⭐
🇰🇪 Swahili Máxima precisión ~15–22% ~34–42% ⭐⭐⭐
🇬🇪 Georgian Máxima precisión ~15–22% ~34–42% ⭐⭐⭐
🇮🇸 Icelandic Máxima precisión ~15–22% ~34–42% ⭐⭐⭐

Fuente: benchmarks públicos de reconocimiento de voz (dataset Fleurs) y evaluaciones de modelos especializados. Los resultados reales pueden variar.

Tamaño del modelo vs Precisión vs Velocidad

GeekLink te permite elegir el tamaño del modelo. Los modelos más grandes requieren más tiempo y espacio en disco pero producen resultados significativamente mejores — especialmente para japonés y coreano.

Modelo Tamaño de descarga Velocidad Calidad Ideal para
Más rápido 75 MB Más rápido (~10x) Baja Solo para vista previa rápida
Rápido 142 MB Rápido (~7x) Regular Chino / Español revisión rápida
Equilibrado 466 MB Medio (~4x) Buena Idiomas europeos uso diario
Alta precisión 1.5 GB Lento (~2x) Muy buena Español / Inglés / Francés recomendado
Recomendado Predeterminado 1.6 GB Rápido (~6x) Muy buena Mejor balance velocidad-precisión para la mayoría de idiomas
Máxima precisión 2.9 GB Más lento (1x) La mejor Japonés / Coreano obligatorio; otros idiomas máxima precisión

Consejos para elegir el modelo

Limitaciones conocidas

Preguntas frecuentes

¿Qué significa WER?

La tasa de error de palabras (WER) es el porcentaje de palabras transcritas incorrectamente. Un WER del 5% significa que aproximadamente 1 de cada 20 palabras es incorrecta. El chino usa CER (tasa de error de caracteres) ya que el texto chino no usa espacios entre palabras.

¿Por qué el modelo base es mucho peor para japonés y coreano?

El japonés y el coreano tienen sistemas de escritura complejos (kanji, hanja) y dependen mucho del contexto para la selección correcta de caracteres. Los modelos más pequeños carecen de la capacidad para capturar bien este contexto, lo que lleva a tasas de error muy altas. Usa siempre el modelo grande para estos idiomas.

¿Por qué el chino y el tailandés no tienen opción de tamaño de modelo?

GeekLink usa motores de reconocimiento especializados para chino y tailandés, optimizados específicamente para esos idiomas. Ofrecen una precisión consistentemente alta sin que necesites seleccionar un tamaño de modelo.

¿Mejorará la precisión si uso el modelo grande para chino?

No. El chino usa un motor dedicado que ya está altamente optimizado para mandarín. Cambiar el tamaño del modelo no aplica al reconocimiento de chino.

Artículos relacionados

Empieza con GeekLink

Descarga gratis y experimenta herramientas de subtítulos impulsadas por IA.

Descarga gratuita