No todos los idiomas rinden igual en el reconocimiento de voz con IA. Esta página compara la precisión de transcripción en los 22 idiomas compatibles con GeekLink, para que puedas elegir el tamaño de modelo adecuado antes de procesar tu video y evitar sorpresas.
WER (Word Error Rate, tasa de error de palabras) mide cuántas palabras se transcriben incorrectamente — cuanto menor, mejor. El chino usa CER (Character Error Rate, tasa de error de caracteres) ya que no tiene separación entre palabras. Un WER del 5% significa aproximadamente 1 error cada 20 palabras en audio limpio.
Los números a continuación son valores de referencia de conjuntos de datos benchmark. La precisión real varía según la calidad del audio, el ruido de fondo, el acento y la velocidad de habla.
Modelo por defecto = Recomendado (predeterminado de la app). Los modelos más grandes tardan más pero reconocen con mayor precisión — especialmente para japonés y coreano.
| Idioma | Modelo recomendado | Mejor WER | WER rápido | Calificación |
|---|---|---|---|---|
| 🇨🇳 Simplified Chinese | Motor dedicado | ~3–5% CER | ~3–5% CER | ⭐⭐⭐⭐⭐ |
| 🇹🇼 Traditional Chinese | Motor dedicado | ~3–5% CER | ~3–5% CER | ⭐⭐⭐⭐⭐ |
| 🇪🇸 Spanish | Alta precisión / Máxima precisión | ~3–4% | ~14–18% | ⭐⭐⭐⭐⭐ |
| 🇬🇧 English | Alta precisión / Máxima precisión | ~4–5% | ~12–16% | ⭐⭐⭐⭐⭐ |
| 🇫🇷 French | Alta precisión / Máxima precisión | ~6–7% | ~18–24% | ⭐⭐⭐⭐ |
| 🇩🇪 German | Alta precisión / Máxima precisión | ~5–7% | ~17–22% | ⭐⭐⭐⭐ |
| 🇮🇹 Italian | Alta precisión / Máxima precisión | ~5–7% | ~17–22% | ⭐⭐⭐⭐ |
| 🇵🇹 Portuguese | Alta precisión / Máxima precisión | ~5–6% | ~16–21% | ⭐⭐⭐⭐ |
| 🇷🇺 Russian | Máxima precisión | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇳🇱 Dutch | Alta precisión / Máxima precisión | ~6–9% | ~18–24% | ⭐⭐⭐⭐ |
| 🇹🇷 Turkish | Alta precisión / Máxima precisión | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇮🇩 Indonesian | Alta precisión / Máxima precisión | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇵🇱 Polish | Alta precisión / Máxima precisión | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇸🇪 Swedish | Alta precisión / Máxima precisión | ~7–10% | ~18–24% | ⭐⭐⭐⭐ |
| 🇪🇸 Catalan | Alta precisión / Máxima precisión | ~5–8% | ~14–18% | ⭐⭐⭐⭐ |
| 🇨🇿 Czech | Alta precisión / Máxima precisión | ~7–10% | ~20–26% | ⭐⭐⭐⭐ |
| 🇳🇴 Norwegian | Alta precisión / Máxima precisión | ~7–10% | ~18–24% | ⭐⭐⭐⭐ |
| 🇩🇰 Danish | Alta precisión / Máxima precisión | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇫🇮 Finnish | Alta precisión / Máxima precisión | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇭🇺 Hungarian | Alta precisión / Máxima precisión | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇬🇷 Greek | Alta precisión / Máxima precisión | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇷🇴 Romanian | Alta precisión / Máxima precisión | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇲🇾 Malay | Alta precisión / Máxima precisión | ~8–12% | ~22–28% | ⭐⭐⭐⭐ |
| 🇸🇦 Arabic | Máxima precisión | ~10–16% | ~26–34% | ⭐⭐⭐ |
| 🇹🇭 Thai | Motor dedicado | Varía ampliamente | — | ⭐⭐ |
| 🇯🇵 Japanese | Máxima precisión requerido | ~10–14% | ~28–35% | ⭐⭐⭐ |
| 🇰🇷 Korean | Máxima precisión requerido | ~10–13% | ~26–32% | ⭐⭐⭐ |
| 🇸🇮 Slovenian | Máxima precisión | ~10–15% | ~28–35% | ⭐⭐⭐ |
| 🇮🇳 Hindi | Máxima precisión | ~12–18% | ~30–40% | ⭐⭐⭐ |
| 🇺🇦 Ukrainian | Máxima precisión | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇻🇳 Vietnamese | Máxima precisión | ~14–20% | ~32–40% | ⭐⭐⭐ |
| 🇭🇷 Croatian | Máxima precisión | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇸🇰 Slovak | Máxima precisión | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇧🇬 Bulgarian | Máxima precisión | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇷🇸 Serbian | Máxima precisión | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇮🇱 Hebrew | Máxima precisión | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇮🇷 Persian | Máxima precisión | ~10–15% | ~26–34% | ⭐⭐⭐ |
| 🇵🇭 Filipino | Máxima precisión | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇱🇹 Lithuanian | Máxima precisión | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇱🇻 Latvian | Máxima precisión | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇪🇪 Estonian | Máxima precisión | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇦🇿 Azerbaijani | Máxima precisión | ~12–18% | ~28–36% | ⭐⭐⭐ |
| 🇧🇩 Bengali | Máxima precisión | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇵🇰 Urdu | Máxima precisión | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇮🇳 Tamil | Máxima precisión | ~15–20% | ~32–40% | ⭐⭐⭐ |
| 🇳🇵 Nepali | Máxima precisión | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇰🇪 Swahili | Máxima precisión | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇬🇪 Georgian | Máxima precisión | ~15–22% | ~34–42% | ⭐⭐⭐ |
| 🇮🇸 Icelandic | Máxima precisión | ~15–22% | ~34–42% | ⭐⭐⭐ |
Fuente: benchmarks públicos de reconocimiento de voz (dataset Fleurs) y evaluaciones de modelos especializados. Los resultados reales pueden variar.
GeekLink te permite elegir el tamaño del modelo. Los modelos más grandes requieren más tiempo y espacio en disco pero producen resultados significativamente mejores — especialmente para japonés y coreano.
| Modelo | Tamaño de descarga | Velocidad | Calidad | Ideal para |
|---|---|---|---|---|
| Más rápido | 75 MB | Más rápido (~10x) | Baja | Solo para vista previa rápida |
| Rápido | 142 MB | Rápido (~7x) | Regular | Chino / Español revisión rápida |
| Equilibrado | 466 MB | Medio (~4x) | Buena | Idiomas europeos uso diario |
| Alta precisión | 1.5 GB | Lento (~2x) | Muy buena | Español / Inglés / Francés recomendado |
| Recomendado Predeterminado | 1.6 GB | Rápido (~6x) | Muy buena | Mejor balance velocidad-precisión para la mayoría de idiomas |
| Máxima precisión | 2.9 GB | Más lento (1x) | La mejor | Japonés / Coreano obligatorio; otros idiomas máxima precisión |
La tasa de error de palabras (WER) es el porcentaje de palabras transcritas incorrectamente. Un WER del 5% significa que aproximadamente 1 de cada 20 palabras es incorrecta. El chino usa CER (tasa de error de caracteres) ya que el texto chino no usa espacios entre palabras.
El japonés y el coreano tienen sistemas de escritura complejos (kanji, hanja) y dependen mucho del contexto para la selección correcta de caracteres. Los modelos más pequeños carecen de la capacidad para capturar bien este contexto, lo que lleva a tasas de error muy altas. Usa siempre el modelo grande para estos idiomas.
GeekLink usa motores de reconocimiento especializados para chino y tailandés, optimizados específicamente para esos idiomas. Ofrecen una precisión consistentemente alta sin que necesites seleccionar un tamaño de modelo.
No. El chino usa un motor dedicado que ya está altamente optimizado para mandarín. Cambiar el tamaño del modelo no aplica al reconocimiento de chino.
Descarga gratis y experimenta herramientas de subtítulos impulsadas por IA.
Descarga gratuita