Reconocimiento de Voz
Transcribe automaticamente el texto de los subtitulos a partir del audio del video
Que es el Reconocimiento de Voz
La funcion de reconocimiento de voz analiza automaticamente la pista de audio de un video, convierte el contenido hablado en texto y genera un archivo de subtitulos con codigos de tiempo. Es ideal para videos que no tienen subtitulos existentes, como vlogs grabados por ti mismo, grabaciones de reuniones, videos de cursos, etc.
El resultado es un archivo de subtitulos SRT en el idioma de origen, que puede editarse y ajustarse posteriormente en el editor de subtitulos.
Como Usarlo
- Importa videos a la biblioteca multimediaArrastra archivos de video a la biblioteca multimedia de GeekLink, o haz clic en el boton "Agregar Videos" para seleccionar archivos.
- Cambia a la pestana "Reconocimiento de Voz"Selecciona la pestana "Reconocimiento de Voz" en la parte superior de la interfaz principal.
- Elige el idioma de reconocimientoEn el panel de configuracion, selecciona el idioma de origen del video, como chino, ingles, japones, etc.
- Elige el modelo de reconocimientoSelecciona un modelo adecuado segun tus necesidades de precision y el rendimiento de tu dispositivo. Recomendamos comenzar con el modelo predeterminado "Recomendado".
- Haz clic en "Ejecutar Reconocimiento de Voz"Despues de confirmar la configuracion, haz clic en el boton para iniciar el reconocimiento. Puedes seleccionar multiples videos para procesamiento por lotes.
- Revisa y edita los resultadosUna vez completado el reconocimiento, haz clic en "Abrir Editor de Subtitulos" para revisar los resultados de la transcripcion y hacer correcciones linea por linea.
Seleccion del Modelo de Reconocimiento
GeekLink ofrece multiples modelos de reconocimiento con diferentes equilibrios entre precision y velocidad. El archivo del modelo se descarga automaticamente la primera vez que usas un modelo determinado.
| Modelo | Tamano | Uso de Memoria | Precision | Velocidad | Ideal Para |
|---|---|---|---|---|---|
| Mas Rapido | 75 MB | ~200 MB | Baja | Mas rapida | Vista previa rapida, pruebas |
| Rapido | 142 MB | ~300 MB | Aceptable | Rapida | Uso cotidiano, menos exigente en precision |
| Recomendado | 466 MB | ~600 MB | Alta | Media | Opcion predeterminada, equilibrio entre precision y velocidad |
| Alta Precision | 1.5 GB | ~2 GB | Alta | Mas lenta | Uso profesional, entornos ruidosos |
| Maxima Precision + Rapido | 1.6 GB | ~2.5 GB | Maxima | Relativamente rapida | Maxima precision manteniendo velocidad |
| Maxima Precision | 2.9 GB | ~4 GB | Maxima | Mas lenta | Precision definitiva, la velocidad no es prioridad |
Configuracion Avanzada
Haz clic en "Mas Configuraciones" en la aplicacion para expandir las opciones avanzadas:
Caracteres Maximos por Linea de Subtitulo (Idioma de Origen)
Controla la longitud maxima del texto de una sola linea de subtitulo, con un rango de 10 a 200. Deja en blanco para no establecer limite. Util para gestionar la densidad de lectura, especialmente para subtitulos en chino -- el chino no tiene espacios naturales entre palabras, por lo que las lineas largas sin saltos pueden afectar la experiencia de visualizacion.
Correccion de Puntuacion con IA PRO
Corrige unicamente la puntuacion, sin modificar el texto en si. Es mas efectivo para chino -- el reconocimiento de voz en chino a menudo omite signos de puntuacion. Al activarlo, se agregan automaticamente comas, puntos y otros signos, mejorando significativamente la legibilidad de los subtitulos.
Modo Programa de Variedades
Optimizado para programas de variedades, reality shows y otros escenarios con mucho ruido de fondo y dialogos rapidos con multiples hablantes. Al activarlo, la estrategia de reconocimiento se ajusta para manejar mejor los entornos ruidosos y los cambios rapidos de voz.
Preguntas Frecuentes
Por que el primer uso de un modelo es tan lento?
La primera vez que usas un nuevo modelo, el archivo del modelo se descarga automaticamente (consulta la tabla de tamanos anterior). La velocidad de descarga depende de tu red. Una vez completada la descarga, los usos posteriores de ese modelo se iniciaran inmediatamente sin necesidad de volver a descargarlo.
Que hago si los resultados del reconocimiento contienen errores?
El reconocimiento de voz nunca es 100% preciso, especialmente con mucho ruido de fondo, habla rapida o acentos fuertes. Recomendamos abrir el editor de subtitulos despues del reconocimiento para revisar y corregir los resultados linea por linea. Si ciertas palabras se reconocen mal frecuentemente, puedes usar las "Reglas de Autocorreccion" PRO para corregir errores comunes por lotes.
Por que no hay puntuacion en el resultado?
El modelo de reconocimiento de voz en si puede no generar puntuacion, especialmente para chino. Activa "Correccion de Puntuacion con IA" PRO para agregar automaticamente la puntuacion y obtener subtitulos mas legibles.