Reconocimiento de Voz

Transcribe automaticamente el texto de los subtitulos a partir del audio del video

Que es el Reconocimiento de Voz

La funcion de reconocimiento de voz analiza automaticamente la pista de audio de un video, convierte el contenido hablado en texto y genera un archivo de subtitulos con codigos de tiempo. Es ideal para videos que no tienen subtitulos existentes, como vlogs grabados por ti mismo, grabaciones de reuniones, videos de cursos, etc.

El resultado es un archivo de subtitulos SRT en el idioma de origen, que puede editarse y ajustarse posteriormente en el editor de subtitulos.

Como Usarlo

  1. Importa videos a la biblioteca multimediaArrastra archivos de video a la biblioteca multimedia de GeekLink, o haz clic en el boton "Agregar Videos" para seleccionar archivos.
  2. Cambia a la pestana "Reconocimiento de Voz"Selecciona la pestana "Reconocimiento de Voz" en la parte superior de la interfaz principal.
  3. Elige el idioma de reconocimientoEn el panel de configuracion, selecciona el idioma de origen del video, como chino, ingles, japones, etc.
  4. Elige el modelo de reconocimientoSelecciona un modelo adecuado segun tus necesidades de precision y el rendimiento de tu dispositivo. Recomendamos comenzar con el modelo predeterminado "Recomendado".
  5. Haz clic en "Ejecutar Reconocimiento de Voz"Despues de confirmar la configuracion, haz clic en el boton para iniciar el reconocimiento. Puedes seleccionar multiples videos para procesamiento por lotes.
  6. Revisa y edita los resultadosUna vez completado el reconocimiento, haz clic en "Abrir Editor de Subtitulos" para revisar los resultados de la transcripcion y hacer correcciones linea por linea.

Seleccion del Modelo de Reconocimiento

GeekLink ofrece multiples modelos de reconocimiento con diferentes equilibrios entre precision y velocidad. El archivo del modelo se descarga automaticamente la primera vez que usas un modelo determinado.

Modelo Tamano Uso de Memoria Precision Velocidad Ideal Para
Mas Rapido 75 MB ~200 MB Baja Mas rapida Vista previa rapida, pruebas
Rapido 142 MB ~300 MB Aceptable Rapida Uso cotidiano, menos exigente en precision
Recomendado 466 MB ~600 MB Alta Media Opcion predeterminada, equilibrio entre precision y velocidad
Alta Precision 1.5 GB ~2 GB Alta Mas lenta Uso profesional, entornos ruidosos
Maxima Precision + Rapido 1.6 GB ~2.5 GB Maxima Relativamente rapida Maxima precision manteniendo velocidad
Maxima Precision 2.9 GB ~4 GB Maxima Mas lenta Precision definitiva, la velocidad no es prioridad
Consejo Los modelos mas grandes ofrecen mayor precision pero son mas lentos y consumen mas memoria. Si tu Mac tiene menos de 8 GB de memoria, recomendamos usar el modelo "Recomendado" o uno mas pequeno.

Configuracion Avanzada

Haz clic en "Mas Configuraciones" en la aplicacion para expandir las opciones avanzadas:

Caracteres Maximos por Linea de Subtitulo (Idioma de Origen)

Controla la longitud maxima del texto de una sola linea de subtitulo, con un rango de 10 a 200. Deja en blanco para no establecer limite. Util para gestionar la densidad de lectura, especialmente para subtitulos en chino -- el chino no tiene espacios naturales entre palabras, por lo que las lineas largas sin saltos pueden afectar la experiencia de visualizacion.

Correccion de Puntuacion con IA PRO

Corrige unicamente la puntuacion, sin modificar el texto en si. Es mas efectivo para chino -- el reconocimiento de voz en chino a menudo omite signos de puntuacion. Al activarlo, se agregan automaticamente comas, puntos y otros signos, mejorando significativamente la legibilidad de los subtitulos.

Modo Programa de Variedades

Optimizado para programas de variedades, reality shows y otros escenarios con mucho ruido de fondo y dialogos rapidos con multiples hablantes. Al activarlo, la estrategia de reconocimiento se ajusta para manejar mejor los entornos ruidosos y los cambios rapidos de voz.

Preguntas Frecuentes

Por que el primer uso de un modelo es tan lento?

La primera vez que usas un nuevo modelo, el archivo del modelo se descarga automaticamente (consulta la tabla de tamanos anterior). La velocidad de descarga depende de tu red. Una vez completada la descarga, los usos posteriores de ese modelo se iniciaran inmediatamente sin necesidad de volver a descargarlo.

Que hago si los resultados del reconocimiento contienen errores?

El reconocimiento de voz nunca es 100% preciso, especialmente con mucho ruido de fondo, habla rapida o acentos fuertes. Recomendamos abrir el editor de subtitulos despues del reconocimiento para revisar y corregir los resultados linea por linea. Si ciertas palabras se reconocen mal frecuentemente, puedes usar las "Reglas de Autocorreccion" PRO para corregir errores comunes por lotes.

Por que no hay puntuacion en el resultado?

El modelo de reconocimiento de voz en si puede no generar puntuacion, especialmente para chino. Activa "Correccion de Puntuacion con IA" PRO para agregar automaticamente la puntuacion y obtener subtitulos mas legibles.