Reconocimiento de Voz

Transcribe automaticamente el texto de los subtitulos a partir del audio del video

Que es el Reconocimiento de Voz

La funcion de reconocimiento de voz analiza automaticamente la pista de audio de un video, convierte el contenido hablado en texto y genera un archivo de subtitulos con codigos de tiempo. Es ideal para videos que no tienen subtitulos existentes, como vlogs grabados por ti mismo, grabaciones de reuniones, videos de cursos, etc.

El resultado es un archivo de subtitulos SRT en el idioma de origen, que puede editarse y ajustarse posteriormente en el editor de subtitulos.

Como Usarlo

Importa videos a la biblioteca multimediaArrastra archivos de video a la biblioteca multimedia de GeekLink, o haz clic en el boton "Agregar Videos" para seleccionar archivos.
Elige "Sin subtitulos, solo audio"En el panel de configuracion, elige la opcion "Sin subtitulos, solo audio" — GeekLink reconoce los subtitulos a partir del audio del video (marca "Traducir tambien a otro idioma" si ademas quieres una traduccion).
Elige el idioma de reconocimientoEn el panel de configuracion, selecciona el idioma de origen del video, como chino, ingles, japones, etc.
Elige el modelo de reconocimientoSelecciona un modelo adecuado segun tus necesidades de precision y el rendimiento de tu dispositivo. Recomendamos comenzar con el modelo predeterminado "Recomendado".
Haz clic en "Ejecutar Reconocimiento de Voz"Despues de confirmar la configuracion, haz clic en el boton para iniciar el reconocimiento. Puedes seleccionar multiples videos para procesamiento por lotes.
Revisa y edita los resultadosUna vez completado el reconocimiento, haz clic en "Abrir Editor de Subtitulos" para revisar los resultados de la transcripcion y hacer correcciones linea por linea.

Seleccion del Modelo de Reconocimiento

GeekLink ofrece multiples modelos de reconocimiento con diferentes equilibrios entre precision y velocidad. El archivo del modelo se descarga automaticamente la primera vez que usas un modelo determinado.

Modelo	Tamano	Uso de Memoria	Precision	Velocidad	Ideal Para
Mas Rapido	75 MB	~200 MB	Baja	Mas rapida	Vista previa rapida, pruebas
Rapido	142 MB	~300 MB	Aceptable	Rapida	Uso cotidiano, menos exigente en precision
Recomendado	466 MB	~600 MB	Alta	Media	Opcion predeterminada, equilibrio entre precision y velocidad
Alta Precision	1.5 GB	~2 GB	Alta	Mas lenta	Uso profesional, entornos ruidosos
Maxima Precision + Rapido	1.6 GB	~2.5 GB	Maxima	Relativamente rapida	Maxima precision manteniendo velocidad
Maxima Precision	2.9 GB	~4 GB	Maxima	Mas lenta	Precision definitiva, la velocidad no es prioridad

Consejo Los modelos mas grandes ofrecen mayor precision pero son mas lentos y consumen mas memoria. Si tu Mac tiene menos de 8 GB de memoria, recomendamos usar el modelo "Recomendado" o uno mas pequeno.

Configuracion Avanzada

Haz clic en "Mas Configuraciones" en la aplicacion para expandir las opciones avanzadas:

Correccion de Puntuacion con IA PRO

Corrige unicamente la puntuacion, sin modificar el texto en si. Es mas efectivo para chino -- el reconocimiento de voz en chino a menudo omite signos de puntuacion. Al activarlo, se agregan automaticamente comas, puntos y otros signos, mejorando significativamente la legibilidad de los subtitulos.

Modo Programa de Variedades

Optimizado para programas de variedades, musica, peliculas antiguas y otro contenido con mucho ruido de fondo, para mejorar la precision del reconocimiento en esas condiciones. No se recomienda para dialogos largos y continuos. Ademas, se incluye automaticamente cuando la Linea de Tiempo de Alta Precision esta activada, por lo que no necesitas activar ambas.

Linea de Tiempo de Alta Precision

Desactivada por defecto. Al activarla (para audio que no sea chino), GeekLink alinea cada palabra con el audio para obtener codigos de tiempo precisos y genera un nivel de confianza por palabra, de modo que puede marcar las lineas de las que no estaba seguro. La primera ejecucion descarga un componente de alineacion. Actívala cuando la precision de tiempos o la revision de baja confianza sean importantes; de lo contrario, el modo estandar es mas rapido. Las marcas de baja confianza que genera son las que el Paquete de Revision para SE exporta para revisarlas en Subtitle Edit.

Segmentacion Inteligente con IA PRO

Usa un LLM para dividir la transcripcion en lineas de subtitulo naturales. Ayuda con el habla larga y continua, como charlas y narraciones. No se recomienda para dialogos cortos de ida y vuelta — los intercambios cortos ya estan bien segmentados, y volver a segmentarlos puede fusionar lineas de hablantes distintos o dividir en exceso una sola linea. Para contenido con muchos dialogos, dejala desactivada y confia en los segmentos propios del reconocedor.

Prompt de Whisper y Reglas de Autocorreccion (Nombres Propios)

Para acertar con nombres, lugares y marcas, usa dos herramientas complementarias: el prompt de Whisper le da contexto al reconocedor de antemano, y las Reglas de Autocorreccion reemplazan de forma determinista los errores de audicion conocidos despues del reconocimiento. Funcionan mejor juntas y se aplican tanto al modo estandar como al de alta precision. Para toda una serie, reune los nombres que el primer episodio reconoce mal, agregalos una vez y el resto de la temporada saldra consistente.

Reconoce y Traduce en un Solo Paso

No necesitas un paso aparte para traducir. En el panel de Reconocimiento de Voz, marca "Traducir tambien a otro idioma", luego elige el idioma de destino y un motor de traduccion — GeekLink transcribe el audio y lo traduce en una sola ejecucion, dandote tanto los subtitulos originales como los traducidos. Consulta la pagina de Traduccion para ver las opciones de motor.

Cuando conviene dividirlo en dos pasos: si la precision importa, reconoce primero, corrige los subtitulos de origen en el editor y luego traduce — una entrada limpia produce una mejor traduccion. Combinar ambos es mas rapido; hacerlos por separado te da un punto de control para corregir errores antes de que se trasladen a la traduccion.

Preguntas Frecuentes

Por que el primer uso de un modelo es tan lento?

La primera vez que usas un nuevo modelo, el archivo del modelo se descarga automaticamente (consulta la tabla de tamanos anterior). La velocidad de descarga depende de tu red. Una vez completada la descarga, los usos posteriores de ese modelo se iniciaran inmediatamente sin necesidad de volver a descargarlo.

Que hago si los resultados del reconocimiento contienen errores?

El reconocimiento de voz nunca es 100% preciso, especialmente con mucho ruido de fondo, habla rapida o acentos fuertes. Recomendamos abrir el editor de subtitulos despues del reconocimiento para revisar y corregir los resultados linea por linea. Si ciertas palabras se reconocen mal frecuentemente, puedes usar las "Reglas de Autocorreccion" PRO para corregir errores comunes por lotes.

Por que no hay puntuacion en el resultado?

El modelo de reconocimiento de voz en si puede no generar puntuacion, especialmente para chino. Activa "Correccion de Puntuacion con IA" PRO para agregar automaticamente la puntuacion y obtener subtitulos mas legibles.