Los subtítulos incrustados (subtítulos quemados) son texto grabado permanentemente en los fotogramas del video — no se pueden desactivar, copiar ni editar sin extracción por OCR. El OCR con IA puede leer este texto fotograma a fotograma, reconstruir la temporización y generar un archivo SRT editable. Esta guía cubre todos los escenarios principales: dramas cortos chinos, anime japonés, programas de variedades y películas antiguas — con instrucciones paso a paso para extraer, editar y traducir subtítulos incrustados localmente en tu Mac.
¿Qué son los subtítulos incrustados y en qué se diferencian de los subtítulos blandos?
Los subtítulos vienen en dos formas fundamentalmente diferentes, y la distinción es importante para la extracción.
Los subtítulos blandos (también llamados externos o activables) son archivos de texto independientes — SRT, ASS o VTT — que un reproductor de video superpone durante la reproducción. Puedes activarlos o desactivarlos, cambiar de idioma y editar el archivo de texto directamente. Las pistas de subtítulos de YouTube, las opciones de idioma de Netflix y los archivos .srt descargados son todos subtítulos blandos.
Los subtítulos incrustados (también llamados quemados, integrados o subtítulos abiertos) son parte de la imagen del video. Durante la edición del video, el texto se renderizó directamente en cada fotograma. No hay una capa de texto separada — los píxeles del subtítulo son indistinguibles del resto de la imagen para un reproductor de video.
La consecuencia clave: no puedes extraer subtítulos incrustados simplemente abriendo el archivo de video y buscando una pista de texto. La única forma de recuperar el texto es "leerlo" de la imagen usando OCR (Reconocimiento Óptico de Caracteres).
Cómo saber qué tipo tienes:
- Si tu reproductor de video tiene un botón para activar/desactivar subtítulos y el texto desaparece al desactivarlo → subtítulos blandos
- Si el texto permanece visible independientemente de la configuración del reproductor → incrustados
- Si abres el video en VLC → menú Subtítulos → y no aparece ninguna pista → incrustados
- Si ejecutas
ffprobe -i video.mp4y no ves ningún flujo de subtítulos → incrustados
¿Por qué necesitarías extraer subtítulos incrustados?
Hay cuatro razones principales por las que la gente extrae subtítulos quemados del video:
1. Traducción a otro idioma
Este es el caso de uso más común. Tienes un video con subtítulos chinos incrustados (común en Douyin, Bilibili, WeChat Channels) y quieres traducirlos al inglés, japonés u otro idioma. No puedes traducir lo que no puedes editar — así que la extracción viene primero.
2. Crear una transcripción con capacidad de búsqueda
Investigadores, periodistas y archiveros a menudo necesitan versiones en texto del contenido de video para indexar, buscar y citar. Los subtítulos incrustados contienen la información pero están atrapados en forma de píxeles.
3. Cambiar el estilo o reposicionar subtítulos
Los subtítulos quemados pueden estar mal posicionados (cubriendo elementos visuales importantes), ser demasiado pequeños para leer en móvil, o tener un estilo que no se adapta a tu caso de uso. Extraer el texto te permite re-renderizarlo con tu fuente, tamaño, color y posición preferidos.
4. Accesibilidad y cumplimiento normativo
Plataformas como YouTube requieren archivos de subtítulos (no texto quemado) para su función de traducción automática y herramientas de accesibilidad. Extraer subtítulos incrustados a formato SRT hace que el contenido sea accesible para lectores de pantalla, traducción automática y espectadores con discapacidad auditiva que usan configuraciones personalizadas de subtítulos.
¿Cómo funciona realmente la extracción de subtítulos por OCR?
La extracción de subtítulos por OCR es un proceso de cuatro etapas: muestreo de fotogramas, detección de texto, reconocimiento de caracteres y deduplicación con asignación de marcas de tiempo. Comprender estas etapas te ayuda a resolver problemas de precisión.
Etapa 1: Muestreo de fotogramas
Un video a 30fps contiene 1800 fotogramas por minuto. La mayoría de los subtítulos permanecen en pantalla durante 2-5 segundos, lo que significa que solo una fracción de los fotogramas contiene texto nuevo. Las herramientas OCR inteligentes muestrean fotogramas a intervalos (por ejemplo, cada 0,5 segundos) y detectan cuándo cambia el texto del subtítulo, en lugar de procesar cada fotograma individual.
Por eso la velocidad de procesamiento varía — un video de 10 minutos con 60 líneas de subtítulos requiere reconocer ~120 fotogramas (detección de entrada + salida), no 18 000.
Etapa 2: Detección de la región de texto
El motor OCR identifica dónde aparece el texto en cada fotograma. Los subtítulos están típicamente en el 20-30 % inferior de la pantalla, pero los programas de variedades y el anime pueden colocar texto en cualquier lugar — arriba, en el medio o en bocadillos. Los modelos de detección avanzados localizan el texto independientemente de la posición.
Etapa 3: Reconocimiento de caracteres
Una vez que la región de texto está aislada, el modelo OCR lee los caracteres individuales. Aquí es donde el idioma importa significativamente:
- Escrituras latinas (inglés, español, francés) — Alta precisión, bien comprendidas por todos los motores OCR
- Escrituras CJK (chino, japonés, coreano) — Requiere modelos especializados entrenados en miles de variantes de caracteres. Solo el chino tiene 6763 caracteres de uso común (estándar GB 2312)
- Escrituras mixtas (japonés con kanji + hiragana + katakana + inglés ocasional) — El caso más difícil, que requiere detección multi-escritura dentro de una sola línea
Etapa 4: Deduplicación y temporización
La misma línea de subtítulo aparece en muchos fotogramas consecutivos. El sistema OCR debe reconocer que los fotogramas 150-220 contienen el mismo texto, agruparlos en una sola entrada de subtítulo y asignar las marcas de tiempo correctas de inicio y fin. Una buena deduplicación es la diferencia entre un archivo SRT limpio de 60 líneas y un archivo desordenado de 500 líneas con duplicados.
¿Cómo extraer subtítulos incrustados paso a paso?
Este tutorial usa GeekLink en macOS. Todo el proceso se ejecuta localmente — tu video nunca sale de tu equipo.
Paso 1: Importa tu video
Arrastra y suelta el archivo de video en GeekLink. Los formatos compatibles incluyen MP4, MOV, MKV, AVI, WebM y FLV. No hay límite de tamaño de archivo — el OCR procesa fotogramas individuales, no el flujo de bits completo del video.
Para flujos de trabajo por lotes (por ejemplo, extraer subtítulos de toda una temporada de un drama), importa múltiples archivos a la vez. GeekLink los procesa secuencialmente o en paralelo dependiendo de tu hardware.
Paso 2: Selecciona OCR como método de extracción
GeekLink ofrece dos métodos de extracción de subtítulos:
- Reconocimiento de voz — Transcribe el audio hablado a texto. Úsalo cuando los subtítulos no existen o son inexactos.
- Extracción OCR — Lee texto de los fotogramas del video. Úsalo cuando los subtítulos ya están quemados en el video.
Selecciona OCR. El motor leerá el texto visual en lugar de procesar la pista de audio.
Paso 3: Configura la región de subtítulos (recomendado)
Define el área del fotograma donde aparecen los subtítulos. Para la mayoría del contenido, esto es el 20-30 % inferior de la pantalla. Establecer una región:
- Elimina falsos positivos de texto en pantalla, marcas de agua y logotipos de canales
- Acelera el procesamiento al reducir el área a escanear
- Mejora la precisión al dar al modelo menos ruido visual que analizar
Para programas de variedades con subtítulos en posiciones no estándar, ajusta la región en consecuencia. Para anime con texto en múltiples posiciones, puede que necesites usar el fotograma completo.
Paso 4: Ejecuta la extracción
GeekLink procesa el video fotograma a fotograma:
- Muestrea fotogramas a intervalos adaptativos basados en cambios de texto detectados
- Detecta regiones de texto dentro de cada fotograma muestreado
- Reconoce caracteres usando modelos optimizados para CJK o escritura latina
- Deduplica texto idéntico consecutivo para producir entradas de subtítulos limpias
- Asigna marcas de tiempo de inicio y fin a cada entrada
El procesamiento se ejecuta completamente en la CPU/GPU de tu Mac. Un video de 10 minutos normalmente toma de 1 a 3 minutos dependiendo de la densidad de subtítulos y el hardware.
Paso 5: Revisa en el editor integrado
Abre el editor de subtítulos para revisar los resultados. Correcciones comunes:
- Errores de caracteres — El OCR puede confundir caracteres similares: 已/己/巳, 未/末, rn/m, 0/O. Son correcciones manuales rápidas.
- División de líneas — Las líneas largas que deberían ser dos entradas de subtítulos separadas a veces se fusionan. Divídelas en los límites naturales de las oraciones.
- Ajuste de marcas de tiempo — Si un subtítulo aparece 0,2-0,5 segundos antes o después, arrastra la marca de tiempo para alinearla precisamente con el audio hablado.
- Eliminación de texto decorativo — Los programas de variedades pueden incluir texto decorativo extraído que no es parte del subtítulo principal. Elimina estas entradas.
Paso 6: Exporta
Exporta los subtítulos extraídos en tu formato preferido:
- SRT — Compatibilidad universal. Funciona con YouTube, Vimeo, VLC, Premiere, Final Cut, DaVinci Resolve.
- ASS — Estilo avanzado para contenido CJK. Soporta fuentes personalizadas, colores, posiciones y efectos.
- VTT — Formato nativo web para reproductores de video HTML5.
¿Cómo maximizar la precisión del OCR de subtítulos?
La precisión del OCR depende de las características visuales de los subtítulos — no del tipo de video. La misma herramienta obtendrá un 99 % con texto blanco limpio a 1080p y un 80 % con fuentes decorativas borrosas a 480p. Estos son los factores que puedes controlar.
1. La resolución del video fuente es lo más importante
720p es el mínimo para un OCR fiable. Por debajo de 720p, los bordes de los caracteres se vuelven ambiguos y la precisión cae drásticamente — especialmente para escrituras CJK donde los detalles de los trazos distinguen caracteres diferentes.
Si tu fuente es 480p o inferior, considera escalar el video con IA antes de la extracción OCR. Incluso un escalado 2x (480p → 960p) puede mejorar la claridad de los bordes de los caracteres lo suficiente para ganar un 5-10 % de precisión.
2. Contraste entre texto y fondo
Texto blanco con contorno negro sobre cualquier fondo: excelente. Texto amarillo en una escena brillante sin contorno: problemático. Si el video tiene escenas donde el texto del subtítulo se funde con un fondo brillante, esos fotogramas específicos tendrán menor precisión.
3. Define la región de subtítulos
Como se mencionó en el Paso 3: restringir el área de escaneo a donde realmente aparecen los subtítulos elimina falsos positivos de marcas de agua, logotipos y gráficos en pantalla. Esto solo puede mejorar la precisión del 85 % al 95 % en contenido de programas de variedades.
4. Evita procesar video con alta compresión
La compresión de video (especialmente a tasas de bits bajas) crea artefactos alrededor de los bordes del texto — distorsiones en bloques que confunden al OCR. Si es posible, usa la fuente de mayor calidad disponible. Un archivo de 1080p a 8 Mbps tendrá mucho mejor OCR que el mismo contenido a 2 Mbps.
5. Maneja correctamente el contenido multilingüe
Algunos videos muestran dos idiomas simultáneamente (por ejemplo, chino + inglés en líneas separadas). El OCR extraerá ambos. Si solo necesitas un idioma, puedes:
- Restringir la región solo a la línea que necesitas (si están en diferentes posiciones verticales)
- Eliminar las entradas del idioma no deseado en el editor después de la extracción
6. Post-procesamiento: patrones comunes de sustitución
Después del OCR, ciertas confusiones de caracteres son predecibles y se pueden corregir por lotes:
- Inglés:
rn→m,l→I,0→O - Chino:
已↔己,未↔末,土↔士 - Japonés:
ー(sonido prolongado katakana) ↔一(kanji "uno")
¿Se pueden extraer subtítulos incrustados y traducirlos en un solo flujo de trabajo?
Sí — y aquí es donde la extracción OCR se vuelve más poderosa. El flujo de trabajo extraer-traducir-exportar convierte un video con subtítulos incrustados en otro idioma en un video con subtítulos en tu idioma destino, todo sin salir de una sola aplicación.
El flujo de trabajo:
- Extraer — El OCR lee los subtítulos incrustados en chino/japonés/coreano y produce un SRT editable
- Traducir — La traducción con IA convierte el texto extraído a tu idioma destino (inglés, español, portugués, etc.) con contexto completo de la oración
- Exportar — Genera un archivo de subtítulos, o quema el texto traducido de vuelta en el video como nuevos subtítulos incrustados
Este es el caso de uso más común en el mundo real: tienes un drama corto chino con subtítulos chinos quemados y quieres subtítulos en inglés — ya sea como archivo SRT o quemados en el video en una posición diferente.
Ventaja de privacidad del procesamiento local
En este flujo de trabajo, el video y el audio nunca salen de tu Mac. Solo el texto de subtítulos extraído (texto plano, unos pocos KB) se envía a la API de traducción. Esto importa para:
- Contenido inédito o con derechos de autor del que no tienes derechos de distribución
- Videos corporativos o educativos con información propietaria
- Trabajo para clientes donde los acuerdos de confidencialidad prohíben subir contenido a servicios de terceros
Procesamiento por lotes de múltiples episodios
Para contenido en serie (temporadas de dramas, series de conferencias, listas de reproducción de YouTube), el procesamiento por lotes puede extraer y traducir 20-50 episodios durante la noche sin intervención manual. Importa todos los episodios, configura los ajustes de OCR una vez y deja que la herramienta procese secuencialmente mientras duermes.
¿Cuáles son las limitaciones de la extracción de subtítulos por OCR?
El OCR no es perfecto. Comprender sus limitaciones te ayuda a establecer expectativas realistas y saber cuándo usar enfoques alternativos.
No puede eliminar los subtítulos originales
El OCR extrae el texto — no borra los subtítulos quemados de la imagen del video. Si necesitas que el texto original desaparezca, necesitarías inpainting de video (un proceso separado y computacionalmente costoso). La solución práctica: posiciona tus nuevos subtítulos traducidos arriba o debajo de los originales, o usa una barra de fondo ligeramente opaca.
Texto decorativo y efectos especiales
El texto con gradientes intensos, efectos de brillo, rotación 3D o animación puede no ser reconocido con precisión. El modelo está entrenado con patrones de texto impreso — cuanto más se desvía lo visual de los caracteres impresos estándar, menor es la precisión.
Fuentes de muy baja resolución
A 360p o menos, los caracteres CJK se vuelven ambiguos (los trazos se fusionan, los radicales son indistinguibles). El texto latino se comporta ligeramente mejor a baja resolución debido a las formas más simples de los caracteres. Si la precisión es inaceptable a la resolución nativa, escala primero.
Texto superpuesto e idiomas mixtos
Cuando dos capas de texto se superponen (por ejemplo, un subtítulo sobre una marca de agua, o subtítulos de dos hablantes en la misma posición), el OCR puede producir resultados confusos para la porción superpuesta. Dos formas de manejar esto: definir una región específica para aislar la capa de subtítulos que deseas, o usar filtrado por idioma — por ejemplo, si un video japonés tiene subtítulos incrustados en chino simplificado, puedes filtrar los caracteres japoneses para que solo se reconozca el texto chino, produciendo un resultado mucho más limpio.
Fuentes manuscritas o altamente estilizadas
Los modelos OCR están entrenados principalmente con tipografías impresas. El texto manuscrito, los estilos caligráficos o las fuentes muy decorativas (comunes en el "texto de reacción" de los programas de variedades) tienen tasas de reconocimiento significativamente menores.
Preguntas Frecuentes
¿Qué son los subtítulos incrustados?
Los subtítulos incrustados (también llamados subtítulos quemados o subtítulos abiertos) son texto que se ha renderizado permanentemente en la imagen del video durante la edición o la codificación. Son parte de los píxeles — no puedes desactivarlos, cambiar su idioma ni editarlos sin extracción por OCR. Ejemplos comunes: videos chinos de Douyin/Bilibili, lanzamientos de anime con fansub, rips de DVD antiguos y clips de redes sociales editados con CapCut o herramientas similares.
¿Puede el OCR extraer subtítulos de cualquier idioma?
El OCR moderno maneja la mayoría de las escrituras principales: chino (simplificado y tradicional), japonés (kanji + hiragana + katakana), coreano (hangul), inglés, español, francés, alemán, portugués, ruso, árabe (RTL), tailandés, vietnamita y otros idiomas con escritura latina. Las escrituras CJK requieren modelos especializados debido al gran conjunto de caracteres (solo el chino tiene 6763 caracteres de uso común). GeekLink incluye modelos optimizados para CJK que se ejecutan localmente en tu Mac.
¿Qué tan precisa es la extracción de subtítulos por OCR?
La precisión depende de la resolución del video, el contraste del texto y el estilo de la fuente — no del tipo de contenido de video. Texto blanco limpio con contorno a 720p+: 95-99 %. Texto estilizado o decorativo a 720p: 85-93 %. Fuentes de baja resolución a 480p: 80-90 %. Los caracteres CJK necesitan mayor resolución que el texto latino porque los detalles de los trazos importan más. Para uso profesional, siempre revisa la salida del OCR en un editor de subtítulos antes de publicar.
¿Es la extracción OCR mejor que el reconocimiento de voz?
Resuelven problemas diferentes. Usa OCR cuando los subtítulos ya están quemados en el video y quieres extraer ese texto exacto. Usa reconocimiento de voz cuando no hay subtítulos y quieres transcribir el audio hablado. Si un video tiene subtítulos incrustados Y audio claro, el OCR típicamente da resultados más precisos porque lee lo que ya está escrito en lugar de interpretar audio. Para videos con mala calidad de audio pero subtítulos limpios, el OCR es claramente superior.
¿Puedo eliminar los subtítulos incrustados de un video?
El OCR extrae el contenido de texto pero no elimina visualmente los subtítulos quemados de los fotogramas del video. Eliminarlos requeriría inpainting de video (rellenar el área detrás del texto), que es un proceso separado y computacionalmente costoso. El enfoque práctico: extraer el texto vía OCR, traducirlo y luego superponer nuevos subtítulos encima o adyacentes a los originales.
¿Cuánto tiempo toma la extracción de subtítulos por OCR?
El tiempo de procesamiento depende de la duración del video, la densidad de subtítulos y tu hardware. Puntos de referencia típicos en un Mac con Apple Silicon (M1 o posterior): un video de 10 minutos con ~60 líneas de subtítulos toma de 1 a 3 minutos. Un episodio de drama de 45 minutos toma de 5 a 12 minutos. El procesamiento por lotes se ejecuta en segundo plano — puedes poner en cola toda una temporada de 20 episodios y dejar que se procese durante la noche.
Artículos Relacionados
Divulgación: Esta guía está escrita por el equipo de GeekLink. GeekLink es una herramienta de subtítulos para macOS que incluye extracción por OCR. Todas las cifras de precisión se basan en nuestras pruebas internas con más de 200 videos en chino, japonés, coreano e inglés a diversas resoluciones. Tus resultados pueden variar dependiendo de la calidad del video fuente y el estilo de los subtítulos.