La queja número uno sobre las herramientas de transcripción con IA como Whisper es que la música de fondo genera subtítulos fantasma: texto sin sentido, letras de canciones mal interpretadas o frases repetidas que aparecen donde nadie está hablando. Si alguna vez procesaste un video con Whisper y obtuviste líneas como "Thank you for watching" o palabras en inglés al azar durante una introducción instrumental, conoces el problema. GeekLink lo resuelve con VAD (Detección de Actividad Vocal) integrado que detecta y silencia automáticamente los segmentos sin voz antes de la transcripción, para que tus subtítulos solo contengan lo que las personas realmente dicen.
La música de fondo es el asesino silencioso de la calidad de transcripción con IA. Cuando alimentas un video con música de fondo a Whisper o cualquier motor de conversión de voz a texto, el modelo no distingue entre una voz humana y un riff de guitarra. Intenta transcribir todo lo que escucha, y cuando no hay voz para transcribir, alucina, generando subtítulos fantasma que van desde fragmentos sin sentido hasta oraciones que suenan convincentes pero que nadie dijo jamás. Verás letras de canciones (a veces en el idioma incorrecto), frases repetidas como "Thank you" o "Subscribe", o texto completamente sin sentido.
Esto afecta a casi todos los tipos de contenido de video: videos de YouTube con música de intro/outro, podcasts con transiciones musicales, programas de variedades con BGM constante, videos de capacitación corporativa con pistas de fondo, vlogs con música licenciada, videos de bodas con sets de DJ y transmisiones de gaming con bandas sonoras de juegos. Cuanto más prominente es la música, peores son las alucinaciones. Incluso la música de fondo suave puede generar subtítulos fantasma durante las pausas en el habla.
¿Por qué sucede esto? Whisper y modelos similares están entrenados para encontrar habla en el audio. Cuando el audio contiene música pero no habla, el modelo no produce silencio; intenta encontrar patrones que coincidan con el habla y genera su mejor estimación, que casi siempre es incorrecta. Sin ningún prefiltrado que le diga al modelo "aquí no hay habla, salta esta parte", alucina texto para cada segundo de audio. Los hilos de Reddit están llenos de personas preguntando variaciones de "¿Por qué Whisper sigue transcribiendo mi música de fondo como palabras en inglés al azar?" y "¿Cómo detengo los subtítulos fantasma en segmentos musicales?" La respuesta es el prefiltrado con VAD.
La solución manual es dolorosa: abrir el video en Audacity, identificar y eliminar los segmentos de solo música, aplicar filtros de reducción de ruido, exportar el audio limpio y luego reimportarlo en tu herramienta de transcripción. Esto ya es tedioso para un solo video: necesitas 15-30 minutos de edición de audio cuidadosa antes de empezar a transcribir. Para cualquiera que procese múltiples videos, es completamente impráctico. Si tienes 50 videos de YouTube o una temporada de un programa para subtitular, dedicar 15 minutos por video solo en preparación de audio suma más de 12 horas de trabajo manual.
Los servicios de transcripción en la nube cobran por minuto de audio y la mayoría tiene exactamente el mismo problema con la música de fondo. Estás pagando para transcribir música que no debería transcribirse. Algunos servicios ofrecen VAD como complemento premium, pero sigues subiendo tus videos a los servidores de otra persona y pagando tarifas continuas. La mayoría de las interfaces de escritorio de Whisper no incluyen VAD en absoluto: simplemente pasan el audio sin procesar a Whisper y esperan lo mejor.
Sí. El VAD detecta la actividad vocal incluyendo el canto, así que si una persona está cantando en tu video, esos segmentos se mantendrán y se transcribirán. El VAD filtra específicamente la música instrumental, los efectos de sonido y el audio no vocal. Si tu video tiene un cantante interpretando sobre una pista de acompañamiento, los segmentos vocales se preservan mientras los intermedios puramente instrumentales se filtran.
El segmento de introducción con solo música será silenciado automáticamente por el VAD, y la transcripción comienza cuando el presentador empieza a hablar. Si el podcast usa música que suena debajo del habla (una técnica común para transiciones), el VAD mantiene esos segmentos activos porque detecta la voz humana sobre la música. El modelo de reconocimiento de voz maneja razonablemente bien el habla sobre música; son los segmentos de solo música los que causan alucinaciones, y eso es lo que el VAD elimina.
La Detección de Actividad Vocal analiza la forma de onda del audio para clasificar cada segmento como voz o no-voz. GeekLink usa Silero VAD, un modelo de red neuronal entrenado específicamente para esta tarea. Se ejecuta localmente en tu Mac y procesa audio en tiempo real, produciendo un mapa de qué rangos de tiempo contienen voz humana. Solo esos rangos se envían al motor de reconocimiento de voz. El modelo tiene alta precisión para distinguir la voz humana de la música, el ruido, los aplausos y el silencio.
De forma insignificante. El análisis VAD añade solo unos segundos por video independientemente de la duración. De hecho, a menudo hace que el proceso general sea más rápido porque el motor de reconocimiento de voz tiene menos audio que procesar: se salta todos los segmentos sin voz por completo. El tiempo ahorrado al no tener que revisar y eliminar manualmente los subtítulos fantasma después supera con creces la mínima sobrecarga del VAD.
Sí. El prefiltrado VAD se puede desactivar en la configuración de GeekLink si prefieres una salida de transcripción sin procesar. Esto puede ser útil en casos raros donde intencionalmente quieras transcribir audio sin voz, o para pruebas y comparaciones. Por defecto, el VAD está habilitado porque produce resultados significativamente más limpios para la gran mayoría de los videos.