Does VAD work when someone is singing in the video?

Yes. VAD detects vocal activity including singing, so vocal performances are preserved and transcribed. The VAD specifically filters out instrumental music, sound effects, and non-vocal audio.

What about podcast intros with background music?

Music-only intro segments are automatically muted by VAD. Transcription starts when the host begins speaking. If music plays underneath speech, VAD keeps those segments active because it detects the human voice.

How does Voice Activity Detection (VAD) work?

VAD analyzes the audio waveform to classify each segment as speech or non-speech. GeekLink uses Silero VAD, a neural network model that runs locally and is highly accurate at distinguishing human voice from music, noise, and silence.

Does VAD slow down processing?

Negligibly. VAD analysis adds only a few seconds per video. It often makes overall processing faster because the speech recognition engine skips non-speech segments entirely.

Can I disable VAD if I want raw transcription?

Yes. VAD pre-filtering can be toggled off in GeekLink's settings if you prefer raw transcription output without any pre-filtering.

Como corrigir interferência de música de fundo em legendas de vídeo

A reclamação número um sobre ferramentas de transcrição com IA como o Whisper é que a música de fundo gera legendas fantasma — texto sem sentido, letras de músicas mal interpretadas ou frases repetidas aparecendo onde ninguém está falando. Se você já processou um vídeo com o Whisper e obteve linhas como "Thank you for watching" ou palavras em inglês aleatórias durante uma introdução instrumental, você conhece o problema. O GeekLink resolve isso com VAD (Detecção de Atividade Vocal) integrado que detecta e silencia automaticamente segmentos sem fala antes da transcrição, para que suas legendas contenham apenas o que as pessoas realmente dizem.

O problema da música de fundo

A música de fundo é a assassina silenciosa da qualidade de transcrição com IA. Quando você alimenta um vídeo com música de fundo no Whisper ou qualquer motor de conversão de voz para texto, o modelo não sabe a diferença entre uma voz humana e um riff de guitarra. Ele tenta transcrever tudo que ouve e, quando não há fala para transcrever, alucina — gerando legendas fantasma que vão de fragmentos sem sentido a frases que soam confiantes mas que ninguém nunca disse. Você verá letras de músicas (às vezes no idioma errado), frases repetidas como "Thank you" ou "Subscribe", ou texto completamente sem sentido.

Isso atinge quase todos os tipos de conteúdo de vídeo: vídeos do YouTube com música de intro/outro, podcasts com transições musicais, programas de variedades com BGM constante, vídeos de treinamento corporativo com faixas de fundo, vlogs com música licenciada, vídeos de casamento com sets de DJ e streams de games com trilhas sonoras de jogos. Quanto mais proeminente a música, piores são as alucinações. Até música de fundo suave pode gerar legendas fantasma durante pausas na fala.

Por que isso acontece? O Whisper e modelos semelhantes são treinados para encontrar fala no áudio. Quando o áudio contém música mas não fala, o modelo não produz silêncio — ele tenta encontrar padrões que correspondam à fala e gera sua melhor estimativa, que quase sempre está errada. Sem qualquer pré-filtragem para dizer ao modelo "não há fala aqui, pule esta parte", ele alucina texto para cada segundo de áudio. Os fóruns do Reddit estão cheios de pessoas perguntando variações de "Por que o Whisper continua transcrevendo minha música de fundo como palavras em inglês aleatórias?" e "Como eu paro legendas fantasma em segmentos musicais?" A resposta é pré-filtragem com VAD.

Por que a edição manual de áudio não escala

A solução manual é dolorosa: abrir o vídeo no Audacity, identificar e remover segmentos somente de música, aplicar filtros de redução de ruído, exportar o áudio limpo e depois reimportar na ferramenta de transcrição. Isso já é tedioso para um único vídeo — são 15-30 minutos de edição cuidadosa de áudio antes mesmo de começar a transcrever. Para quem precisa processar múltiplos vídeos, é completamente impraticável. Se você tem 50 vídeos do YouTube ou uma temporada de um programa para legendar, gastar 15 minutos por vídeo só na preparação do áudio soma mais de 12 horas de trabalho manual.

Serviços de transcrição na nuvem cobram por minuto de áudio e a maioria deles tem exatamente o mesmo problema com música de fundo. Você está pagando para transcrever música que não deveria ser transcrita. Alguns serviços oferecem VAD como complemento premium, mas você ainda precisa enviar seus vídeos para os servidores de outra pessoa e pagar taxas contínuas. A maioria das interfaces de desktop do Whisper não inclui VAD — apenas passam o áudio bruto direto para o Whisper e torcem pelo melhor.

Como obter legendas limpas com o VAD integrado do GeekLink

Importe seu vídeo para o GeekLink — Arraste e solte seu arquivo de vídeo no GeekLink. Ele aceita MP4, MKV, AVI, MOV e todos os formatos de vídeo comuns. Não é necessário extrair áudio ou fazer pré-processamento.
Selecione o idioma de origem e execute o reconhecimento de voz — Escolha o idioma falado no seu vídeo e inicie a transcrição. A pré-filtragem VAD está habilitada por padrão — você não precisa configurar nada.
O VAD filtra automaticamente o áudio sem fala — Antes que o áudio chegue ao motor de reconhecimento de voz, o Silero VAD do GeekLink analisa a forma de onda e classifica cada segmento como fala ou não-fala. Introduções somente musicais, intervalos de BGM, risadas da plateia e efeitos sonoros são automaticamente silenciados para que o modelo de transcrição nunca os veja.
Revise os resultados de transcrição limpos — A saída contém apenas as palavras realmente faladas. Sem legendas fantasma de segmentos musicais, sem texto sem sentido de efeitos sonoros, sem texto alucinado de pausas silenciosas. Revise as legendas no editor integrado do GeekLink.
Exporte como SRT ou grave as legendas no vídeo — Salve suas legendas limpas como arquivo SRT para uso em qualquer reprodutor de vídeo, ou grave-as diretamente no vídeo como legendas permanentes.

Por que o GeekLink é a melhor ferramenta para isso

VAD integrado — sem edição manual de áudio: O GeekLink inclui o Silero VAD como etapa nativa de pré-processamento. Não é necessário abrir o Audacity, separar faixas de áudio ou instalar ferramentas externas. O VAD é executado automaticamente antes de cada trabalho de transcrição, filtrando segmentos sem fala para que o Whisper processe apenas a voz humana real.
Funciona com qualquer idioma: O VAD é independente de idioma — ele detecta padrões de voz humana independentemente do idioma falado. Seja seu vídeo em inglês, japonês, espanhol, coreano ou qualquer outro idioma, o VAD identifica corretamente os segmentos de fala vs. não-fala sem qualquer configuração específica de idioma.
Lida com todos os tipos de ruído: O modelo Silero VAD é treinado para distinguir a voz humana de uma ampla gama de áudio sem fala: música de fundo, faixas instrumentais, efeitos sonoros, risadas da plateia, aplausos, ruído ambiente, estática e silêncio. Ele não apenas procura música — especificamente procura a voz humana e filtra todo o resto.
Processamento em lote: Tem mais de 50 vídeos com problemas de música de fundo? Importe todos e deixe o GeekLink processar o lote inteiro com pré-filtragem VAD. Cada vídeo recebe a mesma filtragem automática de ruído sem configuração individual. Processe durante a noite e volte para encontrar legendas limpas de toda a sua biblioteca.
Processamento 100% local: Tudo roda no seu Mac — o modelo VAD, o motor de reconhecimento de voz e a exportação de legendas. Seus vídeos nunca são enviados para nenhum servidor. Sem contas na nuvem, sem cobrança por minuto, sem preocupações de privacidade ao enviar conteúdo sensível para APIs de terceiros.

Perguntas frequentes

Funciona quando alguém está cantando?

Sim. O VAD detecta atividade vocal incluindo canto, então se uma pessoa está cantando no seu vídeo, esses segmentos serão mantidos e transcritos. O VAD filtra especificamente música instrumental, efeitos sonoros e áudio não-vocal. Se seu vídeo tem um cantor se apresentando sobre uma faixa de acompanhamento, os segmentos vocais são preservados enquanto os intervalos puramente instrumentais são filtrados.

E quanto a introduções de podcasts com música?

O segmento de introdução somente musical será automaticamente silenciado pelo VAD, e a transcrição começa quando o apresentador começa a falar. Se o podcast usa música que toca sob a fala (uma técnica comum para transições), o VAD mantém esses segmentos ativos porque detecta a voz humana sobre a música. O modelo de reconhecimento de voz lida razoavelmente bem com fala sobre música — são os segmentos somente musicais que causam alucinações, e é isso que o VAD elimina.

Como o VAD realmente funciona?

A Detecção de Atividade Vocal analisa a forma de onda do áudio para classificar cada segmento como fala ou não-fala. O GeekLink usa o Silero VAD, um modelo de rede neural especificamente treinado para esta tarefa. Ele roda localmente no seu Mac e processa áudio em tempo real, produzindo um mapa de quais intervalos de tempo contêm voz humana. Apenas esses intervalos são enviados ao motor de reconhecimento de voz. O modelo tem alta precisão na distinção entre voz humana e música, ruído, aplausos e silêncio.

O VAD deixa o processamento mais lento?

De forma insignificante. A análise VAD adiciona apenas alguns segundos por vídeo, independentemente da duração. Na verdade, muitas vezes torna o processo geral mais rápido porque o motor de reconhecimento de voz tem menos áudio para processar — ele pula todos os segmentos sem fala completamente. O tempo economizado por não precisar revisar e deletar manualmente legendas fantasma depois supera em muito a mínima sobrecarga do VAD.

Posso desativar o VAD se quiser?

Sim. A pré-filtragem VAD pode ser desativada nas configurações do GeekLink se você preferir uma saída de transcrição bruta sem qualquer pré-filtragem. Isso pode ser útil em casos raros onde você intencionalmente deseja transcrever áudio sem fala, ou para testes e comparações. Por padrão, o VAD está habilitado porque produz resultados significativamente mais limpos para a grande maioria dos vídeos.