Reconhecimento de Fala

Transcreva automaticamente o texto das legendas a partir do áudio do vídeo

O Que É o Reconhecimento de Fala

O recurso de reconhecimento de fala analisa automaticamente a faixa de áudio do vídeo, converte o conteúdo falado em texto e gera um arquivo de legendas com códigos de tempo. É ideal para vídeos que não possuem legendas existentes, como vlogs gravados, gravações de reuniões, vídeos de cursos, etc.

O resultado é um arquivo de legendas SRT no idioma de origem, que pode ser editado e ajustado no editor de legendas.

Como Usar

Importe vídeos para a biblioteca de mídiasArraste arquivos de vídeo para a biblioteca de mídias do GeekLink, ou clique no botão "Adicionar Vídeos" para selecionar arquivos.
Escolha "Sem legendas, apenas áudio"No painel de configurações, escolha a opção "Sem legendas, apenas áudio" — o GeekLink reconhece as legendas a partir do áudio do vídeo (marque "Traduzir também para outro idioma" se você também quiser uma tradução).
Escolha o idioma de reconhecimentoNo painel de configurações, selecione o idioma de origem do vídeo, como chinês, inglês, japonês, etc.
Escolha o modelo de reconhecimentoSelecione um modelo adequado com base nas suas necessidades de precisão e no desempenho do dispositivo. Recomendamos começar com o modelo padrão "Recomendado".
Clique em "Executar Reconhecimento de Fala"Após confirmar suas configurações, clique no botão para iniciar o reconhecimento. Você pode selecionar múltiplos vídeos para processamento em lote.
Revise e edite os resultadosApós a conclusão do reconhecimento, clique em "Abrir Editor de Legendas" para revisar os resultados da transcrição e fazer correções linha por linha.

Seleção do Modelo de Reconhecimento

O GeekLink oferece múltiplos modelos de reconhecimento com diferentes equilíbrios entre precisão e velocidade. O arquivo do modelo é baixado automaticamente na primeira vez que você usar um modelo específico.

Modelo	Tamanho do Arquivo	Uso de Memória	Precisão	Velocidade	Ideal Para
Mais Rápido	75 MB	~200 MB	Baixa	Mais rápido	Pré-visualização rápida, testes
Rápido	142 MB	~300 MB	Regular	Rápido	Uso cotidiano, menor exigência de precisão
Recomendado	466 MB	~600 MB	Alta	Médio	Escolha padrão, equilíbrio entre precisão e velocidade
Alta Precisão	1.5 GB	~2 GB	Alta	Mais lento	Uso profissional, ambientes ruidosos
Máxima Precisão + Rápido	1.6 GB	~2.5 GB	Máxima	Relativamente rápido	Máxima precisão mantendo velocidade
Máxima Precisão	2.9 GB	~4 GB	Máxima	Mais lento	Precisão absoluta, velocidade não é prioridade

Dica Modelos maiores oferecem maior precisão, mas são mais lentos e usam mais memória. Se o seu Mac tem menos de 8 GB de memória, recomendamos usar o modelo "Recomendado" ou um menor.

Configurações Avançadas

Clique em "Mais Configurações" no aplicativo para expandir as opções avançadas:

Correção de Pontuação por IA PRO

Corrige apenas a pontuação, sem alterar o texto em si. Mais eficaz para chinês -- o reconhecimento de fala em chinês frequentemente omite pontuação. Quando ativado, vírgulas, pontos e outras marcas de pontuação são adicionados automaticamente, melhorando significativamente a legibilidade das legendas.

Modo Programa de Variedades

Otimizado para programas de variedades, música, filmes antigos e outros conteúdos com muito áudio de fundo, para melhorar a precisão do reconhecimento nessas condições. Não recomendado para diálogos longos e contínuos. Ele também é incluído automaticamente quando a Linha do Tempo de Alta Precisão está ativada, então você não precisa ativar os dois.

Reconhecer e Traduzir em Uma Única Etapa

Você não precisa de uma etapa separada para traduzir. No painel de Reconhecimento de Fala, marque "Traduzir também para outro idioma", escolha o idioma de destino e um mecanismo de tradução — o GeekLink transcreve o áudio e o traduz em uma única execução, entregando tanto as legendas originais quanto as traduzidas. Veja a página de Tradução para as opções de mecanismo.

Quando dividir em duas etapas: se a precisão for importante, reconheça primeiro, corrija as legendas de origem no editor e depois traduza — uma entrada limpa produz uma tradução melhor. Combinar as duas é mais rápido; fazê-las separadamente oferece um ponto de verificação para corrigir erros antes que eles se propaguem para a tradução.

Perguntas Frequentes

Por que o primeiro uso de um modelo é tão lento?

Na primeira vez que você usa um novo modelo, o arquivo do modelo é baixado automaticamente (veja a tabela de tamanhos acima). A velocidade de download depende da sua conexão de internet. Após a conclusão do download, os usos subsequentes daquele modelo iniciarão imediatamente, sem necessidade de novo download.

E se os resultados do reconhecimento contiverem erros?

O reconhecimento de fala nunca é 100% preciso, especialmente com muito ruído de fundo, fala rápida ou sotaques fortes. Recomendamos abrir o editor de legendas após o reconhecimento para revisar e corrigir os resultados linha por linha. Se certas palavras são frequentemente reconhecidas incorretamente, você pode usar as "Regras de Autocorreção" PRO para corrigir erros comuns em lote.

Por que não há pontuação no resultado?

O modelo de reconhecimento de fala em si pode não gerar pontuação, especialmente para chinês. Ative a "Correção de Pontuação por IA" PRO para adicionar pontuação automaticamente e obter legendas mais legíveis.