Reconhecimento de Fala
Transcreva automaticamente o texto das legendas a partir do áudio do vídeo
O Que É o Reconhecimento de Fala
O recurso de reconhecimento de fala analisa automaticamente a faixa de áudio do vídeo, converte o conteúdo falado em texto e gera um arquivo de legendas com códigos de tempo. É ideal para vídeos que não possuem legendas existentes, como vlogs gravados, gravações de reuniões, vídeos de cursos, etc.
O resultado é um arquivo de legendas SRT no idioma de origem, que pode ser editado e ajustado no editor de legendas.
Como Usar
- Importe vídeos para a biblioteca de mídiasArraste arquivos de vídeo para a biblioteca de mídias do GeekLink, ou clique no botão "Adicionar Vídeos" para selecionar arquivos.
- Mude para a aba "Reconhecimento de Fala"Selecione a aba "Reconhecimento de Fala" no topo da interface principal.
- Escolha o idioma de reconhecimentoNo painel de configurações, selecione o idioma de origem do vídeo, como chinês, inglês, japonês, etc.
- Escolha o modelo de reconhecimentoSelecione um modelo adequado com base nas suas necessidades de precisão e no desempenho do dispositivo. Recomendamos começar com o modelo padrão "Recomendado".
- Clique em "Executar Reconhecimento de Fala"Após confirmar suas configurações, clique no botão para iniciar o reconhecimento. Você pode selecionar múltiplos vídeos para processamento em lote.
- Revise e edite os resultadosApós a conclusão do reconhecimento, clique em "Abrir Editor de Legendas" para revisar os resultados da transcrição e fazer correções linha por linha.
Seleção do Modelo de Reconhecimento
O GeekLink oferece múltiplos modelos de reconhecimento com diferentes equilíbrios entre precisão e velocidade. O arquivo do modelo é baixado automaticamente na primeira vez que você usar um modelo específico.
| Modelo | Tamanho do Arquivo | Uso de Memória | Precisão | Velocidade | Ideal Para |
|---|---|---|---|---|---|
| Mais Rápido | 75 MB | ~200 MB | Baixa | Mais rápido | Pré-visualização rápida, testes |
| Rápido | 142 MB | ~300 MB | Regular | Rápido | Uso cotidiano, menor exigência de precisão |
| Recomendado | 466 MB | ~600 MB | Alta | Médio | Escolha padrão, equilíbrio entre precisão e velocidade |
| Alta Precisão | 1.5 GB | ~2 GB | Alta | Mais lento | Uso profissional, ambientes ruidosos |
| Máxima Precisão + Rápido | 1.6 GB | ~2.5 GB | Máxima | Relativamente rápido | Máxima precisão mantendo velocidade |
| Máxima Precisão | 2.9 GB | ~4 GB | Máxima | Mais lento | Precisão absoluta, velocidade não é prioridade |
Configurações Avançadas
Clique em "Mais Configurações" no aplicativo para expandir as opções avançadas:
Máximo de Caracteres por Linha de Legenda (Idioma de Origem)
Controla o comprimento máximo do texto de uma única linha de legenda, variando de 10 a 200. Deixe em branco para sem limite. Útil para gerenciar a densidade de leitura, especialmente para legendas em chinês -- o chinês não possui espaçamento natural entre palavras, então linhas longas sem quebras podem prejudicar a experiência de visualização.
Correção de Pontuação por IA PRO
Corrige apenas a pontuação, sem alterar o texto em si. Mais eficaz para chinês -- o reconhecimento de fala em chinês frequentemente omite pontuação. Quando ativado, vírgulas, pontos e outras marcas de pontuação são adicionados automaticamente, melhorando significativamente a legibilidade das legendas.
Modo Programa de Variedades
Otimizado para programas de variedades, reality shows e outros cenários com muito ruído de fundo e diálogos rápidos entre múltiplos participantes. Quando ativado, a estratégia de reconhecimento é ajustada para lidar melhor com ambientes ruidosos e trocas rápidas de fala.
Perguntas Frequentes
Por que o primeiro uso de um modelo é tão lento?
Na primeira vez que você usa um novo modelo, o arquivo do modelo é baixado automaticamente (veja a tabela de tamanhos acima). A velocidade de download depende da sua conexão de internet. Após a conclusão do download, os usos subsequentes daquele modelo iniciarão imediatamente, sem necessidade de novo download.
E se os resultados do reconhecimento contiverem erros?
O reconhecimento de fala nunca é 100% preciso, especialmente com muito ruído de fundo, fala rápida ou sotaques fortes. Recomendamos abrir o editor de legendas após o reconhecimento para revisar e corrigir os resultados linha por linha. Se certas palavras são frequentemente reconhecidas incorretamente, você pode usar as "Regras de Autocorreção" PRO para corrigir erros comuns em lote.
Por que não há pontuação no resultado?
O modelo de reconhecimento de fala em si pode não gerar pontuação, especialmente para chinês. Ative a "Correção de Pontuação por IA" PRO para adicionar pontuação automaticamente e obter legendas mais legíveis.