语音识别
从视频音频中自动转写出字幕文本
什么是语音识别
语音识别功能可以自动分析视频中的音频轨道,将语音内容转写为文字,生成带有时间轴的字幕文件。适用于没有现成字幕的视频,例如自己录制的 Vlog、会议录像、课程视频等。
输出结果为源语言的 SRT 字幕文件,可以在字幕编辑器中进一步修改和调整。
使用步骤
- 导入视频到素材库将视频文件拖入极客连的素材库,或点击「添加视频」按钮选择文件。
- 切换到「语音识别」Tab在主界面顶部选择「语音识别」标签页。
- 选择识别语言在设置面板中选择视频的源语言,例如中文、英文、日文等。
- 选择识别模型根据你的精度需求和设备性能选择合适的模型。建议从默认的「推荐」开始。
- 点击「运行 语音识别」确认设置后,点击按钮开始识别。批量选中多个视频可同时处理。
- 查看和修改结果识别完成后,点击「打开字幕编辑器」查看转写结果,逐条校对和修改。
识别模型选择
极客连提供多种识别模型,精度和速度各有侧重。首次使用某个模型时会自动下载模型文件。
| 模型 | 文件大小 | 内存占用 | 精度 | 速度 | 适用场景 |
|---|---|---|---|---|---|
| 最快 | 75 MB | ~200 MB | 低 | 最快 | 快速预览、测试 |
| 快速 | 142 MB | ~300 MB | 一般 | 快 | 日常使用、对精度要求不高 |
| 推荐 | 466 MB | ~600 MB | 较高 | 中等 | 默认推荐,精度和速度平衡 |
| 高精度 | 1.5 GB | ~2 GB | 高 | 较慢 | 专业场景、背景噪音较多 |
| 最高精度+快 | 1.6 GB | ~2.5 GB | 最高 | 较快 | 追求最高精度同时保持速度 |
| 最高精度 | 2.9 GB | ~4 GB | 最高 | 最慢 | 极致精度,不在意速度 |
提示
模型越大,精度越高但速度越慢、内存占用越多。如果你的 Mac 内存 8GB 以下,建议使用「推荐」或更小的模型。
更多设置
在应用中点击「更多设置」展开高级选项:
源语言每条字幕字数上限
控制单条字幕的最大文字长度,范围 10~200,留空表示不限制。适合控制阅读密度,特别是中文字幕——中文没有天然的词间空格,长句不换行会影响观看体验。
AI 标点修正 PRO
仅修正标点符号,不改动文字内容。对中文场景效果最明显——中文语音识别经常缺少标点,开启后可自动补全逗号、句号等标点符号,显著提升字幕可读性。
综艺模式
针对综合节目、真人秀等背景噪音重、多人快速对话的场景优化。开启后会调整识别策略,更好地处理嘈杂环境和快速语音切换。
常见问题
首次使用某个模型很慢?
首次使用新模型时会自动下载模型文件(大小见上表),下载速度取决于网络环境。下载完成后,后续使用该模型会直接启动,无需重复下载。
识别结果有错误怎么办?
语音识别不可能 100% 准确,特别是在背景噪音较大、语速很快或口音较重的情况下。建议识别完成后打开字幕编辑器逐条修改。如果某些词汇经常被误识别,可以使用「自动纠错规则」PRO 批量纠正常见错误。
识别出来没有标点?
语音识别模型本身可能不会输出标点符号,尤其是中文场景。开启「AI 标点修正」PRO 可自动补全标点,让字幕更易阅读。