语音识别

从视频音频中自动转写出字幕文本

什么是语音识别

语音识别功能可以自动分析视频中的音频轨道,将语音内容转写为文字,生成带有时间轴的字幕文件。适用于没有现成字幕的视频,例如自己录制的 Vlog、会议录像、课程视频等。

输出结果为源语言的 SRT 字幕文件,可以在字幕编辑器中进一步修改和调整。

使用步骤

  1. 导入视频到素材库将视频文件拖入极客连的素材库,或点击「添加视频」按钮选择文件。
  2. 切换到「语音识别」Tab在主界面顶部选择「语音识别」标签页。
  3. 选择识别语言在设置面板中选择视频的源语言,例如中文、英文、日文等。
  4. 选择识别模型根据你的精度需求和设备性能选择合适的模型。建议从默认的「推荐」开始。
  5. 点击「运行 语音识别」确认设置后,点击按钮开始识别。批量选中多个视频可同时处理。
  6. 查看和修改结果识别完成后,点击「打开字幕编辑器」查看转写结果,逐条校对和修改。

识别模型选择

极客连提供多种识别模型,精度和速度各有侧重。首次使用某个模型时会自动下载模型文件。

模型 文件大小 内存占用 精度 速度 适用场景
最快 75 MB ~200 MB 最快 快速预览、测试
快速 142 MB ~300 MB 一般 日常使用、对精度要求不高
推荐 466 MB ~600 MB 较高 中等 默认推荐,精度和速度平衡
高精度 1.5 GB ~2 GB 较慢 专业场景、背景噪音较多
最高精度+快 1.6 GB ~2.5 GB 最高 较快 追求最高精度同时保持速度
最高精度 2.9 GB ~4 GB 最高 最慢 极致精度,不在意速度
提示 模型越大,精度越高但速度越慢、内存占用越多。如果你的 Mac 内存 8GB 以下,建议使用「推荐」或更小的模型。

更多设置

在应用中点击「更多设置」展开高级选项:

源语言每条字幕字数上限

控制单条字幕的最大文字长度,范围 10~200,留空表示不限制。适合控制阅读密度,特别是中文字幕——中文没有天然的词间空格,长句不换行会影响观看体验。

AI 标点修正 PRO

仅修正标点符号,不改动文字内容。对中文场景效果最明显——中文语音识别经常缺少标点,开启后可自动补全逗号、句号等标点符号,显著提升字幕可读性。

综艺模式

针对综合节目、真人秀等背景噪音重、多人快速对话的场景优化。开启后会调整识别策略,更好地处理嘈杂环境和快速语音切换。

常见问题

首次使用某个模型很慢?

首次使用新模型时会自动下载模型文件(大小见上表),下载速度取决于网络环境。下载完成后,后续使用该模型会直接启动,无需重复下载。

识别结果有错误怎么办?

语音识别不可能 100% 准确,特别是在背景噪音较大、语速很快或口音较重的情况下。建议识别完成后打开字幕编辑器逐条修改。如果某些词汇经常被误识别,可以使用「自动纠错规则」PRO 批量纠正常见错误。

识别出来没有标点?

语音识别模型本身可能不会输出标点符号,尤其是中文场景。开启「AI 标点修正」PRO 可自动补全标点,让字幕更易阅读。