语音识别

从视频音频中自动转写出字幕文本

什么是语音识别

语音识别功能可以自动分析视频中的音频轨道，将语音内容转写为文字，生成带有时间轴的字幕文件。适用于没有现成字幕的视频，例如自己录制的 Vlog、会议录像、课程视频等。

输出结果为原文的 SRT 字幕文件，可以在字幕编辑器中进一步修改和调整。

导入视频到素材库将视频文件拖入极客连的素材库，或点击「添加视频」按钮选择文件。
选择「没有字幕，只有音频」在设置面板中选择「没有字幕，只有音频」选项——极客连会从视频音频中识别出字幕（如果同时想要译文，勾选「同时翻译为其他语言」）。
选择识别语言在设置面板中选择视频的原文语言，例如中文、英文、日文等。
选择识别模型根据你的精度需求和设备性能选择合适的模型。建议从默认的「推荐」开始。
点击「运行语音识别」确认设置后，点击按钮开始识别。批量选中多个视频可同时处理。
查看和修改结果识别完成后，点击「打开字幕编辑器」查看转写结果，逐条校对和修改。

极客连提供多种识别模型，精度和速度各有侧重。首次使用某个模型时会自动下载模型文件。

提示模型越大，精度越高但速度越慢、内存占用越多。如果你的 Mac 内存 8GB 以下，建议使用「推荐」或更小的模型。

翻译不需要单独一步。在语音识别面板上勾选「同时翻译为其他语言」，然后选择目标语言和翻译引擎——极客连会在一次运行中完成音频转写和翻译，同时给你原文字幕和译文字幕。翻译引擎的选择详见翻译页面。

什么时候应该拆成两步：如果对准确度有要求，先识别，在编辑器中校对好原文字幕，再进行翻译——干净的原文能得到更好的译文。合二为一更快；分开做则多一个检查点，让你在错误带入译文之前先修正它们。

首次使用某个模型很慢？

首次使用新模型时会自动下载模型文件（大小见上表），下载速度取决于网络环境。下载完成后，后续使用该模型会直接启动，无需重复下载。

识别结果有错误怎么办？

语音识别不可能 100% 准确，特别是在背景噪音较大、语速很快或口音较重的情况下。建议识别完成后打开字幕编辑器逐条修改。如果某些词汇经常被误识别，可以使用「自动纠错规则」PRO 批量纠正常见错误。

识别出来没有标点？

语音识别模型本身可能不会输出标点符号，尤其是中文场景。开启「AI 标点修正」PRO 可自动补全标点，让字幕更易阅读。