文字识别 (OCR)

从视频画面中提取已有的烧录字幕

基础版与 Pro 版 基础版可免费提取 5 分钟以内的视频字幕。Pro 版无时长限制。

什么是文字识别 (OCR)

文字识别 (OCR) 功能可以从视频画面中提取已有的烧录字幕(硬字幕),生成可编辑的 SRT 字幕文件。适用于视频中已经有可见字幕、但没有独立字幕文件的情况,例如从网络下载的带字幕视频、电视节目录制等。

与语音识别不同,OCR 分析的是视频画面而非音频轨道,因此它能识别任何已经"烧录"在画面上的文字。

使用步骤

  1. 导入视频到素材库将视频文件拖入极客连的素材库,或点击「添加视频」按钮选择文件。
  2. 切换到「文字识别」Tab在主界面顶部选择「文字识别」标签页。
  3. 选择源语言选择视频字幕的 OCR 识别语言。
  4. 点击「运行 文字识别」确认设置后,点击按钮开始处理。
  5. 颜色采样(可选)如果没有勾选「提取全部文字」,会进入颜色选择器步骤——在视频帧上涂抹字幕文字来采样颜色(详见下方说明)。
  6. 确认颜色在颜色选择器中完成涂抹后,点击「确认颜色」继续。
  7. 等待 OCR 完成系统自动逐帧扫描视频画面,提取文字内容。
  8. 查看结果完成!打开字幕编辑器查看和编辑识别结果。

颜色选择器

视频画面中除了字幕文字,往往还有大量其他文字内容——水印、Logo、画面内的文字标识等。颜色采样的目的是帮助 OCR 引擎聚焦到你想提取的目标字幕,通过字幕文字的颜色来区分它们。

OCR 颜色选择器 — 在字幕笔画上涂抹采样颜色

操作方式

提示 尽量在字幕文字笔画上涂抹,避免涂到字幕周围的背景区域。采样越精确,识别效果越好。画面中红色数字标注的是检测到的文字行高(像素),可以据此设置字体高度过滤范围。

OCR 设置详解

设置 说明 建议
源语言 OCR 识别的语言 选择视频字幕的语言
字幕区域 限制扫描范围:底部 / 底部20% / 上半部分 / 全屏 字幕通常在底部,选「底部」或「底部20%」可减少误识别并加快速度
检测间隔 抽帧频率:0.25s / 0.3s / 0.5s / 1.0s 默认 0.5s 够用;字幕切换很快的视频可降到 0.25s
过滤文字 排除指定语种字符 画面中有不需要的日文/韩文/泰文等时使用
提取全部文字 跳过颜色采样,提取画面中所有文字 字幕颜色不固定或多种颜色时使用
使用之前的样式预设 复用上次的颜色采样 同系列视频批处理时省去重复采样
AI 增强 PRO 标点修正 + 视觉复查,可提高 OCR 质量 处理速度会变慢,根据需要开启

常见问题

为什么识别出很多乱码?

可能是颜色采样不够精确,导致 OCR 引擎把背景纹理也当作文字处理了。建议重新采样,尽量只涂抹字幕文字的笔画区域。也可以换一帧字幕更清晰的画面重新操作。

支持哪些语言?

目前 OCR 支持以下语言:中文简体、中文繁体、中英双语、英文、日文、韩文、越南语。

为什么有些字幕没有被识别到?

检测间隔可能太大,字幕一闪而过没有被采样到。尝试将检测间隔降低到 0.25s,可以捕获切换更快的字幕。代价是处理时间会相应增加。