核心要点

  • 大多数字幕 OCR 工具会把画面上所有文字都识别出来——水印、台标、画面贴图会和真正的字幕一起混进你的 SRT 文件。
  • 解决办法是用四个信号过滤 OCR 要保留的文字:颜色、字号、区域、语言。真正的字幕通常是同一种颜色、同一个大小、固定在画面的同一条带上、同一种语言;水印和台标至少在其中一项上不一样。
  • 极客连让你在提取前就设好这些过滤——从样本帧里点选字幕颜色、设定最小和最大字高、选择字幕区域(下半部分、底部 20%、上半部分或全屏),并设定字幕语言,让其它书写系统的文字自动被丢弃。
  • 全程在 Apple 芯片 Mac 上离线运行,导出干净的 SRT——不上传云端,也不用手动删水印行。
  • 极客连有免费版;Pro 为 $12.99/月 或 $99/年,OCR 支持 90+ 种语言。

为什么字幕 OCR 会把水印和台标也识别进来?

OCR 会读取画面里的每一处文字,而不只是字幕。「硬字幕」(烧录字幕)本质上只是像素,没有单独的字幕轨可以复制。所以 OCR 工具会扫描每一帧、找出所有像文字的东西并读出来。如果画面里还有台标、水印、用户名、「关注」浮层或歌名,OCR 也会一并读进去。

结果就是一份对白和垃圾混在一起的 SRT:水印几乎每行都重复出现,台标识别成乱码,画面贴字也混了进来。手动清理这些,等于白用了 OCR。

关键在于:字幕和画面上其它文字,在几个可量化的维度上不一样。对白字幕通常是单一固定颜色(常见白色或黄色带描边)、固定字高、固定落在画面的同一条横带上;水印往往半透明、更小、缩在角落;台标是固定贴图;画面贴字常常更大或颜色不同。只要告诉 OCR 引擎「字幕长什么样」,它就能留下字幕、丢掉其余。

怎样只提取字幕、跳过其它一切?

不熟悉从视频里抠硬字幕?可以先看入门篇如何用 OCR 提取硬字幕。本文只讲入门篇略过的一件事:只留对白,丢掉水印、台标和画面文字。

你用四种过滤约束 OCR——颜色、字号、区域、语言——让它只读取与真正字幕匹配的文字。每种过滤去掉一类噪声,而且可以四种叠加。

  • 颜色过滤——只保留字幕颜色的文字,颜色不同的水印、台标、评论会被忽略。
  • 字号过滤——只保留高度在某区间内的文字,跳过过小的水印/署名和过大的标题。
  • 区域过滤——只读字幕所在的那条带,画面角落或顶部的东西根本不会被扫描。
  • 语言过滤——只保留你字幕所属书写系统的文字,异种语言的台标/水印自动被丢弃。

如何按颜色过滤字幕?

极客连会从你的视频里抽取样本帧,让你点选字幕的准确颜色,之后只保留这个颜色的文字、忽略其余。启动 OCR 任务时,极客连会抽出一组含文字的静帧给你;你点一下字幕上的字,它读出颜色,用作过滤条件。

对付水印和画面评论,颜色是最有效的一招——因为它们几乎总是和干净的白色/黄色对白字幕颜色不同(或是褪色、半透明的版本)。如果你的字幕是白色、水印是灰色,单靠颜色过滤就能去掉水印。

颜色过滤也能应付常见的双色/双说话人字幕——你可以只抓一种颜色、留下另一种不要,或两种都抓,看你需要。因为颜色是从你自己视频的真实帧里点取的,它匹配的是实际渲染出来的字幕,而不是猜测值。

如何按字号过滤文字?

你设定一个最小和最大字高,极客连只读取高度落在这个区间内的文字。同一个视频里的字幕大小是一致的,所以一个贴合对白的高度区间,自然就排除了明显更小或更大的文字。

这招能抓住颜色过滤漏掉的噪声。角落里又小又半透明的水印、细小的版权署名、用户名通常比字幕矮,最小高度就把它们去掉了;大标题卡、片头大字、画面横幅通常比字幕高,最大高度就把它们去掉了。

设一个字号区间,是去掉「和字幕同色但大小不对」的水印和署名最可靠的办法。和颜色过滤配合,就能同时清掉「颜色不同」和「同色但大小不对」两类噪声。

如何把 OCR 限制在字幕区域?

你告诉极客连扫描画面的哪一条带——下半部分、底部 20%、上半部分或全屏——它就完全忽略这条带之外的文字。大多数对白字幕在画面下方,所以把 OCR 限制在底部区域,就跳过了角落和顶部的东西,比如台标和水印。

区域过滤还顺带提速:只扫一条窄带而不是整帧,每帧要处理的东西更少。对竖屏短视频(抖音、Reels、Shorts),字幕常在偏上、靠近中上方的位置,所以极客连允许你把区域切到上半部分——选错区域是 OCR「什么都识别不到」最常见的原因,一定要对准字幕真正出现的位置。

区域、颜色、字号是配合使用的:区域先去掉字幕带以外的一切,颜色和字号再清理带内残留的东西——比如刚好压在字幕区域上的水印。

如何忽略另一种语言的字幕或文字?

告诉极客连你的字幕语言,它会自动丢弃用不同书写系统写的文字。当你把源语言设为——比如中文——极客连就预期中文字符(以及几乎任何字幕里都有的拉丁字母和数字),并丢掉其它书写系统的行,例如泰文台标、韩文水印、日文画面贴字。

这正是颜色和字号不总能抓到的那一类。搬运/二次上传的片段常带着和对白完全不同语言的水印或台标。因为那段文字是另一种书写系统,极客连会把它当作「不是你的字幕语言」而剔除——哪怕它刚好和字幕同色、同大小。

这对中文短视频和搬运视频尤其有用,这类视频上常出现泰文、韩文、日文的平台台标。有一点要说明:无论你选哪种语言,极客连都会保留拉丁字母和数字,因为字幕里经常夹英文单词和数字——所以这个过滤去掉的是其它非拉丁文字,不是英文。

完整讲解——逐语言的脚本对照表、双语字幕、以及为什么英文从不会被删——见如何忽略异种语言的台标和水印

操作步骤:在 Mac 上提取干净字幕

下面是极客连里从导入到导出干净 SRT 的完整流程:

  1. 导入视频(可批量)。拖进一个或多个文件——极客连一次处理整个文件夹。
  2. 选择字幕区域。选下半部分(默认)、底部 20%、上半部分或全屏,对准你字幕的位置。竖屏视频选上半部分。
  3. 启动 OCR 并点选字幕颜色。极客连给出样本帧;点一下字幕上的字来设定颜色过滤。
  4. 设定字高区间。填最小和最大高度,把水印、署名、超大标题排除掉。
  5. 等它跑完,导出 SRT。极客连只读取同时满足各项过滤的文字,导出一份干净、可编辑的 SRT——不用再删水印行。

因为过滤对整批生效,你设一次就能一次清掉几十个视频。全程在你的 Mac 上本地运行,不上传任何内容。

App 里每个 OCR 设置的完整说明(颜色采样、字高区间、区域、检测间隔),见文档里的 OCR 指南

和其它 OCR 字幕工具相比如何?

大多数 OCR 字幕提取工具会读整帧,且不给你排除非字幕文字的办法,于是你只能手动从 SRT 里删水印和台标行。通用 OCR 应用(以及截图转文字工具)根本不是为视频字幕设计的——它们没有「字幕颜色、字高、条带」这些概念。

专门的字幕 OCR 比较少见。要看的差异点是:一个工具是否允许你在它运行之前用颜色、字号、区域来约束提取,而不是事后让你去擦输出。极客连正是围绕这个流程设计的,并在 Mac 上离线运行;云端工具需要上传且要订阅,而且大多仍会把画面上所有文字都抓进来。

声明:极客连是我们自己的产品。本文描述的颜色、字号、区域、语言过滤就是 App 里的实际功能。其它工具的功能会随时间变化,请以其官网为准。

常见问题

怎样在提取的字幕里去掉水印?

在 OCR 运行前就过滤,而不是事后清 SRT。在极客连里从样本帧点选字幕颜色,让颜色不同的水印被忽略;设一个字高区间,让更小的水印被跳过;把 OCR 限制在字幕区域,让角落水印根本不被扫描。三者叠加能自动去掉大部分水印。

为什么我的字幕 OCR 把台标和画面文字也识别进来了?

因为 OCR 会读取画面里每一处文字,而硬字幕只是像素、没有单独轨道。除非工具允许你按颜色、字号或区域过滤,否则它会把台标、用户名和任何画面贴字和对白一起抓进来。

能只提取视频里一种颜色的字幕吗?

能。极客连从你自己视频的帧里读取字幕颜色,只保留这个颜色的文字。对双色或双说话人字幕,你可以只抓一种颜色、留下另一种不要——当一种是对白、另一种是画面评论时很有用。

怎样不让 OCR 抓到标题卡或画面大字?

设一个最大字高。标题卡和大横幅通常比对白字幕高,最大高度会把它们排除,同时保留字幕行。再配一个最小高度,还能去掉小的署名和水印。

怎样忽略另一种语言的水印或台标?

在极客连里设定字幕语言。它会保留该语言书写系统的文字(加上拉丁字母和数字),丢掉其它书写系统的文字——所以中文视频上的泰文、韩文、日文台标或水印会自动去掉。这和颜色、字号过滤是分开的,能抓到它们漏掉的异种语言噪声。

字幕提取能在 Mac 上离线用吗?

能。极客连在 Apple 芯片 Mac 上本地运行 OCR(首次下载模型后即可离线),不上传云端。可批量处理多个视频并导出干净的 SRT,全程离线。