核心要点
- 搬运和二次上传的视频常带着和对白不同语言的台标或水印——比如中文片段上的泰文、韩文、日文平台台标——普通 OCR 会把它们全识别进你的 SRT。
- 极客连按书写系统过滤 OCR:设定你的字幕语言,它就保留该语言书写系统的文字(加上拉丁字母和数字),自动丢掉其它书写系统的文字。
- 这能抓到颜色和字号过滤抓不到的噪声——异种语言的台标即使和字幕同色、同大小,也会被去掉,因为它根本是另一种文字。
- 它不会删英文。拉丁字母和数字一律保留,因为真实字幕里经常夹英文单词和数字。
- 在 Apple 芯片 Mac 上离线运行,支持 90+ 种语言,导出干净的 SRT。
为什么外语文字会进入我提取的字幕?
OCR 会读取画面里每一处文字,不管什么语言。一个片段被搬运、二次上传后,常带着原平台的水印或台标——而那段文字往往和口语对白完全不是一种语言。OCR 分不清哪种语言才是「字幕」,它只是在读字符。
这在短视频和搬运视频里极其常见。一段从别的平台搬来的中文短剧,角落里可能有泰文或韩文的平台台标;一个合集顶部可能横着日文频道名。照字面读,这些全都落进了你的 SRT,紧挨着真正的对白。
把它们分开最可靠的办法是按书写系统。如果你的对白是中文、台标是泰文,两者用的是完全不同的文字系统——所以告诉 OCR 引擎「我的字幕是中文」,就给了它一条清晰的取舍规则。
如何按语言过滤 OCR?
你在提取前设定字幕语言,极客连只保留书写系统与该语言匹配的文字——加上拉丁字母和数字——其余全部丢弃。你选的语言做两件事:选用为该语言调优的识别模型,并定义输出的「预期」书写系统集合。
当某一行被检测为不属于你语言的书写系统——中文视频上的日文假名、非泰语视频上的泰文——极客连会把它当作「不是你的字幕」而剔除。你不用额外开任何开关;选定字幕语言本身就是过滤。
因为它按书写系统而不是外观工作,所以能去掉颜色和字号过滤漏掉的异种语言噪声——一个刚好白色、字幕大小的台标,只要是用另一种语言写的,照样被丢掉。
各语言分别保留和丢弃什么?
每种字幕语言都保留自己的书写系统加上拉丁(应对几乎每条字幕里都有的英文和数字),丢掉无关的书写系统。常见语言的表现如下:
| 字幕语言 | 保留 | 丢弃(示例) |
|---|---|---|
| 中文 | 汉字 + 拉丁/数字 | 日文假名、韩文、泰文、西里尔、阿拉伯文 |
| 日文 | 假名 + 汉字 + 拉丁/数字 | 韩文、泰文、西里尔、阿拉伯文 |
| 韩文 | 谚文 + 拉丁/数字 | 日文假名、泰文、西里尔、阿拉伯文 |
| 泰文 | 泰文 + 拉丁/数字 | 中日韩、韩文、西里尔、阿拉伯文 |
| 俄文 | 西里尔 + 拉丁/数字 | 中日韩、韩文、泰文、阿拉伯文 |
| 阿拉伯文 | 阿拉伯文 + 拉丁/数字 | 中日韩、韩文、泰文、西里尔 |
| 印地文 | 天城文 + 拉丁/数字 | 中日韩、韩文、泰文、西里尔 |
对拉丁文字的字幕语言(英语、西班牙语、葡萄牙语等),预期集合是拉丁——所以非拉丁的台标和水印会被丢掉,而你的对白保留。
语言过滤会把英文也删掉吗?
不会。无论你选哪种字幕语言,拉丁字母和数字一律保留。字幕里经常夹英文单词、品牌名和数字——一条中文行里可能有「OK」、一个型号、或一个年份——所以删拉丁会损坏真正的字幕。
也就是说,语言过滤去掉的是其它非拉丁书写系统(日文、韩文、泰文、西里尔、阿拉伯文等),不是英文。如果你的噪声是英文字幕视频上的英文水印,请改用颜色、字号、区域过滤——它们按外观和位置区分同语言文字。
中英双语字幕怎么办?
双语字幕是支持的——极客连能抓取双语字幕的两种语言。很多中文视频上面一行中文、下面一行英文;因为拉丁始终和中文一起保留,所以两行都会被识别出来。
这和丢掉异种语言台标不冲突:双语字幕是有意为之、本就属于一起的两种文字的对白;而台标是第三种书写系统里的无关文字。语言过滤会保留前者、丢掉后者。
操作步骤:丢掉外语台标、留下你的字幕
- 导入视频(可批量)。极客连一次处理整个文件夹。
- 把字幕语言设为对白语言(例如中文)。这决定保留哪些书写系统。
- 选择字幕区域并启动 OCR。选好字幕位置;若也想按外观过滤,从样本帧点选字幕颜色。
- 等它跑完。极客连读取对白,自动丢弃其它书写系统的行——外语台标或水印根本不会进你的 SRT。
- 导出 SRT。你得到一份只含字幕的干净文件,可直接翻译或编辑。
和外观过滤叠加,效果最干净:语言去掉异种文字的台标,颜色、字号、区域再清理同语言的噪声。完整流程见提取字幕去掉水印,或见文档里的 OCR 指南(每个设置的参考)。
为什么搬运和二次上传视频尤其需要这个?
如果你做搬运片段,外语台标是提取字幕里垃圾的最大来源。从短剧、合集、跨平台搬运里抠对白的人,天天要面对压在中文对白上的泰文、韩文、日文台标和平台水印。
按语言过滤,把这件事从手动清理变成自动:设定对白语言,外语文字在你打开 SRT 之前就没了。再配合批量处理,你能一次清掉一整个文件夹的搬运片段——全程在 Mac 上离线。
声明:极客连是我们自己的产品。本文描述的语言/脚本行为反映 App 过滤 OCR 输出的方式。请在你自己的素材上确认效果,因为异形字体和花式台标可能有差异。
实例:带泰文台标的中文片段
假设你在搬运一段中文短剧,右上角还留着某泰国平台的台标,底部有一个英文小时间戳。各项过滤分别会做:
- 把字幕语言设为中文。泰文台标是另一种书写系统,自动被丢掉——即便它像字幕一样压在画面上、即便它是白色且大小相近。
- 英文时间戳默认保留,因为拉丁字母和数字一律保留。不想要的话,加一个区域过滤(它在底部边缘、字幕带之外)或颜色过滤(它通常颜色不同)。
- 中文对白干净地识别出来,可直接导出 SRT,或翻译成英文做双语版。
无论你处理一个还是五十个片段,结果都一样——设一次语言,整个文件夹离线批量跑完。
语言过滤和按颜色/字号过滤有什么不同?
语言过滤按书写系统区分文字;颜色、字号、区域过滤按外观和位置区分文字。它们解决不同的问题,最干净的提取是两者并用。
当噪声和对白是不同语言时(外语台标或平台水印),用语言过滤。无论它什么颜色、多大,都会被去掉,因为它就是另一种文字。这是唯一能丢掉「刚好白色、字高一致」的台标的过滤。
当噪声和对白是同一种语言时(比如中文视频上的中文频道名),用颜色、字号、区域过滤。语言过滤分不清它们,但外观能:水印通常颜色不同、更小、或缩在角落。
实操上,先设语言清掉外语文字,再加颜色和字号清理残留的同语言噪声。两遍是互补的,不是重复。
如果还有外语文字漏进来怎么办?
有少数台标天生就难认,这些边界情况值得知道。高度花式或装饰性的台标可能被 OCR 误读成一串随机拉丁字符、而不是它真正的文字——而因为拉丁始终保留,这种乱码偶尔会混进 SRT。
遇到这种情况,叠加外观过滤:角落台标用区域过滤去掉,淡色或异色台标用颜色过滤去掉。语言、区域、颜色三者之间,几乎每个台标都会被其中至少一个拿下。
真正在一行里混两种外语的情况在字幕里很少见,但若碰到,选和你对白匹配的语言、其余交给外观过滤。目标不是一条完美规则,而是叠几个便宜的过滤,让剩下的清理变得微不足道,而不是逐行去删。
常见问题
怎样从提取的字幕里去掉外语台标?
在极客连里把字幕语言设为对白语言。它会保留该语言书写系统的文字(加拉丁和数字),丢掉其它书写系统的文字——所以中文视频上的泰文、韩文、日文台标会自动去掉,即便它和字幕同色、同大小。
它会删掉我字幕里的英文单词吗?
不会。无论选哪种语言,拉丁字母和数字一律保留,因为字幕里经常夹英文单词和数字。语言过滤去掉的是其它非拉丁书写系统,不是英文。
能提取中英双语字幕吗?
能。因为拉丁和你的字幕语言一起保留,中英双语字幕会两行都识别出来。第三种书写系统里的外语台标仍会被丢掉。
如果水印和我的字幕是同一种语言怎么办?
语言过滤分不清同语言文字,这时改用外观过滤:按颜色、字号、区域,根据它长什么样、在哪里,去掉同语言水印。参见「提取字幕去掉水印」。
这个能在 Mac 上离线用吗?
能。极客连在 Apple 芯片 Mac 上本地运行 OCR(首次下载模型后即可离线),不上传云端,支持 90+ 种语言。可批量处理多个视频并导出干净的 SRT。