1. 主界面按钮(Dashboard)
用于导入素材、切换任务类型、启动 OCR/翻译/语音识别任务。
主界面截图:导入区、设置区、任务启动与素材库列表。
| 按钮 |
位置 |
点击后行为 |
可用条件 |
注意事项 |
| 📥 选择文件 / 选择视频 | 导入区 | 打开文件选择器,批量导入视频/SRT。 | 始终可用 | 只支持页面提示的格式。 |
| 🔄 刷新素材库 | 导入区 | 重新读取本地素材库并刷新列表。 | 始终可用 | 用于导入后手动同步显示。 |
| 文字识别 / 翻译 / 语音识别 / 语音识别+翻译(Tab) | 设置卡片顶部 | 切换当前任务类型与对应配置面板。 | 始终可用 | 仅切换配置,不会立即执行任务。 |
| 运行(当前 Tab 对应任务) | 设置区下方 | 按当前 Tab 启动对应流程。 | 切换到对应 Tab 后显示 | 运行中会禁用,完成后自动恢复。 |
| 清理缓存 | 右上角 | 清理本地缓存文件。 | 始终可用 | 按钮会显示当前缓存体积。 |
| 问题反馈 | 右上角 | 打开反馈弹窗,支持一键导出日志。 | 始终可用 | 导出前需勾选日志隐私确认。 |
| 激活 | 右上角激活状态区 | 打开激活弹窗输入激活码。 | 未激活或需再次激活时显示 | 激活成功后可解锁 Pro 功能。 |
| 检查更新 | 版本号旁 | 手动检查是否有新版本。 | 始终可用 | 发现新版本后会弹出更新窗口。 |
设置区四个条目详解
| 设置条目 | 适用场景 | 点击“运行”后做什么 | 主要输出 | 注意事项 |
| 文字识别 | 视频里已有可见字幕(硬字幕),需要提取为可编辑字幕。 | 执行 OCR 提取字幕文本,再生成源语言字幕文件。 | 源语言字幕(SRT) | 字幕颜色复杂时建议先完成颜色选择器步骤,识别更稳定。 |
| 翻译 | 已经有字幕文件(源语言 SRT),只需要翻译成目标语言。 | 读取已有字幕并调用翻译引擎逐条翻译。 | 目标语言字幕(SRT) | 若选择 Pro 引擎,可能弹出 Pro 提示。 |
| 语音识别 | 视频没有可用字幕,需要从音频直接转写字幕。 | 执行语音识别,将语音转成源语言字幕。 | 源语言字幕(SRT) | 首次使用新模型可能先下载模型文件,耗时会更长。 |
| 语音识别 + 翻译 | 希望一键完成“语音转写 + 翻译”全流程。 | 先语音识别得到源字幕,再自动翻译到目标语言。 | 源语言字幕 + 目标语言字幕 | 可选两种模式:标准模式用于完整产出;快速查看模式用于先看结果、快速校对。 |
四个设置条目:按钮与限制(按界面逐项)
A. 文字识别(OCR)
| 界面控件(原文) | 作用 | 限制/默认值 | 备注 |
| 源语言(下拉) | 指定 OCR 识别语言。 | 按内置 OCR 语言列表可选。 | 语言不支持时任务不会启动。 |
| 字幕区域(下拉) | 限定 OCR 扫描区域。 | 可选:下半部分 / 底部20% / 上半部分 / 全屏。 | 可减少误识别,还可以加快识别速度。 |
| 检测间隔(下拉) | 控制抽帧频率。 | 可选:0.25s / 0.3s / 0.5s(默认)/ 1.0s。 | 越小越精细,耗时越长。 |
| 排除语言(下拉) | 排除指定语种字符,减少误检。 | 可选:无 / 泰语 / 日语 / 韩语 / 中文 / 阿拉伯语。 | 用于复杂画面或多语字幕场景。 |
| 使用之前的字幕样式预设(复选) | 复用之前保存的字幕样式与颜色。 | 勾选后可跳过颜色选择步骤。 | 适合同系列视频批处理。 |
| 进行 AI 增强(标点修正 + 视觉复查)(复选) | 增强 OCR 文本质量。 | ◆ Pro 功能。 | 未激活时会触发 Pro 提示。 |
| 运行 文字识别 | 启动 OCR 任务。 | 任务运行期间按钮禁用。 | 完成后自动恢复可点击。 |
B. 翻译
| 界面控件(原文) | 作用 | 限制/默认值 | 备注 |
| 源语言(下拉) | 指定输入字幕语言。 | 默认按当前设置加载。 | 与目标语言共同决定翻译方向。 |
| 目标语言(下拉) | 指定输出字幕语言。 | 默认按当前设置加载。 | 点击运行前会弹窗确认翻译方向。 |
| 引擎(下拉) | 选择翻译引擎。 | 可选:◆ DeepSeek / Google Translate。 | DeepSeek 为 Pro 相关能力。 |
| 自定义翻译指令(文本框) | 补充术语、风格等要求。 | 界面计数器:0 / 50,000。 | 超过 50,000 字符无法启动。 |
| 运行 翻译 | 启动字幕翻译任务。 | 任务运行期间按钮禁用。 | 未激活且选择 Pro 引擎会先弹 Pro 提示。 |
C. 语音识别
| 界面控件(原文) | 作用 | 限制/默认值 | 备注 |
| Whisper模型(下拉) | 选择识别模型精度与速度。 | 可选:Tiny / Base / Small(默认)/ Medium / Large。 | 首次切换到未下载模型时会显示下载提示。 |
| 识别语言(下拉) | 指定语音识别源语言。 | 默认按当前设置加载。 | 点击运行前会弹窗确认识别语言。 |
| 源语言每条字幕字数上限 + ⓘ | 限制识别后单条字幕长度。 | 输入范围 10~200;留空为不限制。 | 点击 ⓘ 可查看字符统计规则。留空时按系统默认切分策略处理。 |
| AI 标点修正(复选) + ⓘ | 仅修正标点,不改动文字内容。 | ◆ Pro 功能。 | 适合中文等需要标点规范的场景。 |
| 运行 语音识别 | 启动语音转字幕任务(不翻译)。 | 任务运行期间按钮禁用。 | 完成后生成源语言字幕。 |
D. 语音识别 + 翻译
| 界面控件(原文) | 作用 | 限制/默认值 | 备注 |
| Whisper模型(下拉) | 选择语音识别模型。 | 可选:Tiny / Base / Small(默认)/ Medium / Large。 | 首次切换到未下载模型时会显示下载提示。 |
| 源语言 / 目标语言(下拉) | 指定转写源语言与翻译目标语言。 | 默认按当前设置加载。 | 点击运行前会弹窗确认翻译方向。 |
| 翻译引擎(下拉) | 选择翻译引擎。 | 可选:◆ DeepSeek / Google Translate。 | DeepSeek 为 Pro 相关能力。 |
| 自定义翻译指令(文本框) | 补充术语、语气、风格要求。 | 界面计数器:0 / 50,000。 | 建议控制在 50,000 内,避免过长指令影响任务稳定性。 |
| 处理模式(下拉) | 选择标准模式或快速查看模式。 | 标准模式:整段处理;快速查看:按 2 分钟分段。 | 快速查看模式处理到累计 2 分钟后可先查看并编辑,后台继续处理。 |
| 源语言每条字幕字数上限 + ⓘ | 限制转写字幕单条长度。 | 输入范围 10~200;留空为不限制。 | 点击 ⓘ 可查看字符统计规则;用于控制阅读密度。 |
| 目标语言每条字幕字数上限 + ⓘ | 限制翻译字幕单条长度。 | 输入范围 10~200;留空为不限制。 | 点击 ⓘ 可查看字符统计规则;有助于保持双语对齐与阅读体验。 |
| AI 标点修正(复选) + ⓘ | 修正语音识别标点。 | ◆ Pro 功能。 | 仅修正标点,不改动文字。 |
| 运行 语音识别 + 翻译 | 启动“转写 + 翻译”一体任务。 | 任务运行期间按钮禁用。 | 完成后会输出源语言字幕和目标语言字幕。 |
文字识别专用:颜色选择器按钮
颜色选择器属于文字识别(OCR)流程,用于从视频帧采样字幕颜色,提升 OCR 对目标字幕的聚焦能力。
颜色选择器截图:重新选帧、缩放、清除涂抹、确认颜色等核心按钮位置。
| 按钮 | 位置 | 点击后行为 | 可用条件 | 注意事项 |
| ← 主界面 | 页头左上 | 返回 Dashboard。 | 始终可用 | 离开前注意是否已确认颜色。 |
| ← 重新选择帧 | 画布区上方 | 回到帧选择步骤重新挑选。 | 已进入画布模式 | 适合当前帧字幕不清晰时重选。 |
| - / +(缩放) | 工具栏 | 缩小或放大当前画布。 | 已选择帧 | 放大后更容易精确涂抹字幕。 |
| 🗑️ 清除涂抹 | 工具栏 | 清空当前已采样的涂抹数据。 | 已涂抹后可用 | 误涂时可快速重来。 |
| ✔️ 确认颜色 | 底部 | 提交采样颜色并用于后续 OCR。 | 达到最小采样阈值 | 确认后会应用到本次批量 OCR。 |
2. 素材库条目按钮(动态生成)
每个视频条目右侧会按状态生成操作按钮与标签。
素材库条目截图:编辑按钮、删除按钮、字幕状态标签。
| 按钮 | 位置 | 点击后行为 | 可用条件 | 注意事项 |
| 📝 打开字幕编辑器 | 素材条目右侧 | 打开批量字幕编辑器并定位到该视频。 | 对应视频存在 | 优先复用同一个编辑器窗口。 |
| 🗑️ 删除 | 素材条目右侧 | 删除该视频及关联素材。 | 对应视频存在 | 会先二次确认。 |
| 源语言字幕标签 | 条目标签区 | 点击可删除源语言字幕文件。 | 存在源语言字幕时 | 误删后需重新识别。 |
| 目标语言字幕标签 | 条目标签区 | 点击可删除目标语言字幕文件。 | 存在目标字幕时 | 误删后需重新翻译。 |
3. 批量字幕编辑器按钮
用于逐条改字幕、预览、标记完成、批量导出。
批量字幕编辑器截图:导出菜单、播放器控制、字幕编辑区。
| 按钮 | 位置 | 点击后行为 | 可用条件 | 注意事项 |
| ← 主界面 | 左侧顶部 | 返回 Dashboard。 | 始终可用 | 返回主界面会自动保存当前修改。 |
| 导出 | 右上角 | 展开导出菜单。 | 有可导出视频 | 含单条导出与批量导出。 |
| 导出当前视频(可开关字幕) | 导出菜单 | 导出当前视频的 Toggleable subtitle。 | 当前视频可用 | 播放器中可开关字幕。 |
| 批量导出所有视频(可开关字幕) | 导出菜单 | 批量导出全部视频(可开关字幕)。 | 素材库非空 | 耗时取决于视频数量。 |
| 导出当前视频(嵌入画面字幕) | 导出菜单 | 导出当前视频的 Burned-in subtitle。 | 当前视频可用 | 字幕烧录到画面中,无法关闭。 |
| 批量导出所有视频(嵌入画面字幕) | 导出菜单 | 批量导出全部视频(烧录字幕)。 | 素材库非空 | 通常比可开关字幕导出更耗时。 |
| 磨砂字幕底栏(复选) | 导出菜单 | 开启/关闭烧录字幕底栏效果。 | 导出菜单打开时 | 主要影响视觉风格。 |
| 导出SRT附加 [Need Check](复选) | 导出菜单 | 在导出字幕中追加校对标记。 | 导出菜单打开时 | 便于后续人工复核。 |
| 1x(播放速度) | 播放器上方 | 切换播放倍速。 | 视频可播放 | 用于快速校对字幕节奏。 |
| ▼(字幕位置) | 播放器上方 | 切换字幕覆盖层位置。 | 视频可播放 | 仅影响编辑预览。 |
| 🔍 Fullscreen | 播放器上方 | 切换伪全屏编辑预览。 | 视频可播放 | 可专注校对时间轴。 |
| 🎬 转码并预览 | 转码提示区 | 对不可预览视频先转码,再加载预览。 | 视频需要转码时 | 用于解决某些编码预览失败。 |
| 💾 保存字幕文件 | 播放器下方 | 手动保存当前编辑结果。 | 有编辑内容 | 用于立即触发一次手动保存;系统也会自动保存。 |
| ✅ 标记全部完成并退出 | 播放器下方 | 将全部视频标记完成并退出。 | 仅在全部视频已标记完成后显示 | 条件显示按钮;用于批量流程收尾。 |
| 视频列表中的“已标记/未标记”按钮 | 左侧视频条目 | 切换该视频审核完成状态。 | 对应视频存在 | 影响批量导出前的提醒逻辑。 |
| 视频列表中的🗑️ | 左侧视频条目 | 删除该条视频。 | 对应视频存在 | 会同步更新统计与列表。 |
4. 字幕选择器按钮
用于从候选字幕文本中筛选真实字幕内容,排除水印和噪声;适用于文字识别与语音识别流程。
字幕流程相关截图:用于说明全选/全不选/确认选择/自动识别等操作。
| 按钮 | 位置 | 点击后行为 | 可用条件 | 注意事项 |
| ← Dashboard | 页头左上 | 返回主界面。 | 始终可用 | 建议完成确认后再离开。 |
| ✅ 全选 | 底部操作区 | 选中所有候选文本。 | 候选项存在 | 一般仅用于快速初筛。 |
| ❌ 全不选 | 底部操作区 | 取消全部选择。 | 候选项存在 | 便于重选。 |
| ✔️ 确认选择 | 底部操作区 | 提交选择结果并继续流程。 | 满足最少选择条件 | 这是 OCR 流程关键确认按钮。 |
| 🤖 自动识别 | 底部操作区 | 自动推断应保留的字幕文本。 | 候选项存在 | 建议识别后再人工快速检查。 |
5. 弹窗按钮(激活 / 反馈 / 更新 / Pro)
这些按钮在主界面和编辑器流程中会按条件出现。
| 按钮 | 弹窗 | 点击后行为 | 可用条件 | 注意事项 |
| 确认激活 | 激活弹窗 | 提交激活码并校验。 | 输入激活码后 | 成功后按钮可能变为“关闭”。 |
| 取消 | 激活弹窗 | 关闭弹窗,不提交激活。 | 始终可用 | 不会改动当前授权状态。 |
| 一键导出日志(zip) | 反馈弹窗 | 导出日志到本地目录。 | 勾选隐私确认后 | 日志可能含路径/字幕文本。 |
| 打开文件夹 | 反馈弹窗 | 打开日志导出目录。 | 导出成功后显示 | 用于快速附加邮件发送。 |
| 更新并重启 | 更新弹窗 | 下载更新并应用,随后重启。 | 检测到新版本 | 建议先等待当前任务完成后再更新。 |
| 稍后再说 | 更新弹窗 | 关闭更新弹窗。 | 检测到新版本 | 不会影响当前使用。 |
| 使用其他方式翻译 | Pro 功能提示 | 不激活 Pro,改用可用引擎继续。 | 触发 Pro 限制时 | 适用于临时绕过 Pro 功能。 |
| 激活 Pro | Pro 功能提示 | 进入激活流程。 | 触发 Pro 限制时 | 可解锁对应高级能力。 |
| 继续导出 | 非 Pro 导出提示 | 继续导出非 Pro 结果。 | 非 Pro 导出时 | 导出内容会带水印/广告文本。 |