OpenAI Whisper 是一个免费开源的 AI 语音识别模型,能以接近人类的准确率转录 13+ 种语言的音频。极客连在 Mac 上本地集成 Whisper,让你将视频音频转录为文字并导出为 SRT 字幕——全程无需上传文件到云端。
在 Whisper(OpenAI 于 2022 年 9 月发布)之前,准确的语音转文字需要昂贵的云 API 或人工转录。Whisper 通过提供免费开源模型(基于 68 万小时多语言音频训练)实现了民主化。它处理口音、背景噪音和专业术语的能力远超之前的工具。对视频创作者来说:不再需要按分钟付费转录、不再需要上传敏感内容到第三方服务、不再需要等待数小时。极客连在本地打包 Whisper,完全在 Mac 的 Apple Silicon 芯片上运行。
常见用例:YouTube 视频转录、播客转录、讲座/会议记录、采访转录、配音脚本生成。
Whisper 有多种大小:tiny(最快,准确率较低)、base、small、medium 和 large-v3(最慢,最准确)。大多数视频字幕制作推荐 "medium" 模型。专业内容或挑战性音频使用 "large-v3"。极客连让你根据需求选择模型大小。
Whisper 是 OpenAI 创建的开源自动语音识别(ASR)模型。它基于 68 万小时多语言音频数据训练,能以接近人类的准确率转录 13+ 种语言的语音。
是的,Whisper 完全免费且开源。极客连在本地打包 Whisper,没有 API 费用。只需要一台 Apple Silicon(M1 或更新)Mac。
Whisper large-v3 在英语、中文、日语和西班牙语等主流语言的清晰音频上达到接近人类的准确率(95%+)。罕见语言或嘈杂音频的准确率可能较低。
Whisper 在单个音轨中转录所有语音,不原生区分说话人。但极客连的字幕编辑器允许你在转录后添加说话人标签。
可以!首次下载 Whisper 模型(需要联网)后,所有后续转录完全在 Mac 上离线运行。