Whisper AI 是由 OpenAI 开发的一种自动语音识别 (ASR) 技术,旨在将语音转换为文本。它基于强大的深度学习模型,能够处理多种语言和口音,支持不同的音频格式和噪声环境。Whisper AI 的主要目的是提高语音识别的准确性和可用性,使其能够在更广泛的应用场景中使用,比如字幕生成、语音转写、语言翻译等。
OpenAI官方并没有给普通用户提供可以简单使用的图形化界面软件。不过我们可以使用Google提供了免费算力服务器,外加两行代码就能使用Whisper AI的强大功能。
Whisper AI的强大之处
- 支持97种语言,包括英语和其他96种语言
- 即使在嘈杂环境下也能正常工作
- 能够处理重口音
- 完全免费且开源
- 转换效果优于大多数人工转录
如何使用Google的免费算力使用Whisper AI?
1.准备工作:
只需一个谷歌账号
安装Google Colaboratory应用
2.设置环境:
在Google云盘中新建Colaboratory文档
选择Python 3运行时和T4 GPU硬件加速
3. 安装必要组件:
第一行代码:
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
代码含义
安装Whisper(OpenAI开发的通用语音识别模型)
安装ffmpeg(用于处理音频和视频文件的多媒体框架
4. 上传音频文件:
将要转录的音频或视频文件上传到Colaboratory
5. 执行转录:
第二行执行代码:
!whisper "文件名(需要替换).mp3" --model medium
输入执行代码,选择合适的模型大小(推荐使用medium模型)
运行代码,等待转录完成。
6. 获取结果:
下载生成的文本文件(包括SRT、VTT字幕文件,Text文本文件等)
Whisper的多功能性
除了基本的语音转文字功能,Whisper还具有以下特点
- 支持视频文件转写
- 可将其他语言直接翻译成英文
- 集成了语音识别、语音翻译和语言识别功能
最新升级:Whisper V3
在OpenAI最近的开发者大会上,他们发布了Whisper的升级版本——Whisper V3。这个新版本极大提高了对非英语语言的处理能力。要使用最新模型,只需在执行代码时将Medium模型更改为Large V3即可。
代码:
!whisper “文件名(需要替换).mp3” –model large-v3
使用技巧和注意事项
1.
Whisper AI还有翻译功能
,可以直接将转写内容翻译为英文,且只能翻译英文。
翻译代码:!whisper “文件名(需要替换).mp3” –model medium –task translate
如果要翻译为中文,请使用ChatGPT,毕竟ChatGPT的文本翻译功能是最专业的。
2. 首次使用后,可以直接在谷歌云盘中打开文档重复使用,无需重新添加代码。
3. 由于使用的是Colab提供的免费算力,建议在转写完成后尽快下载生成的文件,以防被自动删除。
4. 在使用代码时一定要注意标点符号和空格,任何标点符号的错误都会导致代码运行失败。
5. 在上传转写文件时,一定要注意看左下角的上传进度条。完整的转一圈,才表示文件完整上传了。
6.Whisper 并没有区分简体繁体只有中文一个识别选项。不过可以语言示例的方法解决这个问题。
在使用 第二句命令代码 !whisper “文件名.MP3” –model medium 时,加上这句命令 –initial_prompt “以下是普通話的句子”
在这个命令 –initial_prompt “以下是普通話的句子” 当中, 当你使用繁体时,注意 普通“话 ”在繁体中的写法是“話”,这就是定义繁体和简体的关键。
详细视频教程
相关文章
-
【翻译一切语言】–适用ChatGPT,Claude,Gemini各种AI应用
该“提示词”适用于全球所有主流语言之间的互相转换,可以称之为一个“万能翻译提示词”。
-
ChatGPT英语学习秘技
作为一个集图像识别、生成、数据分析、文字生成和语音通话等功能于一体的AI模型,ChatGPT为语言学习者提供了…