“最强大免费”AI语音转文字 Whisper AI+谷歌

2024-10-29

长安老张

目前最快速、最简便的语音转文字应用——Whisper AI。只需两行代码，就能将任何语音文件转换为文本、字幕等…

Whisper AI 是由 OpenAI 开发的一种自动语音识别 (ASR) 技术，旨在将语音转换为文本。它基于强大的深度学习模型，能够处理多种语言和口音，支持不同的音频格式和噪声环境。Whisper AI 的主要目的是提高语音识别的准确性和可用性，使其能够在更广泛的应用场景中使用，比如字幕生成、语音转写、语言翻译等。
OpenAI官方并没有给普通用户提供可以简单使用的图形化界面软件。不过我们可以使用Google提供了免费算力服务器，外加两行代码就能使用Whisper AI的强大功能。

Whisper AI的强大之处

支持97种语言，包括英语和其他96种语言
即使在嘈杂环境下也能正常工作
能够处理重口音
完全免费且开源
转换效果优于大多数人工转录

如何使用Google的免费算力使用Whisper AI？

1.准备工作：

只需一个谷歌账号美区google账号

安装Google Colaboratory应用

2.设置环境：

在Google云盘中新建Colaboratory文档

在谷歌云盘中添加google colab

选择Python 3运行时和T4 GPU硬件加速

在Google colab中选择T4服务

3. 安装必要组件:

在google-colab中添加代码

第一行代码：

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

代码含义

安装Whisper（OpenAI开发的通用语音识别模型）
安装ffmpeg（用于处理音频和视频文件的多媒体框架

4. 上传音频文件：

在google-colab上传文件

将要转录的音频或视频文件上传到Colaboratory

5. 执行转录：

在google-colab中添加代码2

第二行执行代码：

!whisper "文件名（需要替换）.mp3" --model medium

输入执行代码，选择合适的模型大小（推荐使用medium模型）
运行代码，等待转录完成。

6. 获取结果：

下载生成的文本文件（包括SRT、VTT字幕文件，Text文本文件等）

Whisper的多功能性

除了基本的语音转文字功能，Whisper还具有以下特点

支持视频文件转写
可将其他语言直接翻译成英文
集成了语音识别、语音翻译和语言识别功能

最新升级：Whisper V3

在OpenAI最近的开发者大会上，他们发布了Whisper的升级版本——Whisper V3。这个新版本极大提高了对非英语语言的处理能力。要使用最新模型，只需在执行代码时将Medium模型更改为Large V3即可。
代码：

!whisper “文件名（需要替换）.mp3” –model large-v3

使用技巧和注意事项

1.Whisper AI还有翻译功能，可以直接将转写内容翻译为英文，且只能翻译英文。
翻译代码：!whisper “文件名（需要替换）.mp3” –model medium –task translate

如果要翻译为中文，请使用ChatGPT,毕竟ChatGPT的文本翻译功能是最专业的。

2. 首次使用后，可以直接在谷歌云盘中打开文档重复使用，无需重新添加代码。

3. 由于使用的是Colab提供的免费算力，建议在转写完成后尽快下载生成的文件，以防被自动删除。

4. 在使用代码时一定要注意标点符号和空格，任何标点符号的错误都会导致代码运行失败。

5. 在上传转写文件时，一定要注意看左下角的上传进度条。完整的转一圈，才表示文件完整上传了。

6.Whisper 并没有区分简体繁体只有中文一个识别选项。不过可以语言示例的方法解决这个问题。

在使用第二句命令代码 !whisper “文件名.MP3” –model medium 时，加上这句命令 –initial_prompt “以下是普通話的句子”

在这个命令 –initial_prompt “以下是普通話的句子” 当中，当你使用繁体时，注意普通“话 ”在繁体中的写法是“話”，这就是定义繁体和简体的关键。