网站Logo 时光杂货铺

语音转文本模型(Whisper)

admin
93
2025-08-14

本文分别介绍不同平台上运行Whisper模型的步骤和使用

这里放两个租用GPU比较便宜的平台 都可以选择按小时计费

AutoDL算力云 | 弹性、好用、省钱,GPU算力零售价格新标杆

GPU AI算力云 - 观星云

1、Ubuntu操作系统运行

这里选择佛山区,Tesla系列的,一小时0.78

Whisper运行需要pyTorch环境 创建镜像时选择pyTorch

1.1、远程连接服务器(SSH)

在容器实例可以看到右方有个登录指令,复制粘贴到别的文本上查看

ssh -p 23546 root@region-9.autodl.pro

我是用FinalSheel连接的,23546是端口,root就是用户名,region-9.autodl.pro就是主机名,密码我就不放在这里了

登录成功后控制台会输出信息

1.2、安装系统环境及whisper环境

执行 apt-get update 获取系统最新信息

再执行 apt-get upgrade 升级 中间出现 [y/n ]全按Y

执行 conda create -n whisper 创建一个名为whisper的独立的虚拟环境

执行 conda activate whisper 激活名称whisper的虚拟环境,后续所有的 包 安装和依赖都会局限在这个虚拟环境。

执行 pip install -U openai-whisper 安装模型 如果报错 输入/etc/pip.conf 注释掉其中的三个文件,再执行一次命令

还需要一个ffmpeg ,执行 apt install ffmpeg 安装,完成后可以在输入ffmpeg验证有没有安装成功

如果本地有Git,那么在需要转换的录音文件夹输入 鼠标右键 git Bash Here

输入pwd获取当前文件的路径

之后执行命令 scp -P 23546"/h/luyin/Java/test.ma4 root@region-9.autodl.pro:/root

执行命令后,本地的 test.ma4文件会通过加密的 SSH 连接,上传到 region-9.autodl.pro 服务器的 /root/ 目录下,实现本地到远程的安全文件传输。

现在就可以用命令实现语音转文本了

whisper test.ma4,就会开始输出转换后的文本

也可以指定模型转录 whisper test.m4a --model turbo 指定turbo模型转录

也可以指定转录后的文本类型 whisper japanese.wav --language Japanese