OpenAI-whisper语音识别模型

1、whisper简介

Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。
whisper有五种模型尺寸，提供速度和准确性的平衡，其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。

github链接：https://github.com/openai/whisper

2、方法

一种 Transformer 序列到序列模型被训练用于各种语音处理任务，包括多语种语音识别、语音翻译、口语语言识别以及语音活动检测。这些任务共同以一个需要被解码器预测的符号序列的形式进行表示，从而使得单个模型可以替代传统语音处理管道中的多个阶段。多任务训练格式使用一系列特殊的符号作为任务指示符或分类目标。

3、环境配置

conda create -n whisper python=3.9
conda activate whisper
pip install -U openai-whisper
sudo apt update && sudo apt install ffmpeg
pip install setuptools-rust

4、python测试脚本

以轻量级tiny模型为例，测试脚本如下：

import whisper

model = whisper.load_model("tiny")
result = model.transcribe("sample_1.wav")
print(result["text"])

测试结果如下：

如果要测试large模型，需要16GB以上的显卡才行。

注：以上测试脚本暂不支持多gpu，这是因为有可能在一个GPU上加载编码器，在另一个GPU上加载解码器。

如果想通过多gpu测试，可尝试以下方法：

首先更新包，以便它有最新的提交

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

然后，参考以下脚本：

import whisper

model = whisper.load_model("large", device="cpu")

model.encoder.to("cuda:0")
model.decoder.to("cuda:1")

model.decoder.register_forward_pre_hook(lambda _, inputs: tuple([inputs[0].to("cuda:1"), inputs[1].to("cuda:1")] + list(inputs[2:])))
model.decoder.register_forward_hook(lambda _, inputs, outputs: outputs.to("cuda:0"))

model.transcribe("jfk.flac")

多gpu脚本参考连接：https://github.com/openai/whisper/discussions/360

测试large模型（显存>=16GB），输入音频，输出文本（中文简体），需要设置initial_prompt，不然输出的可能是中文繁体

import whisper
import os

model = whisper.load_model("large")
prompt='以下是普通话的句子'
result = model.transcribe(file_path, language='zh',verbose=True, initial_prompt=prompt)
print(result["text"])

876. 链表的中间结点

地址：

php里echo 0,php中有了echo为什么还要使用print呢？

php的语法中，echo和print都是输出一段内容到页面上的方法，不过两者还是有区别的，具体的方面有以下几点： (1)echo支持逗号语法，print不支持这种逗号语法； (2)echo的返回值是void，print的返回值是int

刻意练习-如何从新手到大师

我总是在思考如何才能学得快学得精，学得和别人不一样。看过很多本书之后，我发现无论掌握何种技巧，最基本的原则是要努力的刻意练习，才能从新手走向大师。前段时间读了一本书叫《刻意练习-如何从新手到大师

基础面试题集结（持续更新）

title: 基础面试题 date: 2019-10-12 20:23:00 updated: 2019-10-12 20:23:00 tags: ['web前端面试'] 基础面试题 1. boot

elasticsearch kibana 更新nested字段数据

有如下索引 PUT ellisintstring/ {

这篇文章把委托和数据源说清楚了

http://blog.joomla.org.tw/iphone-ipad/112-delegate-controller1.html “至於最後一項稱為data source（資料源），字義上看起來似乎是MVC中的Model部份，實際並不是，它也是一種委託代表，和上述的委託

计算机应用数学,计算机应用数学.PDF

计算机应用数学 2008 －2009年度春夏学期张宏鑫华炜陈为蔺宏伟浙江大学CAD&CG国家重点实验室课程概况主讲教师：张宏鑫，华炜，陈为，蔺宏伟英文名称： Applied M

python3的json模块图文实战总结

前言：本文默认你了解json，对Python的json模块也有基本的了解正文 1. 总结 P

Prepare and run TPCDS query with spark

文章目录 TPCDS 数据

jdbc增删改查操作数据库及jdbcUtil工具包

jdbc增删改查操作数据库 jdbcUtil工具