开源(离线)中文语音识别ASR(语音转文本)工具整理
目录
open ai 的开源工具:whisper
whisper介绍
Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。
whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;对于影视爱好者,可以将无字幕的资源自动生成字幕,不用再苦苦等待各大字幕组的字幕资源;对于外语口语学习者,使用whisper翻译你的发音练习录音,可以很好的检验你的口语发音水平。 当然,各大云平台都提供语音识别服务,但是基本都是联网运行,个人隐私安全总是有隐患,而whisper完全不同,whisper完全在本地运行,无需联网,充分保障了个人隐私,且whisper识别准确率相当高。
引用
ASRT语音识别项目
ASRT介绍
ASRT是一个基于深度学习的语音识别工具,可以用于开发最先进的语音识别系统,是由AI柠檬博主(西安电子科技大学 · 西安市大数据与视觉智能重点实验室)从2016年起做的开源语音识别项目,基线为85%识别准确率,在某些条件下可做到95%左右的识别准确率。ASRT包含了语音识别算法服务端(用于训练或部署API服务)和多种平台及编程语言的客户端SDK,支持一句话识别和实时流式识别,相关的代码已经开源在GitHub和Gitee上。
引用
微软语音服务(付费)
微软语音服务介绍
微软语音服务通过 Azure 语音资源提供语音转文本和文本转语音功能。 您可以将语音以高精度转录为文本,生成听起来自然的文本到语音的声音,翻译语音,并在对话期间使用说话人识别。微软语音服务(号称)提供:语音识别(语音转文字)、语音合成(文字转语音)、获取实时翻译、录制对话,或集成语音到机器人体验中。
语音转文本模块主要包含一下几个方面:
实时语音转文本
-
使用实时语音转文本时,当从麦克风或文件中识别出语音时,会对音频进行听录。 对于需要实时听录音频的应用程序,请使用实时语音转文本,例如:
-
实时会议的听录、描述文字或字幕
-
联系中心代理助手
-
听写
-
语音代理
-
发音评估
-
批量转录
批量转录用于转录存储中的大量音频。 您可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收转录结果。 对需要批量转录音频的应用程序使用批量转录,例如:
- 预录音频的转录、字幕或副标题
- 联络中心通话后分析
- 二值化
自定义语音
使用 自定义语音,您可以为您的应用程序和产品评估和提高语音识别的准确性。 自定义语音模型可用于实时语音转文本、语音翻译和批量转录。
开箱即用的语音识别利用通用语言模型作为基础模型,该模型使用 Microsoft 拥有的数据进行训练并反映常用口语。 基本模型使用代表各种常见领域的方言和语音进行了预训练。 当您发出语音识别请求时,默认情况下会使用每种受支持语言的最新基本模型。 基本模型在大多数语音识别场景中都能很好地工作。
自定义模型可用于扩充基础模型,通过提供文本数据来训练模型,从而提高对特定于应用程序的领域特定词汇的识别。 它还可用于通过提供带有参考转录的音频数据来改进基于应用程序特定音频条件的识别。
引用
PaddleSpeech
PaddleSpeech介绍
PaddleSpeech是一个基于飞桨PaddlePaddle的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,其中包括语音识别(ASR)。你可以使用PaddleSpeech来训练和测试中文语音识别模型。