首页 1 2 3 4 5 6 7

语音识别（ASR)论文优选：Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。如转载，请标明出处。欢迎关注微信公众号：低调奋进

Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development

本文是数据公司Appen在2021.09.01更新的文章，主要工作是开源了一套高效高质量的数据标注流程和语音数据集，具体的文章链接

https://arxiv.org/pdf/2109.01164.pdf

本文标注流程使用的系统

https://github.com/Appen/UHV-OTS-Speech

数据申请

https://appen.com/off-the-shelf-datasets/

（强烈推荐本文，该文章不仅授人以鱼而且授人以渔）

1 研究背景

AI的发展促进了语音领域的高速发展，即使已经开源了如下几个数据集，但用于训练和测试的语音数据依然不能满足算法的发展脚步，因此本文提出了一套高效率高质量的语音标注系统HITL，并开源了不断更新的语音数据集UHV-OTS (每年都更新数据为工业界和学术界使用）。

2 详细设计

本文的数据标注整个流程如图1所示分为诸多流程：

1）audio data collection: crowed clooection and web scraping

2) data pre-processing:source separation 工具 spleeter

3) data pre-filtering: synthetic speech detection

4）data pre-filtering:language & accent identification

5) Data pre-tagging: speech/non-speech audio segmentation

6) Data pre-tagging: speaker segmentation

7) Data pre-tagging: speaker clustering & identification

8) Data pre-tagging: speaker gender detection

9) Data pre-tagging: transcribe with ASR

10) Data pre-tagging: domain and topic detection

11）人工标注和质检Quality control mechanisms to ensure accurate annotation

a) Annotator selection & guideline training

b）Blind testing based quality control

c) Behavior monitoring based quality control

d) Real-time data validation & feedback

e) Final delivery quality measurement

3 总结

本文提出了一套高效率高质量的语音标注系统HITL，并开源了不断更新的语音数据集UHV-OTS

Rabbitmq消息队列详解

文章目录

【转】网站布局--瀑布流式布局

瀑布流式布局简介现在越来越流行一种瀑布流式布局的页面布局方式，希望你没有对这个名字陌生，看张图相信你就知道它是什么

JavaScript中的arguments

arguments是什么？在JavaScript的函数内部，参数用数组表示，arguments就是用来访问这个数组的的对象。arguments与数组类似，但不是Array的实例。arguments.length可以用来确定传递的参数个

react.js从入门到精通（二）——变量的定义和初始化、事件的使用

变量的定义和初始化

Android7.0从蓝牙导入联系人开发的实现

Android7.0 realease版本中已经将framework/opt/bluetooth中的pbap部分移植package/apps/Bluetooth的蓝牙应用中，所以之前用到framework/opt/bluetooth中pbap部分的代码已经无法正常使用了。但研读代码过程中发现

R语言光速入门，R语言笔记，

命令：查看版本：licensed（）退出R：quit（）安装包：install.packages("BayesLogit")-----(贝叶斯) install.packages("mir"):

第五次试验

#include

VMware安装CentOS7

ASP字符串转换函数用法

Right（str，len）返回右边的len个字符Rtrim（str）去掉字符串右边的空格StrComp（str1，str2[,method])返回两个字符串的比较结果。如果字符串str小于字符串str2，则返回-1，如果相等返回0，如果字符串str大于字符串s

mysql_query的坑

今天非常坑，就用写博客来发泄吧。。。 <html> <form action="./sql.php" method="get"> 账号<input type = "t