在搜集人类语音数据上 各大互联网公司开足马力
时间:2017-10-19
  摘要:文章比较了谷歌和火狐所有者MF数据库的构成要素和数据搜集方法,认为那些免费的音频资源更实用。

一个语音虚拟助理,比如Siri、Alexa、Cortana或者Google Home的表现,很大程度上是由驱动其的数据决定的。要训练这些程序来理解你正在说什么,首先要拥有大量关于人类对话的现实案例数据。

这让现有的语音识别公司拥有天然的优势,因为他们已经大量地积累了对话样本数据,能用于训练算法。所以,希望在这个舞台上竞争的创业公司必须拥有自己的一套语音音频文件,也许可以从现有的文档(如TED Talk转录构建的大约300小时的语料库)获得。

卡内基梅隆大学研究教授 Alexander Rudnicky说,开发人员通常需要访问数百或数千小时的音频。

谷歌从某种程度上也认可了这一说法,上周,他们发布了全球录音的众包数据集。这一包含了65,000 条一秒钟音频剪辑的语料库包括了来自世界各地的人们说的简单的指令词 :“ 是的”, “不”, “停止”,“去”等等。 

Mozilla是开源Firefox浏览器的拥有者。Mozilla最近推出了一个名为Common Voice的新项目。他们的目标是建立一个免费对外提供的,众包的世界各地语音样本数据集,包含各种样本单词和句子。

谷歌的录音是AIY自动动手开发人工智能项目的一部分,旨在使创客们能够体验机器学习。“我们用来创建数据的基础设施也是开源的,我们希望看到它被更广泛的社区用来创建自己的版本,特别是覆盖服务不足的语言和应用程序,”谷歌软件工程师Pete Warden说。

总的来说,它不仅是超过一千兆字节的声音,还是谷歌收集的用于训练自己的AI系统的语音数据总量的一小部分。该公司曾经开设了一个自动化的助理服务,事实证明,这是他们收集人类语音数据的一种方式。

亚马逊的Alexa将用户的语音查询命令传输到服务器,用于进一步训练该工具。苹果通过聘请朗读者来阅读特定的文本,教会Siri新的语言和方言,并让人从服务器上的语音到文本转换模型上转录写语音片段。据报道,微软已经在世界各地设立了模拟公寓,以栩栩如生的环境中捕捉到的音频片段来训练Cortanan 数字助理。

但是,以上所有这些都是私人公司持有的,通常不对学术界、研究人员或将来的竞争对手开放。这就是为什么Mozilla决定推出其Common Voice项目。

“当我们开始开发这些系统时,我们发现我们可以在算法的基础上建立其他人的作品,并在算法方面做自己的创新工作,但是对于所有这些,数据选择,创建和聚合是一个挑战,“Mozilla新兴技术高级副总裁肖恩·怀特(Sean White)说。 “如果你想做一个新的语音识别系统,你不能到市场上随便就能找到一个高质量的数据集来使用。”

Common Voice 邀请所有具有互联网连接和麦克风的人通过网页浏览器上的几次点击来提交他们自己阅读特定句子的简短记录。这与谷歌的项目工作方式类似,虽然Common Voice要求人们提交完整的句子,而谷歌只要求录入那些通常用作命令的特定单词和数字。

这些句子是由志愿者提交的那些会话短语的混合,比如 -“她把充电器还给我了”是项目的GitHub文件中的一个,出自经典电影Charade and It’s a Wonderful Life。Mozilla还要求参与者提供一些基本的人口统计信息,如年龄,性别和英语方言区(例如美国英语,加拿大英语或英语,西印度群岛和百慕大)。

该项目在首次开放的大约57天内收集了大约307,000个录音,每段约3至5秒。 Mozilla开放式创新团队数字战略家Michael Henretty说,这使得总音频的播放时间达到了 340 到 520小时。

他说:“我们已经超越了TED演讲,那是其中一个较大的开源数据集。

Mozilla的目标是在今年晚些时候发布一个版本的数据集,希望能在这段时间内拥有10,000小时的音频,这个数字估计足以训练现代的生产质量标准的系统。这远远超过谷歌刚刚提供的18小时的音频剪辑数据库。拥有大量和各种各样的语音样本的关键原因之一是使得在其上训练的算法避免了意想不到的偏见。因为任何一个尝试使用语音助手的重口音的人都可以证明,这些系统在理解简单的英语方面比别的更好。

谷歌收购的数据科学社区 Kaggle 的数据准备分析师 Rachael Tatman 在今年早些时候发表了一篇关于性别和方言如何影响YouTube 自动化标题准确性的文章。她发现 YouTube 自动标题对于女性和苏格兰口音的演讲不太准确,但根据训练数据的使用情况,不同的系统可能会出现不同的错误模式。

“如果是我看了很多弗吉尼亚州的女性发表的演讲,我也会对来自弗吉尼亚州的女性的演讲听得更准确,而对来自加利福尼亚州的男性就听不了这么准确。”Tatman 说。

现有的开源数据集已经被发现存有“偏见”——例如德州仪器最初收集的交换机对话数据集,现在托管在宾夕法尼亚大学语言数据联盟。有偏见的数据在人工智能的其他领域一直是个问题,一些算法被认为更好地识别白人面孔,或者在理解推特上非裔美国人的英语时有困难,这对旨在为不同受众服务的高科技公司和开源项目来说尤其是问题。

Mozilla 还邀请用户验证提交的样本,验证录音的正确性。最近,由网站进行验证的样品包括来自英语世界各个地方口音的正确录音,还配了一个听不清的样本,以及一段猫王的音乐。

Tatman 说,大多数语音助手背后的公司都没有提供内部语音记录,这并不完全是为了防止竞争。由于很多查询都包含了个人信息,例如网络搜索或短信,如果开放数据将会造成隐私泄露。通过一个人独特的声音就可以识别他。

不过,这些公司仍会在内部使用这些数据:苹果公司过去曾表示,它可以保留两年的Siri数据,以及相应的用户标识(如抽取出的 ID 号码和电子邮件地址),以帮助改进算法。该公司没有对其当前Siri音频保留政策引发的每个评论的进行反馈。

“你的声音是可识别的,”Tatman说。“这被认为是可识别的信息。”

Mozilla 也采取了措施来保护用户隐私,因为它收集的是开源语音数据。“我们费尽心力地将用户与相应的录音分开,使得剪辑本身没有嵌入个人识别信息。”

和一些现有的公开可用语音记录数据集(如经过标记的 TED 演讲)相比,Mozilla 数据集的一个优点是,和Siri或Alexa设备的声音样本一样,录音时的环境条件与人们实际使用语音识别软件时的环境条件相似。

Rudnicky解释道:“他们基本上是用浏览器来收集数据,这意味着所收集的数据的更多地代表了目标用户可能具有的特征。例如,我坐在办公室里,我用的麦克风是办公环境下桌面使用的那种,类似这样。”

所收集的录音拥有各种各样的讲者及口音以及所预期规模的数据集,因而会比现有的那些免费的音频资源更实用,甚至比那些大公司秘而不宣的数据集更有价值。“我们在尽可能地撒一张大网”,Henretty称。

 

(来源:国家工业信息安全发展研究中心综合编译自Fast Company Magazine)