世界上讲数千种言语,精确地说大约是6,500种言语,而Google,Facebook,Apple和Amazon等体系每天都在更好地辨认它们。问题是,并非一切这些言语都具有很多可用的语料库,这会使练习支撑这些体系的数据量巨大的模型变得困难。

这便是Google研讨人员正在探究将常识从数据丰厚的言语应用于数据稀缺的言语的技能的原因。它以多言语语音解析器的方式取得了效果,该解析器学习了多种言语的转录,最近在奥地利格拉茨举办的Interspeech 2019会议上承受的预印本中对此进行了具体阐明。一起作者说,他们的单一端到端模型可以高度精确地辨认九种印度言语(印地语,马拉地语,乌尔都语,孟加拉语,泰米尔语,泰卢固语,卡纳达语,马拉雅拉姆语和古吉拉特语),一起展示出“戏剧性的”改善主动语音辨认(ASR)的质量。

“在这项研讨中,咱们重视的是印度,这是一个固有的多言语社会,那里有三十多种言语,至少有一百万人以英语为母语。因为母语的地理位置和一起的文明前史,这些言语中的许多言语在声学和词汇上都有堆叠。”首要合著者以及Google Research软件工程师Arindrima Datta和Anjuli Kannan在博客中解说道。 “此外,许多印度人是双语或三语的,这使得在对话中运用多种言语成为一种普遍现象,并且是练习单一多言语模型的天然事例。”

研讨人员的体系体系结构在某种程度上具有一起之处,它将声学,发音和言语成分结合在一起。从前的多言语ASR作业无法处理实时语音辨认的问题。相比之下,由Datta,Kannan及其搭档提出的模型利用了递归神经络传感器,该传感器适于一次输出一个字符的多种言语的单词。

为了减轻因转录的言语的小数据集而引起的成见,研讨人员修改了体系架构,以包含额定的言语标识符输入,即从练习数据的言语区域派生的外部信号。 (一个示例:在智能手机中设置的言语首选项。)与音频输入相结合,它使模型可以消除给定言语的歧义,并根据需要学习不同言语的独自功用。

该团队经过以剩下适配器模块的方式为每种言语分配其他参数,进一步扩展了模型,然后有助于微调大局每种言语模型并进步全体功能。终究成果是一种多言语体系,其功能优于一切其他单言语辨认器,并简化了训练和服务,一起满意了Google Assistant等应用程序的推迟要求。

一起作者写道:“根据这一成果,咱们期望持续针对其他言语集体的多言语ASR进行研讨,以更好地协助咱们不断增加的多样化用户集体。” “ Google的任务不仅是收拾世界各地的信息,并且使一切人都可以拜访它,这意味着保证咱们的产品可以以世界上尽可能多的言语作业。”

该体系-或相似的体系-可能会进入Google Assistant,该体系在2月份获得了对多韩语,北印度语,瑞典语,挪威语,丹麦语和荷兰语的多圈对话的多言语支持。在相关新闻中,Google推出了解说器形式,可翻译数十种言语和9种由AI生成的新声响。

谷歌研究人员训练AI来扬农化工股吧区分9种印度语言