外媒:百度新语音系统超越人工且可小型化-1929cc威尼斯

集团1929cc威尼斯官网
  • 国家级全民数字素养与技能培训基地
  • 河南省第一批产教融合型企业建设培育单位
  • 郑州市数字技能人才(码农)培养评价联盟

外媒:百度新语音系统超越人工且可小型化

编辑:云和数据 日期:2015-08-20 08:00

知名网站medium近日报道称,百度研究院高级工程师awni hannun在参加国际神经网络协会举办的会议中时提出了一种可识别普通话的新模型,该模型基于百度深度语音学习开发,可实现普通话语音查询功能,识别准确率高达94%。

外媒:百度新语音系统超越人工且可小型化
 

普通话语音识别有两个难点。第一则是字符数据量大。英文只有26个字母,但中文约有8万个不同的字符。相比于英文,系统要在每次转录中直接输出8万个字符中的其中一个,如此庞大的数据量对于系统运算能力要求极高。为解决这一问题,研究团队通过收集人们常用词,筛选出有用的字符。这一方法提高了系统运算效率。

第二,在普通话的表述中,声调的不同往往会改变一个词的意思。且在传统的语音识别中,设想所有的语音具有相同间距,以至于在转录时可以忽略它们。但这套理论却无法转译普通话。普通话体系极为复杂,这就语音系统提出了更高的要求。百度通过特殊的语音识别渠道,省去了大量预处理环节来维持音频的稳定间距,再让模型学习何种数据可以最有效的转录,这一做法大大降低了语音识别的难度。

外媒:百度新语音系统超越人工且可小型化

在谈及百度深度语音系统对比skype翻译的优势时,hannum分析认为,百度的优势在于学习能力。每条音轨中包含三个模块,即语音转录模块、机器翻译模块和语音合成模块。百度深度语音系统则不同于以往的语音转录系统,它并没有大量预处理环节,而是直接输入音频文件,再通过深度神经网络输出字符。深度神经网络则需要大量数据,去学习哪些输入信息可将语音转译成正确的普通话。与skype不同,百度希望将该系统作为所有智能设备的语音接口,嵌入到可穿戴设备或语音识别应用中,而不仅仅将它定义为一款语音搜索产品。

medium报道指出,深度学习作为该系统的核心,发挥了极其重要的角色。随着机器翻译和语音识别技术发展趋于成熟,人们更多的希望机器完成输出任务。而深度学习系统的加入则在增加数据量的同时,简化音频轨道,通过不断的学习将机器获取的信息有效输出。这也是hannum看好深度学习的原因。

深度语音识别系统出色的成绩背后是所有全中文数据超过10万亿次运算学习的成果。且该系统还在寻找更多的关于各地方言及口音的信息,扩大系统训练数据。目前,该系统支持超过26万亿次浮点运算,可在几天内完成深度语言的集中训练,提高系统学习效率。数据集与学习效率的不断完善将使百度深度语音识别系统在识别准确率进一步提升。

对于深度学习的未来,hannum认为将该模型在更小的系统上运行是重要的趋势之一。大量实验表明,将现有的学习模型压缩成小模型后,表现依旧稳定。这将使深度学习系统植入手机等移动设备成为现实。

相关内容

string类型的常见命令有哪些? string类型,也就是字符串类型,是redis中最简单的存储类型。其value是字符串,不过根据字符串的格式不同,又可以分为3类:string是普通字符串,int整数类型,可以做自增、自减操作,float浮点类型,可以做自增、自减操作。string的常见命令有:set:添加或者修改已经存在的... 通过form表单提交数据存在哪些缺点? html中的
标签,就是用于采集用户输入的信息,并通过标签的提交操作,把采集到的信息提交到服务器端进行处理。通过点击 submit 按钮,触发表单提交的操作,从而使页面跳转到 action url 的行为,叫做表单的同步提交。表单同步提交存在两个缺... 新手起步理解group by 在 mysql 中,group by用于将具有指定列中相同值的行分组在一起,允许对数据进行分类和聚合,即按照指定的字段或者表达式进行分组。我们现在有一个简单的表student,内容如下表1所示:对于上面这个表,我们要求查询每个班几个人?答案是:select class,count(c... windows资源性能常用计数器及参考值 processor%process timecpu的使用率:该计数器最为常用,可以查看处理器是否处于饱和状态,如果该值持续超过95%,就表示当前系统的瓶颈为cpu,可以考虑增加一个处理器或更换一个性能更好的处理器。(参考值:<80%)processor queue length...
×
网站地图