最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
原标题:最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
夏乙 发自 麦蒿寺
第一个全卷积语音识别工具包wav2letter++开源了。
出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。
抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。
wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。
Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。
所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。
一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。
Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。
他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。
其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。
想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。
最后,附上传送门~
GitHub地址:
https://github.com/facebookresearch/wav2letter
论文:
wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert
https://arxiv.org/pdf/1812.07625.pdf
作者系网易新闻·网易号“各有态度”签约作者
— 完—
好看吗?↘↘↘
相关文章
-
电商下半场,如何掘金万亿二手闲置商品市场?
-
龙口城市智能体:以生命体为理念建设智慧城市
-
华为终将发布“电视”:一个超大屏手机的客厅战争
-
大乐透21065期晒票,11张复式票汇聚一堂,每个人心中都有自己的梦想
-
从“清朗计划”到“微信公号个人认证”谁在为个人自媒体背书?
-
高通高管:苹果应认真对待中国iPhone禁令
-
中国iPhone降价说明苹果定价会收敛?网友:想多了
-
滴滴外卖“生死劫”
-
提升交通效率、优化出行体验:腾讯打造“以人为中心”的双智内核
-
【钛晨报】暴风集团股票存在被暂停上市风险;字节跳动对收购社交产品“biu校园”不予置评;滴滴在日本宫城地区上线网约出租车服务
-
网上遇到注单未更新同步审核异常怎么办
-
Uber增聘美银、巴克莱等6家投行参与IPO承销,力争上半年上市
-
早报丨马云马化腾李彦宏获改革先锋称号;联想全球首发骁龙855,价格是亮点
-
怎么关闭网吧的防火墙和杀毒软件
-
小米9首发53秒售罄,雷军微博沦陷,说好的现货发售呢
-
首都出版业114家行动企业及内容资源
-
微软CEO:欢迎苹果将iMessage引入Win11系统
-
孟加拉美女靠美食走出非正常恋情,创业云厨房找回自信
-
索尼:取消!
-
爆料大神:之前“iPhone13”相机传闻不准确
-
电脑截图快捷键ctrl加什么
-
从1.0到3.0,互联网券商的变迁中盈路证券如何独辟蹊径
-
苹果2022款MacBookAir最新爆料:屏幕尺寸增加到13.6英寸
-
还在群发消息清好友?教你一秒查看哪些好友删除了你
-
全民k歌里面的a和s什么意思
-
微信最新公告:这些行为永久封号!
-
【虎嗅晚报】马云:数学考1分是事实,但我非常敬畏数学
-
字节跳动发布了「中国 Snapchat」,首款视频社交软件有「多闪」?
-
百度、滴滴谈内部贪腐;荣耀智慧屏或超五千元