最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
原标题:最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
夏乙 发自 麦蒿寺
第一个全卷积语音识别工具包wav2letter++开源了。
出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。
抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。
wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。
Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。
所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。
一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。
Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。
他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。
其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。
想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。
最后,附上传送门~
GitHub地址:
https://github.com/facebookresearch/wav2letter
论文:
wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert
https://arxiv.org/pdf/1812.07625.pdf
作者系网易新闻·网易号“各有态度”签约作者
— 完—
好看吗?↘↘↘
相关文章
-
马化腾青腾大学演讲:人口红利正在向创新红利转变
-
华为自研搜索引擎曝光:「花瓣」虽小,但要替代谷歌
-
第一批看懂垃圾分类的人,已经赚了一百万了
-
直播带货改变国货格局?国潮日化仰攻外资,全靠“三围”
-
马斯克卫星事业最强对手倒下:孙正义连连加持后烧掉34亿美元,上周还在发射卫星,受新冠影响无奈申请破产
-
别多想!探探上跟你打招呼的美女可能是个机器人…
-
一文了解云计算,全世界一台计算机
-
科技与时尚完美融合,华为打造全新审美逻辑
-
阿里巴巴将于今日上午9时开始在香港公开发售;亚马逊抗议美国防部将100亿美元云计算合同授予微软|早8点档
-
蚂蚁金服计划为1000万家欧洲中小企业提供支持
-
“喜尚传媒”编辑解析百度百科怎么创建词条?有哪些规则要求?该怎么操作
-
苹果iTunes即将大改:播客和音乐将拆分
-
“泡沫”OR“刚需”,哪个是宠物智能设备的未来?
-
家具家电租赁平台“轻松住”完成240万美元Pre-A轮融资
-
一天卖8.18亿,传统服装品牌如何做电商?
-
Airoha络达达发達發科技一级代理分销KOYUELEC光与电子
-
科学家发现真正的冥界,身处黑暗之中,冥界呆一年地上248年
-
小米晒双折叠屏手机,是“折腾”还是引领未来的新技术?
-
Facebook假新闻太多,维基百科创始人办了一个新的社交网络
-
Supreme Italia:即使跟三星的合作泡汤,我们也要进军中国
-
TikTok要求ShareChat删除视频内容,但这只是冰山一角
-
顺络电子:新能源储能是公司未来布局的重点市场
-
极客荐|还把文件存放在本地?这些云服务工具能解放你的硬盘空间
-
小米公开招兵买马,联想常程、小辣椒王晓雁纷纷入局
-
华为今年在IoT领域将投入约70亿美元研发费用
-
焦点分析 | 关于微信的故事,我们统统都想错了
-
观察+|阿里真想要屈臣氏,腾讯更像在扶植“反对派”
-
爱优腾B站齐压码互动视频,技术与内容制作问题待攻克
-
后网剧时代,搜狐的赋能与娱乐闭环的进击