跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声|CVPR2020
原标题:跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声 | CVPR 2020
金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
见识过「听歌识曲」,体验过 看弹奏动作识曲吗?
就像最近的一档综艺节目中,郎朗比划了几个弹钢琴的动作,他媳妇 (吉娜·爱丽丝)秒答:《柴可夫斯基第一协奏曲》!
来自华盛顿大学的研究团队提出了一种新方法 Audeo,就解锁如此神奇的操作——仅仅根据钢琴师弹奏时的动作,就能直接复现原声音乐。
先来体验下这种神奇的感觉。
下面便是钢琴师演奏时的动图,我们能看到的,仅仅就是手指在钢琴键盘上的变换。
然后,你知道这是哪首曲子吗?
大部分人 (或许郎朗级别的大神们可以)应该是猜不到的。
但AI可以,下面便是这项技术复现的原声音乐。
那么,这般神奇的操作是怎么实现的呢?
三步实现「看动作识音乐」
简单来说,Audeo方法主要包括三大步骤,分别是:
- 钢琴按键检测
- 生成乐谱内容
- 合成音乐
钢琴按键检测
这个步骤可以理解为一个多标签 (multi一label )分类问题。
输入是弹钢琴视频中5个连续的帧,将它们输入到 Video2Roll Net中,经过ResNet18、特征变换、特征细化 (refinement)和相关学习的处理,最后 输出中间帧的按键预测。
值得注意的是,在这个步骤中,研究人员没有直接使用ResNet18,而是在此基础上做了算法改良,提出了Video2Roll Net。
这样做的原因很简单,就是ResNet18检测到的「精度」不够细致,下面2张热力图的对比,便一目了然地展示了2种方法的效果。
生成乐谱内容
在第二个步骤中,就需要将 Roll 转换为 Midi (乐器数字接口),以便合成音乐。
但在上步生成出来的 roll ,没办法直接转换成 Midi,一个至关重要的原因就是—— Roll 不包含 时间信息。
此外,由于 Midi 比较依赖音频流,所以经常出现的一个现象就是:演奏者按一个钢琴键的时间较长时,相应频率的幅度会逐渐衰减为零,也就是在 Midi 中会被标记为零。
像下面这张图中显示的那样,就会造成 不匹配的现象。
并且,研究人员表示:
这种不匹配的现象,是经常发生的。
于是,研究人员便提出了一个叫 Roll2Midi Net的方法解决了这个问题。
主要是在二者之间加入了一个生成对抗网络 (GAN),来调节并解决上述问题。
合成音乐
最后一步,就是根据调节好的 Midi 来生成音乐,主要过程如下图所示。
将 Midi 作为输入,经过一个上采样,而后可以选择通过「Midi 合成器软件」,也可以选择使用「PerfNet+Unet+GriffinLim」的组合方式来生成音乐。
至于 Audeo 方法与其它方法的定量比较,主要集中在第二个核心步骤。
可以明显看到,研究人员在第二步骤中提出来的 Roll2Midi Net方法,在各项评测指标中,都具有一定优势。
合成音乐还可以转换成别的乐器
当然,Audeo 除了精准复现视频中的钢琴音乐外,还有一个更有意思的玩法。
它可以将钢琴原声,转换成 其他乐器的声音。
例如,可以将钢琴音乐转换成 吉他的声音。
还可以将钢琴音乐转换成日本 十三弦古筝的声音。
这个有趣的玩法,主要得益于「合成音乐」这个步骤,选择的方法不同,得到的结果便不同。
研究团队
这项研究由华盛顿大学的 三位研究人员共同完成,研究还入围了本届CVPR。
△从左至右:Kun Su、Xiulong Liu和Eli Shlizerman
论文一作是Kun Su,本科就读于美国纽约州伦斯勒理工大学 (RPI),目前在华盛顿大学攻读电子与计算机工程系攻读硕士。
△Kun Su
研究的另一位作者是Xiulong Liu,本科在上交大就读,硕士毕业于华盛顿大学,目前在OneClick.ai 担任数据科学家。
△Xiulong Liu
论文最后一位作者是Eli Shlizerman,华盛顿大学应用数学及电子与计算机工程助理教授。
目前专攻生物神经网络和人工神经网络的基本特性,通过结合时空数据分析、机器学习和动力系统理论的方法将这两个系统联系起来。
△Eli Shlizerman
那么问题来了,如果以郎朗的手速弹奏钢琴,这个AI的效果还会如此惊艳吗?
论文地址:
https://arxiv.org/abs/2006.14348
作者系网易新闻·网易号“各有态度”签约作者
— 完—
深入解析OceanBase数据库 | 免费报名
在阿里体系内,OceanBase数据库支撑了 支付宝、网商银行等重要业务,已成为世界领先的数据库产品。那么其背后有哪些核心技术?
7月2号第三期直播, 蚂蚁集团OceanBase数据库资深专家--韩富晟(颜然)将介绍数据库发展演进历史,并深入解析OceanBase实现数据库的机制。
扫码报名,可加入直播交流群,还可获取系列课程直播回放、分享PPT:
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
相关文章
-
蜂窝网络数据漫游什么意思
-
2021年中国移动K歌用户规模及用户规模结构分析:全民K歌月均活跃用户数居榜首
-
直播电商里的又一个高潮,粉丝效益的放大镜
-
当年给女主播打赏9000万的小伙,线下娶回家,如今过的怎么样
-
京东回应启用自营智能快递柜:业务刚起步
-
天猫总裁蒋凡首秀:过去一年买家数增加超过1亿
-
7亿罚单!“酸碱体质理论”是世纪骗局,别让卖假药的“神医”们跑了!
-
手机千万不要这样充电, 否则电池一年内就会加速老化!
-
最前线|iOS14提前曝光:ApplePay将支持支付宝,防丢器AirTag也要来了
-
腾讯音乐最新股权曝光:腾讯持股57%Spotify为第三大股东
-
出版业遇上新媒体,优质内容的新读法
-
年终大考最后的锦鲤会不会是你?丨打卡赢大奖Day7
-
勒索病毒盯上二维码支付;优酷总裁杨伟东因贪腐被查
-
央视315曝光网贷、推销行业乱象;京东全站下线电子烟;A站回应抢注哔哩哔哩商标
-
不做搜索后,有道终于迎来春天,去年营收超7亿,即将赴美上市!
-
男会计偷偷挪用公司资金930万打赏女主播,这个钱还能要回来吗?
-
智东西晚报:国产Model3标准版明日降价ARM向初创免费开放半导体设计IP
-
零售巨头学盒马被带坑里了?2019年出坑是关键
-
自媒体小白适合搬运那些平台
-
微信拟推出聊天记录付费云存储服务
-
TikTok要求ShareChat删除视频内容,但这只是冰山一角
-
盒马的五星级大厨为什么要去GUCCI门店找灵感?
-
对话福特、百度高管:BAT车载系统会重蹈手机ROM的覆辙吗?
-
西安做小程序开发该如何入手,有没有什么好的方法或者简单的操作
-
深度分析:吱呀App悄登Store免费社交第四,声音社交有啥魔力?
-
4000万!罗永浩刘作虎直播带货,一加8系列销量大涨
-
爱奇艺、优酷纷纷关闭前台播放量显示,腾讯视频会不会也这么做?
-
被龙源网收录的论文还能再发表吗?
-
马云听了也会生气:权健培训师竟敢称创始人束昱辉曾是阿里操盘手