我们生活在物理世界里,但往往没有深入思考这样一个问题:本身是如何迅速理解周边事物的?
人类能够对布景的变化、事物之间的彼此关联等等做出非常自然的反映。而且,这些反映并不会耗费我们多少注意力,同时还能措置得非常妥帖。
但是,人类的这种与生俱来的能力对于机器来说就没那么简单了。对于一个事物,其潜在成长的变化方式有成千上万种可能,这让计算机学会如何正确地做出预测长短常困难的。
近期,麻省理工学院(MIT)计算科学与人工智能尝试室(CSAIL)的研究工作者的一项研究成果再次推进了机器学习的成长。深度学习算法仅仅通过一张图片,就可以让计算机便生成一小段视频来模拟图中场景,并预测接下来会发生的情景。
训练过程使用了 200 万个无标签的镜头,视频总时长达一年。对比使用基准模型算法,营销网站建设,这一算法生成的视频更真实。在测试过程中,深度学习算法生成的视频和比基准模型算法真实度高了 20%。
研究团队称,这项技术可以用于改良安检策略、提高自动驾驶安全性等诸多范围。据该尝试室博士生与第一作者透露,这一算法能够实现人类活动的机器识别从而摆脱人工识此外昂扬费用。“这些视频展现了电脑认为将会发生的场景,”Vondrick 暗示,“如果你可以预测未来,那么你必需能够理解目前发生的事情。“Vondrick、MIT 传授 Antonio Torralba 还有 Hamed Pirsiavash 传授共同发表的这一成果。Pirsiavash 传授是 CSAIL 的博士后,现于马里兰大学担任传授。这项工作将于下周在巴塞罗那召开的神经信息措置系统大会(NIPS)上展出。
MIT人工智能尝试室使用深度学习算法生成预测性视频。图为沙滩、运动、火车站及病院的预测成果
此项目花费了近两年的时间让算法“学习”两百万幅未加标签的视频。
动态视觉
许多计算机视觉范围的研究工作都研究过类似的课题,包罗 MIT 传授 Bill Freeman。Freeman 传授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不外他所提出的问题模型集中在解决未来视频的揣度上。这是先前研究成果中未呈现过的。
以往的系统模型逐帧重建场景,凡是会在边缘有较大误差。与此相反,这项研究并吞了“成立整个场景”的难题,算法从一开始就能发生帧率为 32 的视频。
“逐帧成立场景就像玩 Telephone Game 一样(Telephone Game 是什么?传送门:),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地措置一整个场景,就比如这个游戏中你能将动静传给所有人一样。”
当然,在同时出产所有场景时会有一些权衡,而且针对长视频,计算机模型也长短常复杂的,但这一成果在逐渐变得准确。这种精准的预测相对于增加的复杂度长短常值得的。为了成立多帧场景,研究工作者训练计算机来区分前景和布景。尔后将提取的对象放回视频中再训练,哪个部门是静止的,哪个部门是运动的。
研究团队使用称作“adversarial learning”的深度学习算法,该方式训练两个竞争神经网络。此中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的分歧。
通过训练,视频生成的成果便可以骗过检测器。此时,这一模型可以生成诸如海滩、火车站、病院、高尔夫球场等场景。比如,海滩模型可以生成波浪,高尔夫球场模型可以生成草坪上走动的人群。
团队使用两个彼此竞争的神经网络。高斯白噪声输入到系统G发生虚假视频,选择性的将真是视频或是虚假视频送入到系统D中,输出后得到真实的视频。
此中一个网络的工作过程具体如上图,将 100dB 的白噪声分袂输入到前景和布景图流中,在进行采样和 Sigmoid 蒙版措置,得到参数并按照公式生成空时图像矩阵,从而发生视频。