目前,人工智能(AI)在图像和语音识别等领域表现出色,但app家认为这还远远不够。据美国《麻省理工技术评论》杂志网站近日报道,对于AI的发展来说,理解视频中的动态行为是接下来的关键发展方向,这对于AI用其软件理解世界至关重要,也有助于AI在医疗、娱乐和教育等领域的广泛应用。
理解图像 还要理解动作行为
解释视频的AI系统,包括自动驾驶汽车中的系统,常常依赖于识别静态框架中的对象,而非对行为进行解释。谷歌最近发布了一种能识别视频中对象的工具,并纳为云平台的一部分,该平台包含用于处理图像、音频和文本的AI工具。
但对AI来说,能理解猫为何会骑着Roomba扫地机器人在厨房与鸭子追逐嬉戏,才是彰显其能力之处。
因此,app家面临的下一个挑战可能是教会机器不仅理解视频包含了什么内容,还要理解镜头中发生了什么。这可能带来一些实际的好处,比如带来强大的搜索、注释和挖掘视频片段的新方法,也可以让机器人或自动驾驶汽车更好地理解周围的世界如何运转。
各出奇招 用视频训练计算机
目前,app家使用一些视频数据集来训练机器,以使其更好地理解真实世界中的行为,麻省理工学院(MIT)和IBM目前正携手进行相关研究。
去年9月,IBM与MIT宣布组建“IBM—MIT脑启发多媒体机器理解实验室”,双方将合作开发具有高级视听能力的AI。
前不久,MIT和IBM发布了一个庞大的视频剪辑数据集,这个名为“时间数据集时刻”的视频数据集囊括了从钓鱼到霹雳舞在内的许多动作的3秒钟片段。该项目负责人、MIT首席研究app家奥德·奥利瓦说,世界上许多事情瞬息万变。如果你想明白为什么有些事情会发生,运动会给你提供很多信息。
之所以把视频长度定成3秒,是因为大部分时候,人类需要3秒时间,去观察并理解一个动作意图,比如,风吹树动,或者一个物体从桌上掉落下来等。
无独有偶,谷歌去年也发布了一套由800万个做了标记的YouTube视频组成的视频集YouTube-8M;脸谱正在开发名为“场景”“操作”和“对象”集的注释数据集。
普林斯顿大学助理教授奥尔加·鲁萨克维斯基专门从事计算机视觉工作。他表示,此前app家认为,很难开发出有用的视频数据集,因为它们需要比静止图像更多的存储和计算能力。他说:“我很高兴能使用这些新的数据集,3秒的时长很棒——它提供了时间上下文,同时对存储和计算的要求也比较低。”
还有其他机构在研究更具创造性的方法。位于多伦多和柏林的创业公司“二十亿神经元(Twenty Billion Neurons)”创造了一个定制数据集。该公司联合创始人罗兰梅·尼塞维奇称,他们还使用了专门处理时间视觉信息的神经网络,“用其他数据集训练的AI可以告诉你,视频中显示的是足球比赛还是派对;用我们的定制数据集训练的神经网络可以告诉你,是否有人刚刚进入房间。”
转移学习 人工智能的未来
按照IBM的解释,人类能够观看一段简短的视频并轻松地描绘出视频内容,甚至能预测后续事件的发生,而这样的能力对机器来说依然是可望而不可及的。因此,IBM和MIT要做的就是,解决机器在认知和预测上的技术难题,在这一基础上开发出一套认知系统。
IBM的丹尼·古特弗罗因德说,有效识别行为要求机器学习某个行动,并将获得的知识应用于正在进行同样行动的情境中,这一领域的进步,即转移学习,对于AI的未来非常重要;而且,这项技术在实际中大有用途,“你可以用它来帮助改善对老年人和残疾人的护理,比如告诉护理人员是否有老人跌倒,或者他们是否已经吃过药等等。”
MIT和IBM也表示,一旦机器能够看懂视频,具备视觉能力的高级计算机认知系统将能用于各种行业,不仅仅是医疗,还有教育、娱乐等领域,包括对复杂的机器进行保养和维修等。(科技日报北京12月11日电)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。