明升手机版(中国)

作者：刘霞来源：发布时间：2017/12/12 11:16:52

选择字号：小中大

人工智能新目标：看懂视频

目前，人工智能（AI）在图像和语音识别等领域表现出色，但app家认为这还远远不够。据美国《麻省理工技术评论》杂志网站近日报道，对于AI的发展来说，理解视频中的动态行为是接下来的关键发展方向，这对于AI用其软件理解世界至关重要，也有助于AI在医疗、娱乐和教育等领域的广泛应用。

理解图像还要理解动作行为

解释视频的AI系统，包括自动驾驶汽车中的系统，常常依赖于识别静态框架中的对象，而非对行为进行解释。谷歌最近发布了一种能识别视频中对象的工具，并纳为云平台的一部分，该平台包含用于处理图像、音频和文本的AI工具。

但对AI来说，能理解猫为何会骑着Roomba扫地机器人在厨房与鸭子追逐嬉戏，才是彰显其能力之处。

因此，app家面临的下一个挑战可能是教会机器不仅理解视频包含了什么内容，还要理解镜头中发生了什么。这可能带来一些实际的好处，比如带来强大的搜索、注释和挖掘视频片段的新方法，也可以让机器人或自动驾驶汽车更好地理解周围的世界如何运转。

各出奇招用视频训练计算机

目前，app家使用一些视频数据集来训练机器，以使其更好地理解真实世界中的行为，麻省理工学院（MIT）和IBM目前正携手进行相关研究。

去年9月，IBM与MIT宣布组建“IBM—MIT脑启发多媒体机器理解实验室”，双方将合作开发具有高级视听能力的AI。

前不久，MIT和IBM发布了一个庞大的视频剪辑数据集，这个名为“时间数据集时刻”的视频数据集囊括了从钓鱼到霹雳舞在内的许多动作的3秒钟片段。该项目负责人、MIT首席研究app家奥德·奥利瓦说，世界上许多事情瞬息万变。如果你想明白为什么有些事情会发生，运动会给你提供很多信息。

之所以把视频长度定成3秒，是因为大部分时候，人类需要3秒时间，去观察并理解一个动作意图，比如，风吹树动，或者一个物体从桌上掉落下来等。

无独有偶，谷歌去年也发布了一套由800万个做了标记的YouTube视频组成的视频集YouTube-8M；脸谱正在开发名为“场景”“操作”和“对象”集的注释数据集。

普林斯顿大学助理教授奥尔加·鲁萨克维斯基专门从事计算机视觉工作。他表示，此前app家认为，很难开发出有用的视频数据集，因为它们需要比静止图像更多的存储和计算能力。他说：“我很高兴能使用这些新的数据集，3秒的时长很棒——它提供了时间上下文，同时对存储和计算的要求也比较低。”

还有其他机构在研究更具创造性的方法。位于多伦多和柏林的创业公司“二十亿神经元（Twenty Billion Neurons）”创造了一个定制数据集。该公司联合创始人罗兰梅·尼塞维奇称，他们还使用了专门处理时间视觉信息的神经网络，“用其他数据集训练的AI可以告诉你，视频中显示的是足球比赛还是派对；用我们的定制数据集训练的神经网络可以告诉你，是否有人刚刚进入房间。”

转移学习人工智能的未来

按照IBM的解释，人类能够观看一段简短的视频并轻松地描绘出视频内容，甚至能预测后续事件的发生，而这样的能力对机器来说依然是可望而不可及的。因此，IBM和MIT要做的就是，解决机器在认知和预测上的技术难题，在这一基础上开发出一套认知系统。

IBM的丹尼·古特弗罗因德说，有效识别行为要求机器学习某个行动，并将获得的知识应用于正在进行同样行动的情境中，这一领域的进步，即转移学习，对于AI的未来非常重要；而且，这项技术在实际中大有用途，“你可以用它来帮助改善对老年人和残疾人的护理，比如告诉护理人员是否有老人跌倒，或者他们是否已经吃过药等等。”

MIT和IBM也表示，一旦机器能够看懂视频，具备视觉能力的高级计算机认知系统将能用于各种行业，不仅仅是医疗，还有教育、娱乐等领域，包括对复杂的机器进行保养和维修等。（科技日报北京12月11日电）

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

以下评论只代表网友个人观点，不代表明升手机版(明升中国)观点。

�� SSI �ļ�ʱ��