“相对于计算机视觉等其它人工智能学科,自然语言处理是尚未受到大众关注的学科,但是自然语言理解却是当今人机自然对话的最大瓶颈。”第二届语言与智能高峰论坛上,华为技术有限公司诺亚方舟实验室主任李航号召大家多关注自然语言理解(NLP),称这是巨大的蓝海。
语言智能是人工智能皇冠上的明珠,用自然语言与计算机进行交流,获取合适的信息,得到满意的服务,是人们长期以来所追求的。如果语言智能实现突破,跟它同属认知智能的知识和推理就会得到长足的发展,进而将会推动整个人工智能体系的进步,也会实现更多应用场景的落地。
只有通过自然语言理解,才能实现智能与人类的无缝对接,实现真正意义上的人工智能。然而要实现这一技术,让机器人完全如人类一般“开口说话”,并不容易。
自然语言理解为何难
“语言是一种复杂的现象。”李航解释说,自然语言有自身的重要特点,使得计算机实现自然语言处理很困难。
语言是不完全有规律的,即使有,也是错综复杂的。“语言是经过上万年的时间演化而来,资料库的建立过程一定会出现功能冗余、逻辑不一致等现象。但是语言依旧有一定的规律,若不遵循规范,交流会比较困难。”李航说。
语言是可以组合的,其重要特点是能够将词语组合起来形成句子,能够组成复杂的语言表达;语言是一个开放的集合,我们可以任意地发明创造一些新的表达。“约定俗成的话语一旦形成之后,大家都会使用,形成固定说法。语言本质的发明创造就是通过比喻扩展出来的。”李航说。
不仅如此,语言还需要联系到实践知识,使用也要基于环境,如果在外语的语言环境里去学习外语,人们就会学习得非常快,理解得非常深。李航认为,在计算机里去实现与人一样的语言使用能力是一件非常具有挑战性的事情。
“首先,语言的不完全规律性和组合性,就意味着如果在目前的计算机上去实现,会产生组合爆炸;还有,如果需要语言做比喻,去联系到实践环境,就意味着要做全局的、穷举的计算。如果通过现代计算机来做,非常复杂,几乎不太可能。”李航说。
所以,如果想让计算机像人一样使用语言,原理上需要完全不同的、与人脑更接近的计算机体系架构。
其本质原因是,目前在计算机上去实现东西一定需要数学模型。也就是说,计算机能够做的事情要通过数学形式化。但是,到目前为止,语言的使用还不清楚是否能够用数学模型去刻画。
“语言是不精确的,字面意思背后还有太多太多。”美国伊利诺伊大学芝加哥分校的计算机app教授刘兵说。这也是为什么相较有着一对一表征的图像和语音,自然语言处理是一个如此艰巨的问题。
让机器终身学习
“从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标。”李航说,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现。
目前,所有的自然语言处理的问题都可以分类成为五大统计自然语言处理的方法或者模型,即分类、匹配、翻译、结构预测、马尔可夫决策过程,这些技术主要采用统计机器学习的方法来解决。
“各种各样的自然语言处理的应用,都可以模型化为这五大基本问题,基本能够涵盖自然语言处理相当一部分或者大部分的技术。”李航说。
“自然语言处理的不纯粹是语言的问题。语言可能还要与视觉、听觉连在一起,让机器能够了解世界。”刘兵表示,深度学习的未来是终身学习。
刘兵解释说,不论是神经网络还是其他算法,都是在孤立地学习,现在的模型还无法积累信息。“我们想做的是像人类那样,让机器可以一直不停地学习。这个学习机制与现在的不同:要学,要记,还得能适应。”
深度学习是否代表了一种算法,将智能包含在了里面,刘兵并不敢肯定,他倾向于认为不是。深度学习还是一种函数逼近和映射,通过一些列举的例子发现关系,真正的智能不应该是如此算法。
刘兵更关心终身机器学习还须“适应”相关的内容,深度学习里面有太多的参数,但怎么将知识真正充实在算法里,将来做微小的变化就能解决新的问题,“我不知道深度学习能不能做到这一点,我现在感觉目前的深度学习似乎还没有做到”。
技术不成熟无碍应用
人工智能的更高挑战是自然语言理解。现实当中,虽然自然语言理解非常困难,但我们仍希望计算机能够越来越智能化,能够部分使用语言。
实际上,技术虽然不完善,应用却从未停止。就如问答这类应用,自然语言处理做的第一件事就是把问题简化。“先分析一下问句,接着去检索相关的知识或者信息,然后产生答案。”李航解释说。
现在的自然语言处理,本质是用数据驱动的方法去模拟人,通过人工智能闭环去逼近人的语言使用能力。但是,这种技术并没有真正实现人的语言理解机制。
“每项技术,尽量达到上界固然好,但应用中对于下界的要求是不一样的。”李航说。比如问路,其实听懂对方几个单词就能明白意思,“让机器翻译给我几个单词就行了,这时我们对翻译器的性能要求是比较低的”。
不同的应用,用户对使用性能的要求不同,如果下界达到这个水平,就能满足用户使用。“但是每一个应用是否都能够达到我们要求的性能下界,就不好说了,要看未来的发展。”李航说。
“我们做的是以结果为导向,从市场论证技术,推动它的成熟。”京东商城智能通讯部总监刘丹认为,技术始终处在不稳态,“当技术发展到另一个阶段又会不成熟,但是因为大数据的存在,就能帮助我们的产品提升,我们只要保证做的产品能够给消费者带来价值就好” 。
“产品和技术是可以互补的,收缩和控制人们的使用预期,把产品的可能性发挥到最大,这需要技术研究者和产品生产者共同解决。”百度自然语言处理部门副主管赵士奇说。