“部分居民生活水平”这样简单的中文短语,人类理解起来没有丝毫困难。但把这一短语交给机器,是理解成“部分/居民/生活/水平”,还是“部/分居/民生/活水/平”,却着实是个问题。
在7月5日-10日举行的自然语言处理(NLP)领域顶级学术会议 ACL 2020上,来自创新工场大湾区人工智能研究院的两篇入选论文,正是针对中文自然语言处理的类似问题,各自提出了“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”,将外部知识(信息)创造性融入分词及词性标注模型,有效剔除了分词“噪音”误导,大幅度提升了分词及词性标注效果。
“中文的分词和词性标注是自然语言处理的基本任务,对于后续的应用和任务处理非常重要。”两篇论文的作者之一、创新工场大湾区人工智能研究院执行院长宋彦告诉《明升中国app报》,对于文本分类、情感分析、文本摘要、机器翻译等,分词和词性标注是不可或缺的基本“元件”。
记忆神经网络刷新中文分词新高度
宋彦介绍,在工业场景中,对中文的分词和词性标注有非常直接的诉求,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。
中文分词目的是在中文语句的字序列中插入分隔符,将其切分为词。例如,“我喜欢音乐”,在机器中将被切分为“我/喜欢/音乐”。
然而,中文语言因其特殊性,在分词时面临着两个主要难点。一是歧义问题,一是未登录词问题。
“由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。”宋彦说。例如机器对前文“部分居民生活水平”的理解;再如“他从小学电脑”,正确的分词是“他/从小/学/电脑”,但在机器里会划分出“小学”这种歧义词。
未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词,例如经济、医疗、科技等领域的专业术语或者社交媒体上的新词,或者是人名。“这类问题在跨领域分词任务中尤其明显。”宋彦表示。
在论文中,宋彦等人提出了“基于键-值记忆神经网络的中文分词模型”。该模型利用“n元组”提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解,并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。
在“部分居民生活水平”这句话中,该模型通过神经网络,学习哪些词对于最后完整表达句意的帮助更大,进而分配不同的权重。像“部分”、“居民”、“生活”、“水平”这些词都会被突出,但“分居”、“民生”这些词会被降权处理,从而预测出正确的结果。
为了检验该模型的分词效果,论文进行了严格的标准实验和跨领域实验。实验结果显示,该模型在5个数据集上均达了最好的成绩。
“双通道注意力机制”有效剔除“噪音”误导
宋彦指出,中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。
在词性标注中,歧义仍然是个老大难的问题。在以往的标注工作中,使用外部自动工具获取句法知识是主流方法。在这种情况下,如果模型不能识别并正确处理带有“杂音”的句法知识,很可能会被不准确的句法知识误导,做出错误的预测。
针对这一问题,宋彦等人在论文中提出了一个“基于双通道注意力机制的分词及词性标注模型”。该模型将中文分词和词性标注视作联合任务,可一体化完成。
模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。
例如对“他马上功夫很好”这句话,该模型通过识别该句话的语境和上下文特征,对“马上”二字进行分开识别成“马/上”,而不是识别成“马上”。
“这样一来,那些不准确的、对模型预测贡献小的上下文特征和句法知识就能被识别出来,并被分配小的权重,从而避免模型被这些有‘噪音’的信息误导。”宋彦说。
该模型在5个数据集的表现也都超过前人的工作,得到了较好的效果。
推动中文分词和词性标注技术开源
据了解,中文分词在明升中国科研领域已经有几十年的历史。最初的中文分词是基于词典构建,词典的好坏会直接影响到最后分析的效果。如果某个新词在词典里没有,那么模型是死活都分不出来的。
“这意味着,词典和分词两件事情中间始终有一条鸿沟,尽管词典可以编撰得非常全面,但在分词的时候,因为每一句话都有上下文语境,往往会产生多种不同的切分方法,从而无法有效地在当前语境下对分词结构进行恰当的指导。”宋彦说。
从2003年开始,分词方法出现了新的突破。研究人员提出了打标签的方式,通过给每一个字打词首、词尾、词中的标签,不再需要构建词典,大幅度提升了未登录词的机器理解效果。
2014年左右,深度学习和神经网络开始被广泛应用到中文分词中,打标签的模型从之前的浅层学习变成了深度学习,但算法本质没有发生变化,所以提升作用并不太大。
近两年,学界开始研究怎么在打标签的过程中加入外部知识和信息。“我们的两篇文章就是沿着这个路径,用记忆神经网络的方式记录对分词结果有影响的n元组,并引入对词性标注有影响的句法知识,将分词结果和自动获得的知识衔接起来,既发挥了神经网络的优势,也把知识的优势用上,实现了分词技术上小而有效的改进和突破。”宋彦说。
宋彦表示,做此项研究的目的是主要为了拓展其工业场景的应用,正确的分词能够平衡应用开发的效率和性能,同时方便人工干预及(预)后处理。
而这也是创新工场人工智能工程院的努力方向之一。据悉,创新工场AI工程院成立于2016年,旨在衔接科技创新和行业赋能,做嫁接科研和明升应用的桥梁,为行业改造业务流程、提升业务效率。
AI工程院下设北京总部、南京研究院和大湾区研究院。在大湾区研究院,下设信息感知和理解实验室,专注于对自然语言处理(NLP)领域的研究。宋彦本人也有超过15年的NLP领域的科研经验。
目前,这两篇论文的分词和词性标注工具都已经开源,对应的代码和模型向公众开放,以方便学者提升相关领域科研效率和场景应用。
相关论文信息:http://www.aclweb.org/anthology/2020.acl-main.734/
http://www.aclweb.org/anthology/2020.acl-main.735/
版权声明:凡本网注明“来源:明升中国app报、明升手机版(明升中国)、app手机版杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、明升头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。