|
|
FCS | 文章解读:弱监督槽位填充中极大噪声样本的自动诊断 |
|
论文标题:(弱监督槽位填充中极大噪声样本的自动诊断)
期刊:
作者:Xiaoming SHI, Wanxiang CHE
发表时间:15 Oct 2023
DOI:
微信链接:
原文信息
标 题:
Combating with extremely noisy samples in weakly supervised slot filling for automatic diagnosis
发表年份:
2023年
原文链接:
引用格式:
Xiaoming SHI, Wanxiang CHE. Combating with extremely noisy samples in weakly supervised slot filling for automatic diagnosis. Front. Comput. Sci., 2023, 17(5): 175333
01
导读
槽填充是对话系统自动诊断的一个至关重要的模块,可以为特定类型的信息(槽)提取实体。医生的回答可以看作是对患者询问的弱监督,通过这种方式,可以从未标记的诊断对话中获得大量弱标记数据,缓解数据标注成本高、耗时长的问题。然而,弱标记数据受到样本噪声极大的影响,为了解决这一问题,本文提出了一种简单有效的协同弱教学方法。该方法同时训练两个槽填充模型,这两个模型从两个不同的弱标记数据中学习,然后,一个模型迭代地利用另一个模型生成的选定的弱标记数据。该模型由弱标注数据上的Co-Weak-Teaching得到,可以直接在测试数据上进行测试,也可以在少量人工标注数据上进行顺序微调。在这两种设置下的实验结果表明了该方法的有效性,微观和宏观分数分别提高了8.03%和14.74%。
02
方法介绍
术语定义
定义1.专家级标注数据集
专家级标注数据集表示为,其中表示专家级标注数据集中从在线医疗社区收集的第i个样本中的用户查询,表示专家给出的专家级标注标签,表示专家级标注数据集的数量。
定义2.未标记的数据集
将未标记数据集记为,其中表示从在线医疗社区收集的未标记数据集中的第个样本中的用户查询,表示对应的医生对的响应,表示未标记数据集的数量。
定义3.弱标签
表示的弱标签,通过与MKB中的明升手机版概念进行精确字符串匹配,从中被提取。
定义4.弱标签数据集
弱标签数据集表示为,其中为未标记数据集中的用户查询,为对应的弱标签。
Co-Weak-Teaching
本文提出了一种简单而有效的方法,称为“Co-Weak-Teaching”,它允许用极具噪声的标签鲁棒地训练深度网络。本文的方法同时维护两个网络,这两个网络使用两个不同的弱标记数据初始化,以确保模型从两个不同的方面学习任务,总体架构如图1所示。
图1 模型框架
本文提出的协同弱学习方法用于从极具噪声的弱标记数据中学习,弱标记数据被分为两个独立的数据,弱标记数据1和弱标记数据2。模型1和模型2用预训练的BERT模型初始化,这两个模型交换选定的弱标记数据用于模型训练。
模型初始化
BERT在各种任务上取得了最先进的表现,因此,在这项工作中,两个深度网络都使用公开可用的预训练BERT进行初始化,这两个模型分别表示为图1中的模型1和模型2。
训练
为了保证这两个模型之间的差异性,这两个模型被馈送不同的弱标记数据。具体而言,将整个弱标记数据随机分为两个没有共同样本的数据集和,(算法1中的第一行)。模型分别在这两个数据集上进行训练,并独立更新。
算法的输入是两个分类器,记为和,其中和分别为这两个函数的权值,为输入的查询令牌,为令牌数量,为令牌嵌入维数。
模型训练被进行。首先,被随机分为两个子数据和。其次,和分别对和进行训练(算法1中的第4行和第5行)。形式上,对于每个在中的样本,
式中为中的样本个数,表示第i个输入患者查询,表示第个对应的弱标签,表示交叉熵损失。
对于每个在中的样本,
式中为中的样本个数,表示第i个输入患者查询,表示第i个对应的弱标签,表示交叉熵损失。
亚弱标记数据采集
为了获得亚弱标记数据,训练后的模型使用训练后的和(算法1中的第6行和第7行)从弱标记数据中选择具有高置信度的样本。损失用作置信度度量,选择顶部损耗小的样品。形式上,对于所有弱标记数据中的每个样本,
式中为随迭代次数增长的选择率,为损失函数,为亚弱标记数据1。请注意,这里用于共同训练。
对亚弱标记数据2通过用同样的方法计算,
式中为亚弱标记数据2。
联合教学
联合教学旨在同时培养两种模式,从两个方面学习任务,这两个模型相互交换选定的数据。需要注意的是,这两个数据是以协同教学的方式交替替换的,如算法1中的第8行和第9行所示。为了更好地从弱标记数据中学习,训练过程和亚弱标记数据采集被执行了次。
每次回合后(算法1中的第2行和第3行)更新选择率,
其中为迭代次数,是一个固定值,也是一个预定义的固定值。随着训练次数的增加,该方法将保留越来越多的弱标记数据。最后,放弃弱标记数据的,将其视为极端数据。该方法采用先学习简单样本后学习难样本的课程学习方式进行学习,课程学习方式有助于模型更好地学习数据,选择在弱监督数据中表现较好的模型进行测试。
算法1:Co-Weak-Teaching
03
主要贡献
1.本文提出了一种简单有效的方法,称为Co-Weak-Teaching,以对抗极端噪声的样本。
2.本文进行了大量的实验,证明了联合教学的有效性。
3.本文实验结果证明了仅从医生的反应中学习是有研究空间的。
04
实验结果的简单总结
表1列出了实验的主要结果,手机版了在专家标记数据集上进行微调和不进行微调时,在设置下的精度、召回率、微观、宏观和转向精度结果(%)。弱标记数据有三种使用方法:(1)Naive (2)co-teaching (3) Co-Weak-Teaching(本文所提出的)。
通过对比Co-Weak-Teaching预训练和朴素预训练的结果可以看出,在不进行微调设置的情况下,Co-Weak-Teaching可以使模型在微观精度和宏观精度上分别提高22.03%和19.03%。在微调设置下,Co-Weak-Teaching也达到了最佳性能,微精度提高了0.92%,宏观精度提高了1.22%。结果表明,Co-Weak-Teaching能够显著提高学生在任务上的表现。与不进行微调的情况相比,微调方法在微观精度和宏观精度上都有提高,表明了微调过程的有效性。
此外,模型在微观精度上的表现要优于宏观精度,原因是数据集的长尾效应严重。统计表明,数据集中存在许多少射甚至零射标签。结果表明,伪数据集为低频标签提供了更多的样本,显著提高了宏精度。
表1 在带注释的数据集上进行微调和不进行微调的精度、召回率、微观、宏观和转向精度结果(%)
05
与其他相关研究的对比
DS-AUDI在简化诊断程序和降低收集患者信息的成本方面有巨大的潜力和诱人的技术价值,而DS-AUDI存在一个基本障碍,即患者生成查询的插槽填充(SF)。关于如何从极具噪声的样本中学习SF模型这个难题,本文提出的方法相较于其他研究更加简单有效,这种方法即使在极度嘈杂的样本中也能鲁棒地训练深度网络。
解读:戴西件 南昌大学第二附属医院
审核:张 琨 合肥工业大学
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机app领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和明升中国app引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“明升中国科技期刊国际影响力提升计划”;入选“第4届明升中国国际化精品科技期刊”;入选“明升中国科技期刊卓越行动计划项目”。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础app、明升m88app、工程技术和人文社会app四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
明升中国学术前沿期刊网
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。