技术领域
本发明涉及自然语言处理领域,尤其涉及基于迁移学习的中医临床领域词嵌入学习方法及迁移方法。
背景技术
在临床医学领域的研究中,对中医临床领域词嵌入的学习有助于对中医临床文本数据信息进行数据挖掘等任务,中医临床领域词嵌入也可应用于疾病预测、临床事件预测、医学概念消除歧义等研究场景。因为临床医学数据由于其隐私性等问题,研究人员无法获得足够大规模的数据训练高质量的词嵌入,甚至用来训练高质量的词嵌入的资源匮乏。
由于中医临床领域是一个低资源领域不能提供大量的具有结构化的领域内数据,所以现有很多研究人员使用一些简单的深度神经网络方法学习中医临床领域词嵌入。例如基于随机负采样的SG模型,也称SGNS模型。其基本思路对于词向量来说,词的语义关系可以通过向量的数学关系来表达。SGNS模型对每个目标词选择周围的上下文词作为正实例,对于每个正实例还选择了k个噪声样本作为负样本,通过词嵌入向量之间的数学关系,将嵌入移向相邻词并远离噪声词。
但实际上,中心词的不同上下文词与中心词的语义距离也是有很大差别的。对于同一中心词的不同上下文词,其对中心词的贡献度是不同的,中心词的上下文词并非都是真正临近于中心词。应当选择那些真正临近中心词的上下文词作为正样本,然后再去选择负样本。
因而,现有技术中主要存在的技术问题在于,当前中医临床领域数据匮乏的条件下如何能学习到高质量的词嵌入的研究,提高中医临床领域词嵌入向量的质量。
发明内容
本发明针对当前中医临床领域数据匮乏的条件下如何能学习到高质量的词嵌入的研究,提供一种利用迁移学习对匮乏的资源做补充的方法,提高中医临床领域词嵌入向量的质量。针对中医临床领域数据的特点,更改了采样方法以及权重的计算方法,以达到提升词嵌入向量质量的目的。
为了解决上述问题,本发明采用以下技术方案:
在基于迁移学习的中医临床领域词嵌入学习方法中,使用了基于PPMI全局上下文随机负采样方法,其具体实现步骤如下:
步骤1:初步选择SGNS模型作为随机负采样模型。
步骤2:设定中医临床文本词集,上下文窗口的大小,步长,负采样的个数的初始值分别为V,2c,η,k。
步骤3:把这些初始值输入到SGNS模型中,引入新的模型参数值
步骤4:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处。
步骤5:把遍历得到的第一个词作为中心词,记为
步骤6:计算每一个词对
步骤7:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处。
步骤8:将遍历得到的第一个词作为中心词
步骤9:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
步骤10:将中医临床文本词集V中的每个词
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
然后用查表的方式,将上述线段标上m个“刻度”,刻度之间的间隔是相等的,即长 度为1/m的m条等长线段,这些线段依次为第
步骤11:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束。
步骤12:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束。
步骤13:根据所取的负实例更新模型的参数,记作
步骤14:更新词向量,记作
步骤15:重复步骤7至步骤14的操作,直到模型参数
步骤16:输出词汇表中每次词对应的向量参数,即所有词的词向量。
基于迁移学习的中医临床领域词嵌入学习方法中也使用了实例迁移和参数迁移两种方法。在实例迁移方法中使用了跟中医临床领域相关领域的数据集作为迁移的实例。在参数迁移方法中首先使用了中医临床领域相关领域的数据集,训练出一个模型,得到一些模型参数,找出模型中与目标领域相似的部分,再将这些参数作为中医临床领域数据集训练时的先验分布,并将两个数据集的实例作为同一个数据集一起训练出中医临床领域数据集的模型参数。将基于实例迁移和参数迁移两种迁移方法相结合的迁移方法具体实现步骤如下所示:
步骤1:将原有的中医临床领域数据集称作目标领域数据集,记为
步骤2:将源领域数据集
步骤3:
进行以下步骤:
步骤301:将V,2c,η,k输入到所述SGNS模型中,引入模型参数值
步骤302:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤303:把遍历得到的第一个词作为中心词,记为
步骤304:计算每一个词对
步骤305:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤306:将遍历得到的第一个词作为中心词
步骤307:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
对比
步骤308:将中医临床文本词集V中的每个词
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
采用查表的方式,将上述线段标上m个刻度,刻度之间的间隔是相等的,得到长度 为1/m的m条等长线段,这些线段依次为第
步骤309:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤310:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤311:根据所取的负实例更新模型的参数,记作
步骤312:更新词向量,记作
步骤313:重复步骤305至步骤312的操作,直到模型参数
步骤4:输出源领域数据集
步骤5:将目标领域数据集
步骤6:
进行以下步骤:
步骤601:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤602:把遍历得到的第一个词作为中心词,记为
步骤603:计算每一个词对
步骤604:对中医临床文本词集V进行循环遍历,从V的第一个词开始,直到词集结尾处;
步骤605:将遍历得到的第一个词作为中心词
步骤606:预定义PPMI阈值范围:PPMI值递增序列中前20%的上下文词
步骤607:将中医临床文本词集V中的每个词
然后将这条线段映射为长度是1的线段,那么每个词语的长度记作
采用查表的方式,将上述线段标上m个刻度,刻度之间的间隔是相等的,得到长度 为1/m的m条等长线段,这些线段依次为第
步骤608:将上下文窗口进行循环遍历,从第一个上下文词开始,直到第2c个结束;
步骤609:将上下文词进行负采样算法所得到的k个负实例进行循环遍历,从第1个负实例开始,直到第k个负实例结束;
步骤610:根据所取的负实例更新模型的参数,记作
步骤611:更新词向量,记作
步骤612:重复步骤604至步骤611的操作,直到模型参数
步骤7:输出目标领域数据集
与现有技术相比,本发明的有益效果是:
本发明所使用的负采样方法,极大的改进了在确定中心词的前提下,如何选择与当前中心词更接近的上下文词;同时也改进了常规负样本的采样方法,使得上下文词能够按照贡献度来确定其权重。本发明也使用了迁移学习中实例迁移和参数迁移的方法,将两者结合解决了中医临床领域数据量匮乏的根本问题。在使用实例迁移和参数迁移解决低资源问题后,同时采用基于PPMI全局上下文随机负采样的方法,有效的提高了中医临床领域这一低资源领域词嵌入向量的质量。
本发明针对中医临床领域是一个低资源领域,采用了迁移学习的方法。基于实例的迁移学习扩大了低资源领域的数据资源;基于参数知识的迁移学习能够复用已训练好的模型参数,从而达到加快模型训练和节约训练成本的目的。同时改进了采样的方法,使用了基于PPMI的全局上下文随机负采样。来解决中心词的上下文词并非都是真正临近于中心词的问题。
本发明采用的迁移学习和基于正向点互信息值(PPMI)的全局上下文随机负采样相结合方法训练中医临床领域词嵌入,有效的提升了中医临床领域词嵌入的质量。对后续的医学领域的研究提供了高质量的词嵌入。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1是本发明中的PPMI矩阵计算图。
图2是本发明中的PPMI值映射为线段随机采样图。
图3是本发明中的基于PPMI随机负采样结果图。
图4是本发明中的基于点互信息不随机负采样结果图。
图5是本发明中的基于全局的上下文选择的SGNS结果对比图。
图6是本发明中的SGNS、MIX1、MIX2的CMCSM值柱状图。
图7是本发明中的对比实验图。
图8是本发明中的实验结果柱状图。
图9是本发明中的结合基于实例与基于参数知识实验结果柱状图。
图10是本发明中的对比实验结果图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
现在结合说明书附图对本发明做进一步的说明。
在基于PPMI全局上下文随机负采样方法的实验中,选用中医临床记录文本作为任务场景,实验数据主要分为两个部分,
1)中医临床记录数据集,简称TCM。
2)中医树形概念树,简称TC。
TCM来源于一个实际的中医临床记录数据集,该数据集是由中医专家在2006年4月至2008年6月间的日常诊断过程中收集的,样例数据如表1所示,本发明研究的是中医临床记录中的中医概念词嵌入向量,所以只使用临床记录这个部分的数据,其中包含33301条实例条临床记录,每条实例都已做好分词预处理。如,其中一行中的分词包括:腹泻 大便 3次, 咳嗽,喉痒,鼻出热气,潮热,身软,背冷痛,头昏眼花,胃痛,肠鸣,下肢软,肛门坠,手心烧,口干饮水多,小便多,苔黄,舌红,脉细。其中一行的分词包括:咽喉不适,早晨喉干,有痰,白稠,气紧,动则汗出,苔薄黄,舌红。
表1 临床记录示例表
TC数据集来源于中医概念树公开数据,包含3617条实例,即3617个概念树中的概念,概念树分为3层,如表2所示。
表2 概念树数据集示例表
实验任务是使用基于PPMI的随机负采样方法进行采样通过TCM数据集训练得到TC数据 集,中医学概念树数中的概念的词嵌入向量,并通过CMCSM评估方法来度量训练最终得到的 概念的词嵌入向量的质量。实验结果如图3所示,其中PPMI with SGNS表示使用基于PPMI的 随机负采样方法的SGNS模型。其中CMCSM可由
基于PPMI的随机负采样相比于初始的SGNS,CMCSM值略有提升,但提升效果不是很明显,说明在该实验任务场景下,点互信息权重的随机负采样与词频权重的随机负采样差别不明显。
在上面实验的基础上,以基于点互信息的负采样方法来进行采样,不进行随机,直接选取PPMI值最小的作为负样例。实验结果如图4所示,其中PPMI with SGNS表示使用基于PPMI的随机负采样方法的SGNS模型,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型。
基于点互信息的负采样相比于初始的SGNS,CMCSM值有较高的值的提升,比起基于PPMI的随机负采样提升的要更多,说明在该实验任务场景下,点互信息越小的确实越不相关,负采样得到与当前上下文词更不相关的词更利于词嵌入向量质量的提升。
仔细观察两组实验,发现在数据量大的时候,点互信息的提升效果要比数据量小的时候多。造成上述实验提升不明显的原因,有可能是在低资源领域的训练数据集时,词与词之间的相关性差别不明显,因此点互信息的权重作用不明显。
在形成中心词上下文词对后,舍弃掉一部分词对。实验结果如图5所示,PPMI withSGNS表示使用基于PPMI的随机负采样方法的SGNS模型,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
实验的CMCSM值有很大提高。但是对比前三组实验提高的程度,我们发现数据量少的组通过全局上下文选择舍弃掉部分词对后提高最大,但是有理由怀疑是否是过滤后的特征空间过于小了,导致了过拟合。实验结果表明,全局的上下文选择对于词嵌入向量的质量有显著提高。
在基于实例迁移学习的试验中引入了两个数据集,一个是通用领域数据集,简称为UM;一个是西医临床医学文本,简称WM。UM来源于一个实际的医学生活网站爬取的自制数据集,本文研究的是中医临床记录中的中医概念词嵌入向量,所以只使用网页正文的这个部分的数据,其中包含16538条实例。每条实例都已做好分词预处理。WM来源于实际的西医临床记录数据集,其中包含78661条实例条临床记录,每条实例都已做好分词预处理,如表3所示。
表3 WM 数据集示例表
将UM与TCM混合成为新的MIX1数据集,将WM与TCM混合成为新的MIX2数据集,分别统计出MIX1,MIX2的CMCSM值。以传统的SNGS的CMCSM值结果作为基准线,得到的实验结果CMCSM值如图6所示,详细数据结果如表4所示。
表4 基于实例迁移学习结果
通过表4可以发现,MIX1,MIX2所包含的TC中的概念数,均有所增加,说明UM,WM都包含可以利用于TCM词嵌入向量学习的实例,这与使用迁移学习的理论相符。通过柱状图可以发现,相对于SGNS,MIX1,MIX2,CMCSM均有提高,说明基于实例的迁移和基于参数知识的迁移都对词嵌入向量的质量有所提高。同时,结合表4结果可以发现,MIX1,MIX2所包含在TC的概念树的中的概念词均有增多,说明通用领域中和相关领域中均包含了概念词,有效的扩大了目标领域的数据量。而MIX1使用的词数与总词频数均高于比MIX2的,但是同样作为基于实例的迁移,MIX2的CMCSM值比MIX1的高了0.1548,这个值接近MIX1的CMCSM值的2倍。将基于PPMI的不随机负采样方法也结合迁移学习与它本身,作为一组实验,将基于全局的PPMI不随机负采样方法结合迁移学习与它本身,作为一组对比实验,实验结果如图7和图8所示。在图7中,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,MIX2PPMI with SGNS不随机表示在MIX2数据集上使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
实验结果表明,两组的结果均有提升,说明迁移学习方法的可泛化性,在基于PPMI不随机负采样的SGNS模型中,迁移学习提供更多的实例,使得基于PPMI负采样得到的负实例,更接近真实的负实例,在参数更新的时候,使用这些更接近真实的负实例,使得参数更新得更准确。
在同时使用实例迁移和参数迁移的实验中使用的数据集与仅使用实例迁移的实验数据集相同。将WM先通过SGNS训练所得的参数模型,作为TCM数据集SGNS模型训练的初始先验经验,得到词嵌入向量,作为MIX3。实验结果如表5和图7所示。
表5 实验结果表
通过表5可以发现,SGNS, MIX3在包含概念数,使用词数,总词频数均与传统的SGNS模型这个基准线一致,却少于MIX1,MIX2。CMCSM值高于传统的SGNS的,说明基于参数知识迁移学习,确实贡献了一部分有效的先验分布。
通过表1可以发现MIX3的CMCSM值的提高程度不如MIX2,说明MIX3迁移的参数没有MIX2迁移实例知识对模型训练提供的贡献大。分析原因,SGNS模型的迭代停止条件是参数收敛,不再变化,基于参数的知识迁移提供了先验参数,使得参数更新减少了一段更新时间,节约了时间和设备成本,但是那些没有提供到先验知识的中心词的词向量由于更新次数的减少,没有达到更接近真实分布。
在此基础上,将MIX2与MIX3相结合,将基于实例的迁移与基于参数知识迁移学习相结合,即依旧使用MIX2作为训练数据,但将WM先通过SGNS训练所得的参数,作为MIX2数据集SGNS模型训练的初始先验经验,实验结果如表6所示。
表6 基于两种迁移学习结合实验对比结果
通过表6可以发现,MIX2+ MIX3在包含概念数,使用词数,总词频数均与传统的MIX2一致,但CMCSM值却比MIX2高0.0716,是4种实验方案之中最高的,但CMCSM提高值却并不等于MIX3,说明两种迁移学习方法提供的可用知识是有部分重合。
通过柱状图9发现,两种迁移学习方法结合使用效果最好,也从侧面说明基于参数的知识迁移并没有将所有可共享知识迁移给目标领域,基于参数知识的迁移学习和基于实例的参数学习,它们都贡献了自己在源领域的知识,有些知识是不重合的。
通过柱状图10发现,两种迁移学习方法对比在数据参数量较大,模型更新较久的实验组,表现出提升效果更好。在图10中,PPMI with SGNS不随机表示使用基于PPMI的不随机负采样方法的SGNS模型,MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于PPMI的不随机负采样方法的SGNS模型,全局PPMI with SGNS不随机表示使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX2 PPMI with SGNS不随机表示在MIX2数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,MIX3 PPMI with SGNS不随机表示在MIX3数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型,全局MIX3 PPMI with SGNS不随机表示在MIX3数据集上使用基于全局上下文PPMI的不随机负采样方法的SGNS模型。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
机译: 基于多源迁移学习的多中心协同癌预测预测系统
机译: 鲁棒的基于时间和域的迁移学习的通用学习架构
机译: 基于图的迁移学习