公开/公告号CN114841159A
专利类型发明专利
公开/公告日2022-08-02
原文格式PDF
申请/专利权人 云知声智能科技股份有限公司;
申请/专利号CN202210523902.8
申请日2022-05-14
分类号G06F40/289(2020.01);G06F40/211(2020.01);G06F40/12(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构
代理人
地址 100096 北京市海淀区西三旗建材城内1幢一层101号
入库时间 2023-06-19 16:14:25
法律状态公告日
法律状态信息
法律状态
2022-08-19
实质审查的生效 IPC(主分类):G06F40/289 专利申请号:2022105239028 申请日:20220514
实质审查的生效
技术领域
本发明属于文本处理技术领域,具体涉及一种基于阅读理解模型的医疗文本切分方法及装置。
背景技术
文本切分是指将一篇长文档按照需求切分成不同的组块。文本切分通常使用序列标注模型为每一个字符进行标记,该方法首先提前为每一类别的组块定义BIE标签,分别表示组块开头(B)、组块中间位置(I)和组块末尾(E)的字符,而O标签代表非组块内部的字符;然后训练双向循环神经网络模型为每一个字符预测相应的标签;最后针对预测结果进行后处理,将BIE标签进行合并,得到最终的切分结果。
现有基于序列标注的文本切分方法中,仅考虑了文本上下文信息,但并没有考虑每个组块的具体含义。与此同时,使用双向循环神经网络模型在训练和预测过程中,生成每一个字符的隐含层表示需要依赖上下文信息,导致训练和预测速度较慢。如何克服传统使用序列标注方法没有考虑每个组块实际含义导致的训练解码速度慢的缺陷,是亟待解决的技术问题。
发明内容
为此,本发明提供一种基于阅读理解模型的医疗文本切分方法及装置,解决传统使用序列标注方法没有考虑每个组块实际含义导致的训练解码速度慢问题。
为了实现上述目的,本发明提供如下技术方案:一种基于阅读理解模型的医疗文本切分方法,包括:
S1、根据切分的文本对象进行阅读理解模型的问题设计和表征构建;
S2、将待切分的所述文本对象包含的段落进行预处理和表征;
S3、分别将S1中设计的问题和S2中的段落输入编码器网络中,采用所述编码器网络进行信息编码,分别得到设计的问题和段落的编码表示,通过注意力机制输出所述阅读理解模型;
S4、对所述阅读理解模型的加权表征进行softmax计算,输出每个时刻在候选标签集中的概率分布,选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果;
S5、对解码得到的所述标签生成结果进行后处理,得到待切分的所述文本对象的切分结果。
作为基于阅读理解模型的医疗文本切分方法的优选方案,步骤S1包括:
S11、进行问题构建;
S12、将S11构建的问题进行分词、亚词切分预处理,得到问题序列;
S13、将S12得到的问题序列通过预训练语言模型Bert进行表征。
作为基于阅读理解模型的医疗文本切分方法的优选方案,步骤S2包括:
S21、将待切分的所述文本对象作为训练语料,使用BPE算法对训练语料中的句子进行亚词切分,得到段落序列;
S22、将S21得到的段落序列通过预训练语言模型Bert进行表征。
作为基于阅读理解模型的医疗文本切分方法的优选方案,步骤S3包括:
S31、定义基于自注意力机制的问题序列和段落序列的编码器计算单元,将问题序列和段落序列的每个词经过编码器进行编码表示;
S32、计算得到的问题序列和段落序列编码表示之间的注意力权重分布;
S33、获得注意力权重分布的累加和,得到所述阅读理解模型最终的加权表征。
作为基于阅读理解模型的医疗文本切分方法的优选方案,步骤S4包括:
S41、对所述阅读理解模型最终的加权表征进行一层线性变换;
S42、将得到的一层线性变换结果通过softmax输出每个时刻在候选标签集中的概率分布;
S43、选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果。
作为基于阅读理解模型的医疗文本切分方法的优选方案,步骤S5中,对解码得到的所述标签生成结果进行后处理包括,根据标签结果提取标记部分进行合并得到最终的切分结果。
本发明还提供一种基于阅读理解模型的医疗文本切分装置,包括:
问题设计表征单元,用于根据切分的文本对象进行阅读理解模型的问题设计和表征构建;
段落处理表征单元,用于将待切分的所述文本对象包含的段落进行预处理和表征;
信息编码单元,用于分别将设计的问题和段落输入编码器网络中,采用所述编码器网络进行信息编码,分别得到设计的问题和段落的编码表示,通过注意力机制输出所述阅读理解模型;
标签生成单元,用于对所述阅读理解模型的加权表征进行softmax计算,输出每个时刻在候选标签集中的概率分布,选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果;
切分结果处理单元,用于对解码得到的所述标签生成结果进行后处理,得到待切分的所述文本对象的切分结果。
作为基于阅读理解模型的医疗文本切分装置的优选方案,所述问题设计表征单元包括:
问题构建子单元,用于进行问题构建;
问题序列生成子单元,用于将构建的问题进行分词、亚词切分预处理,得到问题序列;
问题序列表征子单元,用于将得到的问题序列通过预训练语言模型Bert进行表征。
作为基于阅读理解模型的医疗文本切分装置的优选方案,所述段落处理表征单元包括:
段落序列生成子单元,用于将待切分的所述文本对象作为训练语料,使用BPE算法对训练语料中的句子进行亚词切分,得到段落序列;
段落序列表征子单元,用于将得到的段落序列通过预训练语言模型Bert进行表征。
作为基于阅读理解模型的医疗文本切分装置的优选方案,所述信息编码单元包括:
编码表示子单元,用于所述定义基于自注意力机制的问题序列和段落序列的编码器计算单元,将问题序列和段落序列的每个词经过编码器进行编码表示;
注意力权重子单元,用于计算得到的问题序列和段落序列编码表示之间的注意力权重分布;
加权表征子单元,用于获得注意力权重分布的累加和,得到所述阅读理解模型最终的加权表征。
作为基于阅读理解模型的医疗文本切分装置的优选方案,所述标签生成单元包括:
线性变换子单元,用于对所述阅读理解模型最终的加权表征进行一层线性变换;
softmax处理子单元,用于将得到的一层线性变换结果通过softmax输出每个时刻在候选标签集中的概率分布;
标签生成结果解码子单元,用于选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果。
作为基于阅读理解模型的医疗文本切分装置的优选方案,所述切分结果处理单元包括:
后处理子单元,用于根据标签结果提取标记部分进行合并得到最终的切分结果。
本发明具有如下优点:根据切分的文本对象进行阅读理解模型的问题设计和表征构建;将待切分的文本对象包含的段落进行预处理和表征;分别将设计的问题和段落输入编码器网络中,采用编码器网络进行信息编码,分别得到设计的问题和段落的编码表示,通过注意力机制输出阅读理解模型;对阅读理解模型的加权表征进行softmax计算,输出每个时刻在候选标签集中的概率分布,选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果;对解码得到的标签生成结果进行后处理,得到待切分的文本对象的切分结果。本发明通过对需要切分的文本对象内容设计相应的问题,使得切分得到的内容与组块的实际含义相关;与此同时,本发明提出了使用基于注意力机制的编码器网络替代循环神经网络,不仅增强了模型的表征能力,还加快了训练和解码的速度。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明实施例1提供的基于阅读理解模型的医疗文本切分方法涉及的阅读理解模型示意图;
图2为本发明实施例1提供的基于阅读理解模型的医疗文本切分方法流程示意图;
图3为本发明实施例2提供的基于阅读理解模型的医疗文本切分装置示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1,本发明实施例中涉及的阅读理解模型由三部分组成,分别是Query,Context和Answer,其中,Query表示阅读理解模型框架中的问题,Context是由多句话构成的段落,其中包含Answer,阅读理解模型的目标是根据Query从Context中搜索得到Answer。
本发明的整体思路是,利用阅读理解模型进行文本对象的切分,首先根据想要切分文本对象的字段进行问题设计,构造出阅读理解模型的Query,Context为整个文本对象,Answer为想要切分得到的文本片段;然后使用(Query,Context,Answer)数据进行模型训练,实现阅读理解模型的构建;最后,阅读理解模型推理时,将Query和Context输入到阅读理解模型中,即可得到切分结果。以下为本发明的详细内容。
参见图2,本发明实施例1提供一种基于阅读理解模型的医疗文本切分方法,包括:
S1、根据切分的文本对象进行阅读理解模型的问题设计和表征构建;
S2、将待切分的所述文本对象包含的段落进行预处理和表征;
S3、分别将S1中设计的问题和S2中的段落输入编码器网络中,采用所述编码器网络进行信息编码,分别得到设计的问题和段落的编码表示,通过注意力机制输出所述阅读理解模型;
S4、对所述阅读理解模型的加权表征进行softmax计算,输出每个时刻在候选标签集中的概率分布,选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果;
S5、对解码得到的所述标签生成结果进行后处理,得到待切分的所述文本对象的切分结果。
本实施例中,步骤S1包括:
S11、进行问题构建;
S12、将S11构建的问题进行分词、亚词切分预处理,得到问题序列;
S13、将S12得到的问题序列通过预训练语言模型Bert进行表征。
具体的,步骤S1是对切分的字段进行问题Query的设计与表征构建。在S11中,问题构建方式如:
片段:查体文本片段。
问题:患者做了哪些体格检查?
在步骤S12中,将S11得到的问题进行分词,亚词切分等预处理,这样得到问题Query序列Q=[q
具体的,本实施例中采用的分词算法、亚词切分算法、预训练语言模型Bert算法本身是现有的。
本实施例中,步骤S2包括:
S21、将待切分的所述文本对象作为训练语料,使用BPE算法对训练语料中的句子进行亚词切分,得到段落序列;
S22、将S21得到的段落序列通过预训练语言模型Bert进行表征。
具体的,在步骤S2中将待切分的文本对象Context进行预处理和表征。为了降低集外词对生成性能的影响,步骤S21首先使用BPE方法将所有训练语料中句子进行亚词切分,得到Context序列C=[c
本实施例中,步骤S3包括:
S31、定义基于自注意力机制的问题序列和段落序列的编码器计算单元,将问题序列和段落序列的每个词经过编码器进行编码表示;
S32、计算得到的问题序列和段落序列编码表示之间的注意力权重分布;
S33、获得注意力权重分布的累加和,得到所述阅读理解模型最终的加权表征。
具体的,步骤S3分别将预处理好的问题序列Query和待切分文本对象的段落序列Context输入编码器网络中,编码器网络将问题序列Query和段落序列Context的信息编码,得到相应的编码表示;然后通过注意力机制计算得到模型输出。
具体的,在步骤S31中,定义
其中,
在步骤S32中,计算得到Query和Context编码表示之间的注意力权重分布:
其中,a
在步骤S33中,将注意力权重分布a
其中,
本实施例中,步骤S4包括:
S41、对所述阅读理解模型最终的加权表征进行一层线性变换;
S42、将得到的一层线性变换结果通过softmax输出每个时刻在候选标签集中的概率分布;
S43、选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果。
具体的,在步骤S4中,通过阅读理解模型最终的加权表征进行softmax计算,判断是否为切分文本对象的开始和结束。步骤S41中,模型最终的加权表征
其中,
在步骤S42中,线性变换得到的
其中,Prob
在步骤S43中,选择最大概率对应的标签作为时刻i的输出的结果:l
根据上述步骤,依次解码得到最终的标签生成结果L[l
本实施例中,步骤S5中,对解码得到的所述标签生成结果进行后处理包括,根据标签结果提取标记部分进行合并得到最终的切分结果。
具体的,根据步骤S43得到的标签生成结果,提取其中标记为B、I、E(组块开头B、组块中间位置I、组块末尾E)的部分并合并,得到最后的切分结果Answer,L=[a
综上所述,本发明根据切分的文本对象进行阅读理解模型的问题设计和表征构建;将构建的问题进行分词、亚词切分预处理,得到问题序列;将待切分的文本对象作为训练语料,使用BPE算法对训练语料中的句子进行亚词切分,得到段落序列;将得到的段落序列通过预训练语言模型Bert进行表征;将待切分的文本对象包含的段落进行预处理和表征;分别将设计的问题和段落输入编码器网络中,采用编码器网络进行信息编码,分别得到设计的问题和段落的编码表示,通过注意力机制输出阅读理解模型;对阅读理解模型最终的加权表征进行一层线性变换;将得到的一层线性变换结果通过softmax输出每个时刻在候选标签集中的概率分布;选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果。本发明通过对需要切分的文本对象内容设计相应的问题,使得切分得到的内容与组块的实际含义相关;与此同时,本发明提出了使用基于注意力机制的编码器网络替代循环神经网络,不仅增强了模型的表征能力,还加快了训练和解码的速度。
实施例2
参见图3,本发明实施例2还提供一种基于阅读理解模型的医疗文本切分装置,包括:
问题设计表征单元1,用于根据切分的文本对象进行阅读理解模型的问题设计和表征构建;
段落处理表征单元2,用于将待切分的所述文本对象包含的段落进行预处理和表征;
信息编码单元3,用于分别将设计的问题和段落输入编码器网络中,采用所述编码器网络进行信息编码,分别得到设计的问题和段落的编码表示,通过注意力机制输出所述阅读理解模型;
标签生成单元4,用于对所述阅读理解模型的加权表征进行softmax计算,输出每个时刻在候选标签集中的概率分布,选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果;
切分结果处理单元5,用于对解码得到的所述标签生成结果进行后处理,得到待切分的所述文本对象的切分结果。
本实施例中,所述问题设计表征单元1包括:
问题构建子单元11,用于进行问题构建;
问题序列生成子单元12,用于将构建的问题进行分词、亚词切分预处理,得到问题序列;
问题序列表征子单元13,用于将得到的问题序列通过预训练语言模型Bert进行表征。
本实施例中,所述段落处理表征单元2包括:
段落序列生成子单元21,用于将待切分的所述文本对象作为训练语料,使用BPE算法对训练语料中的句子进行亚词切分,得到段落序列;
段落序列表征子单元22,用于将得到的段落序列通过预训练语言模型Bert进行表征。
本实施例中,所述信息编码单元3包括:
编码表示子单元31,用于所述定义基于自注意力机制的问题序列和段落序列的编码器计算单元,将问题序列和段落序列的每个词经过编码器进行编码表示;
注意力权重子单元32,用于计算得到的问题序列和段落序列编码表示之间的注意力权重分布;
加权表征子单元33,用于获得注意力权重分布的累加和,得到所述阅读理解模型最终的加权表征。
本实施例中,所述标签生成单元4包括:
线性变换子单元41,用于对所述阅读理解模型最终的加权表征进行一层线性变换;
softmax处理子单元42,用于将得到的一层线性变换结果通过softmax输出每个时刻在候选标签集中的概率分布;
标签生成结果解码子单元43,用于选择最大概率对应的标签作为对应时刻的输出结果,依次解码得到最终的标签生成结果。
本实施例中,所述切分结果处理单元5包括:
后处理子单元51,用于根据标签结果提取标记部分进行合并得到最终的切分结果。
需要说明的是,上述装置各单元/子单元之间的信息交互、执行过程等内容,由于与本申请实施例1中的方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述计算机可读存储介质中存储有基于阅读理解模型的医疗文本切分方法的程序代码,所述程序代码包括用于执行实施例1或其任意可能实现方式的基于阅读理解模型的医疗文本切分方法的指令。
计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。
实施例4
本发明实施例4提供一种电子设备,包括:存储器和处理器;
所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的基于阅读理解模型的医疗文本切分方法。
具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
机译: 培养阅读理解模型的方法,以及阅读理解处理的方法
机译: 培养阅读理解模型的方法,以及阅读理解处理的方法
机译: 阅读理解模型的培训方法和阅读理解的处理方法