公开/公告号CN113836896A
专利类型发明专利
公开/公告日2021-12-24
原文格式PDF
申请/专利权人 黑龙江阳光惠远信息技术有限公司;
申请/专利号CN202111009517.3
申请日2021-08-31
分类号G06F40/216(20200101);G06F40/284(20200101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);
代理机构23211 哈尔滨市阳光惠远知识产权代理有限公司;
代理人刘景祥
地址 150028 黑龙江省哈尔滨市高新技术产业开发区科技创新城创新三路600号22楼
入库时间 2023-06-19 13:49:36
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种基于深度学习的专利文本摘要生成方法和装置。
背景技术
现有的研究专利内容、提高专利技术逐渐成为人们越来越想实现的目标。专利代理师在专利检索、专利文本阅读过程中会面临严重的信息过载问题,在海量的专利数据中,如何快速获取核心专利,如何准确提取出专利的关键信息,如何预测核心专利的申请趋势,已经成为企业甚至整个国家渴望探求的目标。
专利分析师通过专利数据库寻找目标需求的专利时,大多都是基于关键词相似度来获取相关专利,并且可以根据相似度进行排序。目前这种方式的检索结果中包含了一些相关度较低的专利,这给检索出的专利数据造成了很大的噪声。另外,许多专利的摘要都是人工撰写的,它们大多没有完全描述出其核心思想,这给专利分析师和代理师的后期工作带来了极大不便。如何有效筛选出目标需求的核心专利,提高检索结果中专利的质量,降低检索成本是专利检索领域面临的重大问题。为了快速阅览和消化专利检索出的海量数据,
在自动摘要技术领域,得到摘要结果可分为抽取式摘要(ExtractiveSummarization)和生成式摘要(Abstractive Summarization),抽取式摘要是依照一定的原则或算法从原文档中抽取部分句子内容作为摘要,这些句子全部都出自原文档。生成式摘要是基于原文本中的关键词和关键短语,获取主要思想后用不同的方式表达出来构成摘要,且摘要的词语、语序等内容与原文本存在差异。
抽取式摘要生成的摘要只考虑了文本的表面信息而忽视了上下文语境,且没有将文本信息全部归纳;因此,得到摘要中的句子之间关联性不强且信息冗长。生成式文本摘要在对数据集训练的过程中,模仿文本的语言特征从而生成连接性强的摘要,能够防止生成冗长的摘要,但对长文本的学习能力并不突出。目前,自动生成摘要的技术还处于成长阶段。因此,目前专利检索时需要阅览大量的专利文本才能获取专利文本的核心内容,是当前专利分析领域正面临的问题。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于深度学习的专利文本摘要生成方法,包括:
数据采集步骤:对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
深度学习步骤:对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
半监督学习步骤:将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
优选地,所述方法还包括:
摘要评价步骤:采用如下方式之一确定生成的摘要的质量:
通过统计生成的摘要与专利文本参考摘要之间的重复词的ROUGE系列指标的数值,确定生成的摘要的质量;
将生成的摘要中的句子进行向量化,计算其与专利文本参考摘要的句子的相似度,确定生成的摘要的质量。
优选地,获得所述专利文本参考摘要的方式包括:
权重提取步骤:根据专利文本的各个词语的属性,计算所述专利文本原文句子的权重;
参考摘要生成步骤:根据所述专利文本中各个原文句子的权重的排序,提取所述专利文本的参考摘要。
优选地,所述属性包括:词语长度、词性、词频。
优选地,所述基于RNN的Seq2Seq模型包括:
编码器:将输入的词汇表中的每个词汇编码成一个对应于当前所要输出序列的上下文信息长度的语义向量;和
解码器:将所述语义向量根据注意力机制的分布,生成概率最大的词语序列。
优选地,所述基于RNN的Seq2Seq模型采用以下步骤进行训练:
将每个词汇编码成一个序列;
将所述序列按照每一时刻的隐层状态,通过隐藏层向量计算所述序列对应的语义向量;
根据所述词汇表中每个词语的权重,确定每个输出词项的分布;
根据每个词语的隐藏层状态的关注程度,得到概率最大的词语序列。
优选地,所述半监督学习的自训练算法训练的深度学习网络采用以下步骤进行训练:
对有标签的训练数据进行训练得到一个自训练模型;
使用所述自训练模型预测所有未标记数据实例的类标签;在这些预测的类标签中,使用正确率最高的类标签作为未标记数据实例的伪标签;
将标记伪标签数据与有标签的训练数据组合后重新进行训练获得基于RNN的Seq2Seq模型。
优选地,对所述基于RNN的Seq2Seq模型进行训练后,还包括:
使用获得的基于RNN的Seq2Seq模型预测有标签的训练数据实例的类标签,根据预测的类标签与原有标签是否一致评估所述基于RNN的Seq2Seq模型的性能。
优选地,所述基于RNN的Seq2Seq模型采用以下步骤进行训练包括:
将每个词汇编码成一个序列,表示为X={x
将输入序列X=(x
c=f(x
y
编码器根据当前时刻输入的词向量x
h
通过隐藏层向量计算语义向量c:
c=q({h
其中,m为隐藏层状态的总数;
在解码端,由编码器生成的语义向量c和上一次生成的输出序列{y
在解码时刻t,根据语义向量c、上一时刻的隐藏层状态s
s
根据语义向量c、当前隐藏层状态s
P(y
其中,f(·)、l(·)q(·)和r(·)为非线性激活函数,P(·)为概率分布函数,表示生成每个y
计算h
e
其中,e
对h
每个输出词项的分布为:
p(y
得到词语序列Z,公式如下:
Z=∑
第二方面,本发明提供一种基于深度学习的专利文本摘要生成装置,包括:
数据采集模块:设置为对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
深度学习模块:设置为对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
半监督学习模块:设置为将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
本申请提出将半监督学习与深度学习相结合的自动摘要技术,即用有标签数据和无标签数据结合,训练基于RNN的Seq2Seq+Attention模型,生成的文本摘要不再仅仅是来自原文本的原词原句;重新生成一段能覆盖原文信息的新词新句;
本申请采用ROUGE系列指标作为摘要结果的评价标准,在此基础上,考虑到ROUGE指标依赖于参考摘要的优劣,本申请提出通过Word2Vec模型将生成摘要和重要句子向量化,计算其句子相似度,进而评价摘要质量,验证本申请所提出的模型的可行性和合理性。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的基于深度学习的专利文本摘要生成方法的示意性流程图;
图2是根据本申请一个实施例的Seq2Seq模型的框架示意图;
图3是根据本申请一个实施例的半监督学习的自训练Self-Training算法的示意性流程图;
图4是根据本申请一个实施例的基于半监督深度学习的自动文本摘要的示意性流程图;
图5是根据本申请一个实施例的编码端流程图;
图6是根据本申请一个实施例的解码端流程图;
图7是根据本申请一个实施例的基于深度学习的专利文本摘要生成装置的结构示意图;
图8是根据本申请实施例的第一种计算机可读存储介质的示意性结构框图;
图9是根据本申请实施例的第二种计算机可读存储介质的示意性结构框图。
具体实施方式
图1是根据本申请一个实施例的基于深度学习的专利文本摘要生成方法,一般性的可以包括步骤S101至步骤S103:
S101、数据采集步骤:对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
S102、深度学习步骤:对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
S103、半监督学习步骤:将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
本申请提供一种针对专利数据的摘要生成方法,可以发掘出专利文本中的实用内容;可以准确获取专利文本的重要信息,可以帮助专利人员或技术研发人员了解专利核心技术。本申请可以生成较高质量的摘要。
一般文本摘要生成方法可分为有监督学习、无监督学习和半监督学习。其中,有监督学习都是用包含实例和标签的数据对来学习特征的,无监督方法不需要任何训练数据,仅通过检索文档即可生成摘要,半监督方法同时需要有标签数据和无标签数据,在训练过程中逐步将无标签数据加入训练集中。本申请利用半监督方法进行训练。
本发明实施例中,所述方法还包括:
S104、摘要评价步骤:采用如下方式之一确定生成的摘要的质量:
通过统计生成的摘要与专利文本参考摘要之间的重复词的ROUGE系列指标的数值,确定生成的摘要的质量;
将生成的摘要中的句子进行向量化,计算其与专利文本参考摘要的句子的相似度,确定生成的摘要的质量。
本申请采用ROUGE系列指标作为摘要结果的评价标准,在此基础上,本申请还可以通过Word2Vec模型将生成的摘要和参考摘要的重要句子向量化,计算其句子相似度,进而评价摘要质量。
本发明实施例中,步骤S104中获得所述专利文本参考摘要的方式包括:
权重提取步骤:根据专利文本的各个词语的属性,计算所述专利文本原文句子的权重;
参考摘要生成步骤:根据所述专利文本中各个原文句子的权重的排序,提取所述专利文本的参考摘要。
本申请中,专利文本参考摘要获取的过程采用无监督学习的方式,其中,无监督学习(Unsupervised Learning)是人工智能的一种算法,它直接对原始数据进行处理,学习数据内部特征。无监督学习并不知道预测结果是否正确,其特点是仅对训练网络提供输入实例,而它会自己主动从这些实例中找出其潜在特征。本申请把句子作为节点,根据节点间的连接关系计算各个句子的权值,权值用句子相似度来表示,通过循环迭代计算句子的权值,根据权值大小降序排列,选取排名靠前的句子组成文本的参考摘要。
本发明实施例中,权重提取所需的所述属性包括:词语长度、词性、词频。
如图2所示,本发明实施例中,所述基于RNN的Seq2Seq模型包括:
编码器:将输入的词汇表中的每个词汇编码成一个对应于当前所要输出序列的上下文信息长度的语义向量;和
解码器:将所述语义向量根据注意力机制的分布,生成概率最大的词语序列。
本申请中,基于RNN的Seq2Seq模型主要包含两个模块:编码器(Encoder)和解码器(Decoder),其中编码器是指将输入序列编码成一个能够映射出它的大致内容的向量,这里被称为语义向量,解码器是将语义向量再还原成对应的输出。
本发明实施例中,步骤S102中的所述基于RNN的Seq2Seq模型采用以下步骤进行训练:
将每个词汇编码成一个序列;
将所述序列按照每一时刻的隐层状态,通过隐藏层向量计算所述序列对应的语义向量;
根据所述词汇表中每个词语的权重,确定每个输出词项的分布;
根据每个词语的隐藏层状态的关注程度,得到概率最大的词语序列。
如图3所示,本发明实施例中,步骤S103中的所述半监督学习的自训练算法训练的深度学习网络采用以下步骤进行训练:
对有标签的训练数据进行训练得到一个自训练模型;
使用所述自训练模型预测所有未标记数据实例的类标签;在这些预测的类标签中,使用正确率最高的类标签作为未标记数据实例的伪标签;
将标记伪标签数据与有标签的训练数据组合后重新进行训练获得基于RNN的Seq2Seq模型。
本发明实施例,对所述基于RNN的Seq2Seq模型进行训练后,还包括:
使用获得的基于RNN的Seq2Seq模型预测有标签的训练数据实例的类标签,根据预测的类标签与原有标签是否一致评估所述基于RNN的Seq2Seq模型的性能。
本申请采用半监督学习的自训练算法训练的深度学习网络,其中半监督学习是综合有监督学习和无监督学习的训练方法,有监督学习是机器学习中经常使用的方法,它是基于有标签样本训练的,而无监督学习都是基于无标签样本的,也就是说,直接对样本处理即可。在实际问题中,给定的样本集可能是不知道标签分类结果的,半监督学习可以忽视这些问题,同时有效结合有标签数据和无标签数据的信息来学习。
其中,有监督学习可以从已知数据集中学到或建立一个模型,并根据模型推测出新数据对应的输出。有监督学习数据集中的每个样本都是成对存在的,每对包含一个实例和一个标签,由已知特征和预期输出所组成。
半监督学习(Semi-Supervised Learning)是结合有标签和无标签数据如何改变学习行为,并设计利用这种结合的算法。当有标记的数据稀缺或昂贵时,半监督学习可以使用现成的无标记数据来改善监督学习任务。半监督学习也显示出了作为类别学习的量化工具的潜力。
本申请半监督学习的自训练算法训练的深度学习网络训练时,首先利用有标签数据训练出一个模型,然后用这个模型预测无标签数据的“伪标签”,挑选出预测结果置信度最高的无标签样本,与它们的预测标记一起加入训练集。然后模型重新训练,迭代这个过程。具体地:
(1)对有标签的训练数据进行模型训练得到一个模型;
(2)使用经过训练得到的模型来预测所有未标记数据实例的类标签;在这些预测的类标签中,正确率最高的被认为是“伪标签”,所有预测的标签可以同时作为“伪标签”使用;
(3)将“伪标签”数据与正确标记的训练数据连接起来,在组合的“伪标签”和正确标记训练数据上重新训练模型;
(4)使用经过训练的模型来预测已标记的测试数据实例的类标签,并根据一定的度量来评估模型的性能。
本发明实施例中,步骤S103中所述基于RNN的Seq2Seq模型采用以下步骤进行训练包括:
将每个词汇编码成一个序列,表示为X={x
将输入序列X=(x
c=f(x
y
编码器根据当前时刻输入的词向量x
h
通过隐藏层向量计算语义向量c:
c=q({h
其中,m为隐藏层状态的总数;
在解码端,由编码器生成的语义向量c和上一次生成的输出序列{y
在解码时刻t,根据语义向量c、上一时刻的隐藏层状态s
s
根据语义向量c、当前隐藏层状态s
P(y
其中,f(·)、l(·)q(·)和r(·)为非线性激活函数,P(·)为概率分布函数,表示生成每个y
计算h
e
其中,e
对h
每个输出词项的分布为:
p(y
得到词语序列Z,公式如下:
Z=∑
如图4所示,本申请的基于半监督深度学习的自动文本摘要技术主要包含数据采集及预处理、关键词及重要句子提取、半监督算法训练网络、模型评估、摘要质量评价。其中,数据采集及预处理,主要包含收集某一领域的专利文本数据,分别整理专利数据的正文文本和摘要文本,然后对其进行文本分词,过滤掉停用词后建立词汇表,将处理好的正文文本和摘要文本作为训练语料;关键词及重要句子提取,计算正文文本中各个词语的权重,依据权重大小筛选关键词,然后根据句子中关键词的数量及质量衡量每个句子的权重,进而从正文中提取出若干个重要句子;构建深度学习网络,采用序列到序列模型,编码器和解码器均由多层RNN构成,同时引入注意力机制,从而学习专利正文文本及摘要文本的特征;半监督算法训练网络,深度学习网络是由RNN构成,网络的训练方法采用自训练算法,经过不断训练后得到最终的模型;模型评估及摘要质量评价,通过生成一个最大概率的词语序列作为生成的摘要结果,并用ROUGE和句子相似度等指标对生成的摘要进行质量评价,通过生成摘要的质量评估模型的好坏。
本申请采用Seq2Seq+Attention模型,创建基于RNN的深度学习模型,主要步骤如下:
(1)文本嵌入:在专利文本数据输入Seq2Seq模型前,要将专利文本转化为向量的形式。数据预处理阶段已经完成分词并建立了词汇表,并将不在词汇表中的词语和每个文本的末尾分别用UNK和EOS标记。将一个序列X=(x
其中,每个文本序列n的取值根据文本长度有所不同。
(2)将(1)得到的文本向量输入编码端,在这个过程中会计算每一时刻的隐层状态,由公式h
e
计算得到可变的语义向量c
对的输出结果再进行归一化操作,最终通过公式p(y
(3)注意力机制根据隐层状态{h
Z=∑
其中,α
(4)Self-Training算法训练网络。主要是用有标签数据作为训练集训练模型,然后预测无标签数据,将预测结果置信度较高的无标签数据与有标签数据结合重新作为训练集,更新训练模型,直到没有无标签数据加入训练集为止,最后一步后即可得到最终的模型。
如图7所示,本发明实施例还提供一种基于深度学习的专利文本摘要生成装置,包括:
数据采集模块100:设置为对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
深度学习模块200:设置为对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
半监督学习模块300:设置为将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
本申请实施例还提供了一种计算设备,参照图8,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图9,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 专利文本生成设备,专利句生成方法和专利文本生成程序
机译: 专利文本生成设备,专利文本生成方法和非暂时性计算机可读介质