首页> 中国专利> 一种专利文本新颖性/创造性预测方法及装置

一种专利文本新颖性/创造性预测方法及装置

摘要

一种专利文本新颖性/创造性预测方法及装置,涉及自然语言处理中的文本匹配技术,目的是为了对专利申请文件的新颖性和/或创造性进行初步的预测判断。所述方法包括:利用主题模型对待预测专利文本与授权专利文本进行处理,得到各关键词的主题分布;计算各专利文本的各关键词的主题分布平均值;利用BERT模型对待预测专利文本与授权专利文本进行处理;将各专利文本的各关键词的主题分布的平均值和BERT模型的输出进行拼接,然后输入至全连接层;利用激活函数对全连接层的输出进行计算,得到待预测专利文本具备新颖性/创造性的概率。所述装置包括主题模块、主题分布平均值计算模块、BERT模块、拼接模块和概率计算模块。

著录项

说明书

技术领域

本申请涉及自然语言处理中的文本匹配技术。

背景技术

专利不仅是一种重要的财产权和无形资产,而且是企业的一种重要的竞争资源,专利发展水平更是成为衡量一个地区综合实力、发展能力和核心竞争力的战略性标志。

经统计发现,专利申请不授权的主要原因是权利要求不具备专利法规定的新颖性和/或创造性,因此,在专利申请文件撰写完成后,对专利申请文件的新颖性和/或创造性进行初步的预测判断是很有必要的。

发明内容

本申请的目的是为了满足现有技术的发展需求,提供一种专利文本新颖性/创造性预测方法及装置。

本申请的一种专利文本新颖性/创造性预测方法包括:

利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布;

计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值;

利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理;

将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;

利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。

可选地,所述授权专利文本的数量为一个。

可选地,在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理之前,所述方法还包括:

提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;

在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。

可选地,所述授权专利文本的数量为两个。

可选地,在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理之前,所述方法还包括:

提取所述待预测专利文本和两个授权专利文本的关键词,形成每个专利文本的关键词序列;

在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和一个授权专利文本的关键词序列之间、以及两个授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。

可选地,所述授权专利文本的获取方法包括:

利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码;

以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本。

本申请的一种专利文本新颖性/创造性预测装置包括:

主题模块,其配置成利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布;

主题分布平均值计算模块,其配置成计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值;

BERT模块,其配置成利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理;

拼接模块,其配置成将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;和

概率计算模块,其配置成利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。

可选地,所述授权专利文本的数量为一个,所述装置还包括:

关键词提取模块,其配置成提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;和

第一输入模块,其配置成在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。

可选地,所述授权专利文本的数量为两个,所述装置还包括:

关键词提取模块,其配置成提取所述待预测专利文本和两个授权专利文本的关键词,形成每个专利文本的关键词序列;和

第二输入模块,其配置成在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和一个授权专利文本的关键词序列之间、以及两个授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。

可选地,所述授权专利文本的获取方法包括:

利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码;

以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本。

本申请的专利文本新颖性/创造性预测方法及装置,使用了预训练的基于关键词匹配的BERT模型,并在此基础上融合了LDA主题模型,由于对于特定领域下的专利文本,某些出现次数较少的实体出现在预训练中的可能性很低,因此BERT模型对于这类实体没有较好的表征,而主题模型能够抽取输入文本的单词主题,是对BERT模型的有力补充,也是对数据集以外的关键词的表征补充,因此,在BERT模型上融合LDA主题模型后能够显著提高专利文本新颖性/创造性预测的准确度。

附图说明

图1是本申请实施方式一所述的专利文本新颖性/创造性预测方法的示意性流程图;

图2是本申请实施方式一中授权专利文本的数量为1时,专利文本新颖性/创造性预测方法的原理示意图;

图3是本申请实施方式一中授权专利文本的数量为2时,专利文本新颖性/创造性预测方法的原理示意图;

图4是本申请实施方式二所述的专利文本新颖性/创造性预测装置的结构示意图。

具体实施方式

具体实施方式一:如图1所示,本实施方式所述的专利文本新颖性/创造性预测方法是对各专利文本的关键词进行比对,由于关键词能够在一定程度上反映一篇专利的创新点,因此,可以将待预测专利文本的关键词与已授权的专利文本的关键词进行匹配,如果两个专利文本有大量关键词重合,说明待预测专利文本的关键技术、发明点等与现有技术相比没有太大差别,即,待预测专利文本的创新程度比较低,可以认为其新颖性和/或创造性达不到专利法规定的新颖性和/或创造性的标准。基于上述对各专利文本的关键词进行比对的思想,本实施例的专利文本新颖性/创造性预测方法一般性地可以包括如下步骤S1至步骤S5。

步骤S1、获取与待预测专利文本内容相似度最高的授权专利文本。

所述授权专利文本是指通过检索得到的与待预测专利文本在技术方案上相似度最高、并且法律状态为有权的专利文本。所述授权专利文本的获取方式有很多种,例如:

方法一、通过常规的专利检索网站根据用户输入的关键词进行检索来获得;

方法二、利用本实施例提供的检索模型进行检索,所述检索模型主要包括Word2vec和LambdaRank两部分,具体流程为:利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码,然后以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本,根据实际情况,可以选取排在第一位或者排在前两位的专利作为授权专利文本。该方法不需要用户提供关键词,只要将待预测专利文本的整篇文档或者部分文档直接输入至模型即可。

步骤S2、利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布。

步骤S3、计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值。

以一个授权专利文本为例,所述待预测专利文本的N个关键词的主题分布记为ω

步骤S4、利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理。

在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理前,需要提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;

然后在所述待预测专利文本的关键词序列前面增加[CLS],当选取的授权专利文本的数量为1时,在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后将增加了[CLS]和[SEP]分隔符的两个关键词序列作为一个整体输入至所述BERT模型。当选取的授权专利文本的数量为2时,还需要在两个授权专利文本的关键词序列之间也增加[SEP]分隔符,然后将增加了[CLS]和[SEP]分隔符的三个关键词序列作为一个整体输入至所述BERT模型。

本实施例的上述步骤S3和步骤S4可以同时进行,对先后顺序不作限定。

步骤S5、将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;

步骤S6、利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。

如图2所示,待预测专利文本为S

如图3所示,待预测专利文本为S

下面对本实施例的专利文本新颖性/创造性预测方法(按照2所示的原理)的准确率与现有的Tf-idf-BERT方法进行对比。

选取若干篇专利(包括已授权和因不具备创造性被驳回两类专利)作为查询专利,采用本实施提供的检索模型对所述若干篇查询专利分别进行检索,并选取top-10篇已授权的索引专利。

将每篇查询专利分别与对应的前10篇索引专利作进行关键词比对,记查询专利的数量为X篇,那么,所述预测方法将共给出10X个预测结果,所述10X个预测结果中正确的预测结果所占的比例为所述预测方法的准确率。

对于每篇查询专利,将检索到的前10篇索引专利作为授权文本分别与该查询专利进行关键词比对,方法给出的10个预测结果中,正确的预测结果的数量所占的比例为该查询专利的准确率,所有查询专利的准确率的平均值为平均准确率。

两种方法预测结果如表1所示,其中,LDA-BERT表示本实施例的专利文本新颖性/创造性预测方法,Tf-idf-BERT为现有预测方法。

表1两种预测方法准确率对比

根据表1可以看出本实施例的专利文本新颖性/创造性预测方法无论是准确率还是平均准确率都明显高于现有的Tf-idf-BERT方法。

具体实施方式二:如图4所示,本实施方式提供了一种专利文本新颖性/创造性预测装置,其特征在于,包括:

主题模块1,其配置成利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布;

主题分布平均值计算模块2,其配置成计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值;

BERT模块3,其配置成利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理;

拼接模块4,其配置成将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;和

概率计算模块5,其配置成利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。

作为本申请的优选实施例,所述授权专利文本的数量为一个,所述装置还包括:

关键词提取模块,其配置成提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;和

第一输入模块,其配置成在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。

作为本申请的优选实施例,所述授权专利文本的数量为两个,所述装置还包括:

关键词提取模块,其配置成提取所述待预测专利文本和两个授权专利文本的关键词,形成每个专利文本的关键词序列;和

第二输入模块,其配置成在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和一个授权专利文本的关键词序列之间、以及两个授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。

作为本申请的优选实施例,所述授权专利文本的获取方法包括:

利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码;

以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为有权的专利文档进行排序,选取排序靠前的专利文本作为所述授权专利文本。

本实施例的专利文本新颖性/创造性预测装置与实施例一的专利文本新颖性/创造性预测方法原理及效果均相同,在此不再赘述。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。

以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号