首页> 中国专利> 一种面向研发供需描述文本撮合的深层语义匹配方法和系统

一种面向研发供需描述文本撮合的深层语义匹配方法和系统

摘要

本发明实施例公开了一种面向研发供需描述文本撮合的深层语义匹配方法和系统。该深层语义匹配方法包括:利用改进的textrank算法将技术需求和技术成果长文本浓缩为不超过512字符的文本内容摘要;构建了双独立BERT预训练语言模型,针对技术需求和技术成果两类文本的标题和内容摘要分别训练;将训练后的结果进行线性拼合,使用考虑类别权重的Softmax函数加权值作为语义相似度系数对线性拼合后的结果进行处理。本发明提出的技术方案在不损失文本内容核心语义的同时,规避了BERT预训练语言模型512字符输入的限制,最大程度提取了表征技术需求和技术成果上下文的语义信息,较传统的粗粒度语义匹配分类更为精细化,实现技术需求与技术成果文本的自动高精度匹配。

著录项

  • 公开/公告号CN112861543A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 吴俊;

    申请/专利号CN202110156093.7

  • 发明设计人 吴俊;

    申请日2021-02-04

  • 分类号G06F40/30(20200101);G06F40/258(20200101);G06F16/34(20190101);G06N20/00(20190101);

  • 代理机构11577 北京知呱呱知识产权代理有限公司;

  • 代理人彭伶俐

  • 地址 100085 北京市海淀区上地东路上地佳园3-2-703

  • 入库时间 2023-06-19 11:08:20

说明书

技术领域

本发明实施例涉及自然语言处理领域,具体涉及一种面向研发供需描述文本撮合的深层语义匹配方法和系统。

背景技术

作为研发成果与研发需求供需对接的重要载体,众多科技资源共享平台已构建有科研技术成果库和技术研发需求库,存储有大量的描述技术成果和研发需求的文本信息,本专利申请称之为研发供需描述文本。传统的在线科技咨询服务多采用人工撮合完成研发供需描述文本的匹配,人员投入大、匹配效率低且撮合成功率不高。如何实现研发供需描述文本语义的深层、精准匹配,助力供需双方高效撮合,是打造智能化科技咨询服务的重要技术,也是加速科研成果市场转化的重要保障。

不同于通用的文本语义匹配场景,研发供需描述文本的语义匹配有以下特殊性:(1)专业领域涉及广,术语名词多、技术性很强;(2)需要匹配的文本有标题和内容,标题不超过30字,语义扼要、精炼;内容数百字不等,语义复杂、发散。

既有的文本语义相似度匹配技术经历了从TF-IDF、支持向量机、pagerank等浅层机器学习,到word2vec和transformer等考虑上下文语义的深度神经网络学习的演进。段尧清等融合word2vec词嵌入与支持向量机算法,对地方政府问政平台民众留言数据集进行语义匹配分类,采用的是浅层机器学习算法,面向的是大众留言文本。付聪等将word2vec词嵌入与图像识别中的AutoLMP模型结合,对Quora数据集进行问答匹配,采用的算法技术或者无法捕获并解决一词多义问题,或者需要领域先验知识输入,无法实现端到端自动化匹配。聂豪豪等基于BERT预训练语言模型,设计了法律条文与司法解释的自动语义匹配模型,但没有解决输入BERT模型512字符数限制问题。

既有采用word2vec词嵌入和浅层神经网络模型进行文本相似度语义匹配的技术方案,因算法模型具有浅层上下文语义学习特点,较适合语义明确、内涵单一的通用领域文本,难以适用语义复杂、专有术语众多的研发供需描述文本语境。已有的基于BERT预训练语言模型实现深度语义匹配的算法受BERT模型仅允许512字符数输入的限制,无法对超出512字符限制的研发供需描述长文本内容进行深度语义匹配。

发明内容

本发明实施例的目的在于提供一种面向研发供需描述文本撮合的深层语义匹配方法和系统,用以解决现有技术方案无法对超出512字符限制的技术成果-研发需求长文本进行语义相似度匹配、无法对文本标题和文本内容摘要分别进行训练以及无法进行精细度语义匹配分类的问题。

为实现上述目的,本发明实施例主要提供如下技术方案:

第一方面,本发明实施例提供了一种面向研发供需描述文本撮合的深层语义匹配方法和系统方法,包括:分别对技术需求和技术成果文本中的标题和内容进行预处理,获得文本标题和文本内容;使用摘要提取算法对所述预处理后的技术需求的文本内容进行提取,获得技术需求文本内容摘要;使用摘要提取算法对所述预处理后的技术成果的文本内容进行提取,获得技术成果文本内容摘要;将所述技术需求和技术成果的文本标题输入到第一BERT模型,获得第一相似类别结果;将所述技术需求和技术成果的文本内容摘要输入到第二BERT模型,获得第二相似类别结果;对所述第一相似类别结果和第二相似类别结果进行线性拼合,获得第三相似类别结果;对所述线性拼合后的第三相似类别结果通过逻辑回归算法进行处理,获得成果-需求语义相似度系数;将所述成果-需求语义相识度系数按照降序输出技术成果-技术需求语义匹配结果。

进一步地,还包括:分别对技术需求和技术成果文本中的标题和内容进行预处理时,剔除标点符号,仅保留中文字符。

进一步地,还包括:在使用所述摘要提取算法对所述技术需求文本内容和所述技术成果文本内容进行摘要提取时,使用改进后的textrank算法将技术需求和技术成果的长文本内容分别浓缩为不超过512字符的技术需求文本内容摘要和技术成果文本内容摘要。

进一步地,还包括:在使用所述逻辑回归算法对所述线性拼合后的第三相似类别结果进行处理时,使用考虑类别权重的Softmax函数加权值作为成果-需求语义相似度系数。

第二方面,本发明实施例还提供一种面向研发供需描述文本撮合的深层语义匹配系统,包括:预处理模块,用于处理技术需求和技术成果文本中的标题和内容;提取模块,用于提取技术需求和技术成果文本的核心内容摘要;训练模块,用于分别训练技术需求和技术成果的文本标题和文本内容摘要,获得第一相似类别结果和第二相似类别结果;拼合模块,用于对所述第一相似类别结果和第二相似类别结果进行线性拼合,获得第三相似类别结果;分类模块,用于对所述线性拼合后的第三相似类别结果进行逻辑回归算法处理,获得成果-需求语义相似度系数;控制处理模块,用于控制处理技术需求和技术成果的长文本中标题和内容的文本预处理、摘要提取、模型训练、线性拼合、分类处理和降序输出。

进一步地,所述预处理模块在分别对技术需求和技术成果文本中的标题和内容进行预处理时,剔除标点符号,仅保留中文字符。

进一步地,所述提取模块在使用所述摘要提取算法对所述技术需求文本内容和所述技术成果文本内容进行摘要提取时,利用改进后的textrank算法将技术需求和技术成果的长文本内容浓缩为不超过512字符的文本内容摘要。

进一步地,所述分类模块在使用所述逻辑回归算法对所述线性拼合后的第三相似类别结果进行处理时,使用考虑类别权重的Softmax函数加权值作为成果-需求语义相似度系数。

第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的一种面向研发供需描述文本撮合的深层语义匹配方法和系统。

第四方面,本发明实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的一种面向研发供需描述文本撮合的深层语义匹配方法和系统。

本发明实施例提供的技术方案至少具有如下优点:

本发明实施例提供的技术方案利用改进后的textrank算法将技术需求和技术成果长文本浓缩为不超过512字符的文本内容摘要,在不损失文本内容核心语义的同时,规避了BERT预训练语言模型512字符输入的限制;构建了双BERT预训练语言模型针对技术需求和技术成果两类文本的标题和内容摘要分别训练,最大程度提取了表征技术需求和技术成果上下文的语义信息,显著提升两类文本语义匹配精准度;将传统的Softmax函数分类输出改进为考虑类别权重的Softmax函数加权值输出,纠正了模型类别预测差错,提升了文本语义匹配精准度。本发明提出的方法分别与基于word2vec词嵌入的语义匹配法、基于BERT词嵌入的文本标题语义匹配法以及基于BERT词嵌入的文本标题和内容联合语义匹配法相比较,本技术方案实现的模型F1值最高,较三类基准模型有显著提升。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、步骤等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、步骤关系的改变或调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种面向研发供需描述文本撮合的深层语义匹配方法和系统的流程图。

图2为本发明实施例提供的一种面向研发供需描述文本撮合的深层语义匹配系统的结构框图。

图3为本发明实施例提供的一种技术需求-技术成果文本深层语义匹配算法原理图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

以下描述中,为了说明而不是为了限定,提出了诸如特定系统算法、模型、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、算法以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

在本发明的描述中,需要理解的是,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

图1为本发明实施例提供的一种面向研发供需描述文本撮合的深层语义匹配方法和系统的流程图。如图1所示,本发明实施例提供的一种面向研发供需描述文本撮合的深层语义匹配方法和系统,包括:

S1:分别对技术需求和技术成果文本中的标题和内容进行预处理,获得文本标题和文本内容。

具体地,当用户把所述技术需求和技术成果的文本集输入到该深层语义匹配系统后,该深层语义匹配系统对所述文本数据集进行预处理,其中包括,将文本标题与文本内容进行拆分,剔除标点符号,仅保留中文字符,获得预处理后的文本数据集。

在本发明的一个实施例中,预处理后的文本数据集包括预处理后的文本标题和文本内容。

S2:使用摘要提取算法对所述预处理后的技术需求的文本内容进行提取,获得技术需求文本内容摘要;使用摘要提取算法对所述预处理后的技术成果的文本内容进行提取,获得技术成果文本内容摘要。

具体地,在对所述预处理后的文本数据集中的技术需求和技术成果的文本内容进行核心内容提取时,利用改进后的textrank算法将技术需求和技术成果的长文本内容浓缩为不超过512字符的文本内容摘要。

在本发明的一个实施例中,考虑文本内容句子与标题相似性特征的句子节点权重调整,首先计算标题句P

其次,遍历各句子中的特征词,如果在标题中出现,提升词频权重;否则,维持词频权重不变。计算公式如下:

上式中标题句P

然后根据式(1)及矩阵D

在本发明的一个实施例中,每次迭代循环只计算第一轮循环,降低计算时间。考虑到文本网络图中的节点通过迭代最终会收敛于一个稳定值,该值是各个节点的最终重要度分值。网络图信息只存在于边与边的链接权重中,每次循环重新计算出度,只是为了加速迭代过程,和最终收敛值关系不大。经过实验,发现提取出的摘要和每次是否重新计算出度关系不大,因此每次迭代只要计算一轮循环即可,因为每个点的出度,在迭代中不变。通过这样的优化,原来o(n^2)复杂度的收敛过程被优化成o(n)复杂度,迭代计算时间大大减少。

在本发明的一个实施例中,对输入的技术需求和技术成果文本内容设置参数(技术需求文本内容抽取句子数N=12,技术成果文本内容抽取句子数N=10)应用改进后的算法,输出技术需求和技术成果文本内容摘要。

S3:将所述技术需求和技术成果的文本标题输入到第一BERT模型,获得第一相似类别结果;将所述技术需求和技术成果的文本内容摘要输入到第二BERT模型,获得第二相似类别结果。

具体地,将所述技术需求和技术成果两类文本的预处理后的文本标题和不超过512字符的文本内容摘要分别输入到两个相互独立的BERT预训练语言模型分别进行训练,获得第一相似类别结果和第二相似类别结果。

在本发明的一个实施例中,将所述技术需求和技术成果的文本标题输入到一个BERT预训练语言模型进行训练,获得第一相似类别结果;将所述技术需求和技术成果的文本内容摘要输入到另一个BERT预训练语言模型进行训练,获得第二相似类别结果。

在本发明的一个实施例中,本专利申请针对研发供需描述文本语义复杂特点,构建了双独立BERT模型架构,将技术成果-技术需求标题配对,技术成果-技术需求内容摘要配对,加载BERT中文预训练向量(隐层为768维,采用12头模式,共110M个参数,最大序列长度512,train_batch_size为64)对训练集数据进行微调训练,文本深层语义匹配算法原理图如图3所示。

S4:对所述第一相似类别结果和第二相似类别结果进行线性拼合,获得第三相似类别结果。

具体地,所述第一相似类别结果和第二相似类别结果按照一定的权重进行线性拼合,获得第三相似类别结果按照一定的权重进行线性拼合。

S5:对所述线性拼合后的第三相似类别结果通过逻辑回归算法进行处理,获得成果-需求语义相似度系数。

具体地,对所述线性拼合后的第三相似类别结果通过逻辑回归算法进行处理,使用考虑类别权重的Softmax函数加权值作为成果-需求语义相似度系数。

在本发明的一个实施例中,使用考虑类别权重的Softmax函数加权值作为成果-需求语义相似度系数,对应公式如下:

上式中,i是相似度类别(定义为4类,“1”代表无关,“2”代表弱相关,“3”代表较强相关,“4”代表强相关),S

S6:将所述成果-需求语义相识度系数按照降序输出技术成果-技术需求语义匹配结果。

具体地,以所述一份技术需求文档为匹配目标,将获得的技术成果与该份技术需求语义相识度系数按照降序输出匹配结果。

在本发明的一个实施例中,以所述一份技术结果文档为匹配目标,将获得的技术需求文档与该份技术结果文档的语义相识度系数按照降序输出匹配结果;以所述一份技术需求文档为匹配目标,将获得的技术结果文档与该份技术需求文档的语义相识度系数按照降序输出匹配结果。

图2为本发明实施例提供的一种面向研发供需描述文本撮合的深层语义匹配系统的结构框图。如图2所示,本发明实施例提供的一种面向研发供需描述文本撮合的深层语义匹配系统,包括:预处理模块100、提取模块200、训练模块300、拼合模块400、分类模块500和控制处理模块600。

其中,预处理模块100,用于处理技术需求和技术成果文本中的标题和内容;提取模块200,用于提取技术需求和技术成果文本的核心内容摘要;训练模块300,用于分别训练技术需求和技术成果的文本标题和文本内容摘要,获得第一相似类别结果和第二相似类别结果;拼合模块400,用于对所述第一相似类别结果和第二相似类别结果进行线性拼合,获得第三相似类别结果;分类模块500,用于对所述线性拼合后的第三相似类别结果进行逻辑回归算法处理,获得成果-需求语义相似度系数;控制处理模块600,用于控制处理技术需求和技术成果的长文本中标题和内容的文本预处理、摘要提取、模型训练、线性拼合、分类处理和降序输出。

在本发明的一个实施例中,预处理模块100在分别对技术需求和技术成果文本中的标题和内容进行预处理时,剔除标点符号,仅保留中文字符。

在本发明的一个实施例中,提取模块200在使用所述摘要提取算法对所述技术需求文本内容和所述技术成果文本内容进行摘要提取时,利用改进后的textrank算法将技术需求和技术成果的长文本内容浓缩为不超过512字符的文本内容摘要。

在本发明的一个实施例中,还包括分类模块500在使用所述逻辑回归算法对所述线性拼合后的第三相似类别结果进行处理时,使用考虑类别权重的Softmax函数加权值作为成果-需求语义相似度系数。

需要说明的是,本发明实施例的一种面向研发供需描述文本撮合的深层语义匹配系统的具体实施方式与本发明实施例的一种面向研发供需描述文本撮合的深层语义匹配方法和系统的具体实施方式类似,具体参见一种面向研发供需描述文本撮合的深层语义匹配方法和系统部分的描述,为了减少冗余,不做赘述。

另外,本发明实施例的一种面向研发供需描述文本撮合的深层语义匹配系统的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。

本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的一一种面向研发供需描述文本撮合的深层语义匹配方法和系统。

本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的一种面向研发供需描述文本撮合的深层语义匹配方法和系统。

在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。

存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。

其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号