首页> 中国专利> 长文本语义相似度匹配方法、装置、电子设备及存储介质

长文本语义相似度匹配方法、装置、电子设备及存储介质

摘要

本申请实施例提供了一种长文本语义相似度匹配方法、装置、电子设备及存储介质。方法包括:分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量;分别对多个第一词向量和多个第二词向量进行池化处理,以得到长文本的多个句子分别对应的多个第一语义向量,以及第二文本的一个句子对应的一个第二语义向量;将多个第一语义向量输入预设的实体识别模型,以确定长文本包括的段落的段落类型;根据段落类型确定每个段落中的第一语义向量对应的权重;基于第一语义向量、第一语义向量对应的权重以及第二语义向量,计算得到长文本相对基准文本的相似度。

著录项

  • 公开/公告号CN112183111A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利权人 亚信科技(中国)有限公司;

    申请/专利号CN202011042061.6

  • 发明设计人 徐晨兴;张雷;

    申请日2020-09-28

  • 分类号G06F40/30(20200101);G06F40/194(20200101);G06F40/211(20200101);G06F40/284(20200101);G06F40/295(20200101);

  • 代理机构11330 北京市立方律师事务所;

  • 代理人张筱宁

  • 地址 100193 北京市海淀区西北旺东路10号院东区19号楼1层101

  • 入库时间 2023-06-19 09:27:35

说明书

技术领域

本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种长文本语义相似度匹配方法、装置、电子设备及存储介质。

背景技术

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。在自然语言处理时,有时需要对不同的文本之间进行语义的相似度匹配。

现有的语义匹配,是短文本和短文本之间的语义匹配,现有的方案并没有一种能实现长文本和短文本之间进行语义匹配的方案。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:

第一方面,提供了一种长文本语义相似度匹配的方法,该方法包括:

分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量,所述长文本包括多个句子,所述基准文本包括一个句子;

分别对所述多个第一词向量和所述多个第二词向量进行池化处理,以得到所述长文本的多个句子分别对应的多个第一语义向量,以及所述第二文本的一个句子对应的一个第二语义向量;

将所述多个第一语义向量输入预设的实体识别模型,以确定所述长文本包括的段落的段落类型;

根据所述段落类型确定每个段落中的第一语义向量对应的权重;

基于所述第一语义向量、所述第一语义向量对应的权重以及第二语义向量,计算得到所述长文本相对所述基准文本的相似度。

第二方面,提供了一种长文本语义相似度匹配的装置,该装置包括:

预处理模块,用于分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量;

池化模块,用于分别对所述多个第一词向量和所述多个第二词向量进行池化处理,以得到所述长文本的多个句子分别对应的多个第一语义向量,以及所述第二文本的一个句子对应的一个第二语义向量;

分类模块,用于根据预设的实体识别模型和所述多个第一语义向量确定所述长文本包括的段落的段落类型;

权重模块,用于根据所述段落类型确定每个段落中的第一语义向量对应的权重;

相似度计算模块,用于基于所述第一语义向量、所述第一语义向量对应的权重、第二语义向量以及预设的算法模型,计算所述长文本相对所述基准文本的相似度。。

第三方面,提供了一种电子设备,该电子设备包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据本申请第一方面所示的长文本语义相似度匹配方法。

第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的长文本语义相似度匹配方法。

本申请提供的技术方案带来的有益效果是:先获得长文本对应的第一词向量和基准文本对应的第二词向量,分别对第一词向量和第二词向量进行池化处理后,得到长文本每个句子对应的第一语义向量、基准文本对应的第二语义向量,并确定每个段落的段落类型,以确定长文本每个句子的权重,从而能得到长文本和基准文本之间语义的相似度,得到的相似度和文本的段落类型有关,从而能得到的相似度更为准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种长文本语义相似度匹配方法的流程示意图;

图2为图1中步骤S101的详细流程示意图;

图3为本申请实施例提供的一种长文本语义相似度匹配装置的结构示意图;

图4为本申请实施例提供的一种长文本语义相似度匹配的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的长文本语义相似度匹配方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本技术领域技术人员可以理解,本申请所使用的“终端”可以是手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、MID(Mobile Internet Device,移动互联网设备)等;“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

请参阅图1,本申请实施例中提供了一种长文本语义相似度匹配方法,长文本语义相似度匹配方法可以应用于终端或服务器,该方法包括:

S101:分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量,所述长文本包括多个句子,所述基准文本包括一个句子。

长文本为语句较长的文本,长文本包括至少两个的段落类型,每个段落类型至少包括一个段落,每个段落包括一个或多个句子。长文本包括的段落类型不做限定,段落类型的分类方法也不做限定。如长文本的段落类型可以包括摘要段落和普通段落。段落类型也可以以其他方式分类,以分为不同的段落类型。基准文本包括一个句子,该句子为一个完整的含义。基准文本中可以包括被标点符号间隔开的语句。如基准文本的一个句子为“我爱爸爸,我也爱妈妈。”,或基准文本的一个句子为“我爱祖国。”。

预处理的目的将长文本和基准文本向量化。预处理时,可以分别对长文本、基准文本进行分词和向量化,以得到长文本的多个句子分别对应的多个第一词向量,还得到基准文本的一个句子对应的多个第二词向量。其中,长文本的每个句子都包括一个或多个第一词向量。

可以理解,分别对长文本和基准文本进行向量化时,用运用同一种预设的向量化模型进行向量化处理,使得到的第一词向量和第二词向量的维度一致。

S102:分别对所述多个第一词向量和所述多个第二词向量进行池化处理,以得到所述长文本的多个句子分别对应的多个第一语义向量,以及所述第二文本的一个句子对应的一个第二语义向量。

分别对所述多个第一词向量和所述多个第二词向量进行池化处理时,可以通过最大池化层或平均池化层分别对所述多个第一词向量和所述多个第二词向量进行池化处理。最大池化层即为Max-Pooling层,平均池化层即为Average-Pooling层。通过最大池化层或平均池化层对多个词向量进行处理,为现有技术,本申请不再进行详细说明。如通过平均池化层对多个第一词向量进行池化处理,可以通过下式对多个第一词向量进行池化处理:

其中,Z为长文本的一个句子对应的第一语义向量,K为该句子中包括的第一词向量的个数,v

S103:将所述多个第一语义向量输入预设的实体识别模型,以确定所述长文本包括的段落的段落类型。

实体识别模型,包括以下任一种模型:长短时记忆(Long-short term memory,LSTM)-条件随机场(Conditional Random Fields,CRF)模型;或双向长短时记忆BiLSTM(Bi-directional Long-Short Term Memory)-条件随机场CRF模型。LSTM-CRF模型和BiLSTM-CRF都是现有技术,本申请仅简单说明。可以先通过大量的样本建立基础的实体识别模型,再对基础的实体识别模型进行训练,以获得实体识别模型。确定的长文本的段落类型不做限定,如长文本包括第一段落和第二段落,确定第一段落为摘要段落的概率为0.9,概率0.9大于预设的概率阈值,如0.6,则确定第一段落为摘要段落,第二段落为普通段落的概率为0.8,概率0.8大于预设的概率阈值,如0.6,则确定第二段落为普通段落。长文本的每个段落都分别对应一个段落类型,不同的段落可以对应同一个段落类型。如长文本包括5个段落,其中1个段落的段落类型为摘要段落,4个段落的段落类型为普通段落。

S104:根据所述段落类型确定每个段落中的第一语义向量对应的权重。

可以预设类型权重对应表,类型权重对应表包括段落类型与权重的映射关系,每种段落类型对应一个权重。段落类型对应的权重大小可根据需要或经验进行设置。即根据所述段落类型确定每个段落中的第一语义向量对应的权重,包括:根据预设的类型权重对应表和所述段落类型确定每个段落中的第一语义向量对应的权重,所述类型权重对应表包括所述段落类型与权重的映射关系。

不同的段落类型对应不同的权重。如摘要段落对应权重为1,普通段落对应的权重为0.6。在一个段落类型对应的权重确定后,则一个段落对应的权重也是确定的,一个段落中所有句子对应的权重也是确定的,一个段落中的句子对应的权重为该段落的段落类型对应的权重。本申请的方案,可以应用于搜索引擎、问答对话、重复文本匹配等领域。

具体的,摘要段落对应权重为1,普通段落对应的权重为0.6,则在一个段落D1为摘要段落时,则该段落D1中所有句子的权重都为1,在一个段落D2为普通段落时,则该段落D2中所有句子的权重都为0.6。

S105:基于所述第一语义向量、所述第一语义向量对应的权重以及第二语义向量,计算得到所述长文本相对所述基准文本的相似度。

在第一语义向量、第一语义向量对应的权重以及第二语义向量确定后,即可计算得到长文本相对基准文本的相似度。其中,可依据下式,基于所述第一语义向量、所述第一语义向量对应的权重以及第二语义向量,计算得到所述长文本相对所述基准文本的相似度:

其中,所述N为所述基准文本的第二语义向量,所述M为所述长文本的多个第一语义向量,所述L为所述长文本的句子数量,所述m

如在s为0.5时,则相似度为75%。

cos

其中,k为向量的维度,所述N

可以理解,在确定长文本相对基准文本的相似度时,可以通过上述的公式预设一个计算模型,以快速确定长文本相对所述基准文本的相似度。通过计算模型时,为了第一语义向量、所述第一语义向量对应的权重以及第二语义向量符合预设格式,以能够输入计算模型,在确定长文本包括的段落的段落类型、以及长文本的每个段落中的第一语义向量对应的权重后,对长文本的段落重新分段。每个段落需要包括预设的第一数量个词,如512个。在一个段落的词的数量超过512个后,将段落分开,即重新分段,使该段落的词的数量小于等于512个。若一个段落的词的数量小于预设的第二数量个词,如256个,则将该段落后临的段落补入该段落,使该段落的词的数量大于第二数量个,小于等于第一数量个。并将小于第一数量个词的段落中补0,使得一个段落中,词的数量加上0的数量等于第一数量个。

本申请的实施例提供的长文本语义相似度匹配方法,先获得长文本对应的第一词向量和基准文本对应的第二词向量,分别对第一词向量和第二词向量进行池化处理后,得到长文本每个句子对应的第一语义向量、基准文本对应的第二语义向量,并确定每个段落的段落类型,以确定长文本每个句子的权重,从而能得到长文本和基准文本之间语义的相似度,得到的相似度和文本的段落类型有关,从而能得到的相似度更为准确。

请参阅图2,本申请实施例还提供了一种可能的实现方式,其中,所述分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量,包括:

S201:通过预设的分词算法,分别对所述长文本和所述基准文本进行分词处理,以得到所述长文本对应的多个第一分词和所述基准文本对应的多个第二分词。

分词算法不做限定,如分词算法可以包括结巴分词算法、NLPIR等。结巴分词算法和NLPIR为现有技术,本申请不再进行详细说明。其中,前述的对长文本的段落重新分段中,词的数量是指分词的数量。如一个段落中,分词的数量不能超过第一数量个。

S202:通过预设的向量化模型,分别对所述第一分词和第二分词进行向量化处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量。

向量化模型包括Word2vec模型、Glove模型或Bert模型。在本申请中,分别对第一分词和第二分词进行向量化处理时,采用同一种向量化模型。如采用Word2vec模型分别对第一分词和第二分词进行向量化处理,得到的第一词向量和第二词向量的维度一致。Word2vec模型、Glove模型或Bert模型中的参数根据需要设定,本申请中不做限定。

通过对长文本和基准文本分别分词处理和向量化处理,能便于后续确定文本的语义向量,以及确定每个段落中句子的权重,以使相似度确定的更为准确。

请参阅图3,本申请实施例提供了一种长文本语义相似度匹配装置30,该长文本语义相似度匹配装置30可以包括:

预处理模块301,用于分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量;

池化模块302,用于分别对所述多个第一词向量和所述多个第二词向量进行池化处理,以得到所述长文本的多个句子分别对应的多个第一语义向量,以及所述第二文本的一个句子对应的一个第二语义向量;

分类模块303,用于根据预设的实体识别模型和所述多个第一语义向量确定所述长文本包括的段落的段落类型;

权重模块304,用于根据所述段落类型确定每个段落中的第一语义向量对应的权重;

相似度计算模块305,用于基于所述第一语义向量、所述第一语义向量对应的权重、第二语义向量以及预设的算法模型,计算所述长文本相对所述基准文本的相似度。

本申请的实施例提供的长文本语义相似度匹配装置,先获得长文本对应的第一词向量和基准文本对应的第二词向量,分别对第一词向量和第二词向量进行池化处理后,得到长文本每个句子对应的第一语义向量、基准文本对应的第二语义向量,并确定每个段落的段落类型,以确定长文本每个句子的权重,从而能得到长文本和基准文本之间语义的相似度,得到的相似度和文本的段落类型有关,从而能得到的相似度更为准确。

其中,权重模块304,具体用于根据预设的类型权重对应表和所述段落类型确定每个段落中的第一语义向量对应的权重,所述类型权重对应表包括所述段落类型与权重的映射关系。

其中,池化模块302,具体用于通过最大池化层或平均池化层分别对所述多个第一词向量和所述多个第二词向量进行池化处理。

其中,预处理模块301包括:

分词单元,用于通过预设的分词算法,分别对所述长文本和所述基准文本进行分词处理,以得到所述长文本对应的多个第一分词和所述基准文本对应的多个第二分词;

向量化单元,用于通过预设的向量化模型,分别对所述第一分词和第二分词进行向量化处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量。

请参阅图4,在一个可选实施例中提供了一种电子设备,电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。

其中,电子设备包括但不限于:终端和服务器。

本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,实现前述方法实施例中相应内容,与现有技术相比可实现:先获得长文本对应的第一词向量和基准文本对应的第二词向量,分别对第一词向量和第二词向量进行池化处理后,得到长文本每个句子对应的第一语义向量、基准文本对应的第二语义向量,并确定每个段落的段落类型,以确定长文本每个句子的权重,从而能得到长文本和基准文本之间语义的相似度,得到的相似度和文本的段落类型有关,从而能得到的相似度更为准确。

本申请实施例提供了一种存储介质,存储介质为计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,先获得长文本对应的第一词向量和基准文本对应的第二词向量,分别对第一词向量和第二词向量进行池化处理后,得到长文本每个句子对应的第一语义向量、基准文本对应的第二语义向量,并确定每个段落的段落类型,以确定长文本每个句子的权重,从而能得到长文本和基准文本之间语义的相似度,得到的相似度和文本的段落类型有关,从而能得到的相似度更为准确。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号