首页> 中国专利> 文本向量的获取方法和装置、文本相似度计算方法和装置

文本向量的获取方法和装置、文本相似度计算方法和装置

摘要

本说明书实施例提供了文本向量的获取方法和装置及文本相似度的计算方法和装置。该向量获取方法包括:得到待处理的文本;针对预先设置的至少两种要素中的每一种要素,识别出待处理的文本中属于该要素的字符;利用识别出的属于每一种要素的字符,得到对应于该种要素的向量;将得到的对应于各个要素的各个向量作为所述文本的向量。

著录项

  • 公开/公告号CN112989785A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 支付宝(杭州)信息技术有限公司;

    申请/专利号CN202110457512.0

  • 发明设计人 陈显玲;刘佳;

    申请日2021-04-27

  • 分类号G06F40/194(20200101);G06F40/211(20200101);G06K9/62(20060101);

  • 代理机构37100 济南信达专利事务所有限公司;

  • 代理人李世喆

  • 地址 310000 浙江省杭州市西湖区西溪路556号8层B段801-11

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本说明书一个或多个实施例涉及电子信息技术,尤其涉及文本向量的获取方法和装置、文本相似度计算方法和装置。

背景技术

随着计算机技术的发展,需要利用计算机对文本进行分析,比如计算两个文本之间的相似度。而为了能够对文本进行分析,则需要将文本转化为向量,从而使得计算机能够对表征文本的向量进行分析。

目前的方法所获取到的文本的向量,不能准确地表示出文本的含义。

发明内容

本说明书一个或多个实施例描述了文本向量的获取方法和装置、文本相似度计算方法和装置,能够更为准确地表示出文本的含义,并更为准确地得到两个文本的相似度。

根据第一方面,提供了一种文本向量的获取方法,包括:

得到待处理的文本;

针对预先设置的至少两种要素中的每一种要素,识别出待处理的文本中属于该要素的字符;

利用识别出的属于每一种要素的字符,得到对应于该种要素的向量;

将得到的对应于各个要素的各个向量作为所述文本的向量。

在本说明书方法的一个实施例中,所述识别出待处理的文本中属于该要素的字符,包括:

将所述待处理的文本输入预先训练的第一识别模型;

得到由该第一识别模型输出的属于每一种要素的字符;

其中,所述第一识别模型的训练方法包括:利用被标注过的文本,训练所述第一识别模型;每一个文本的标注方式为:该文本中的各个字符均被标注为属于所述至少两种要素中的至少一种要素。

在本说明书方法的一个实施例中,所述文本中的各个字符均被标注为属于所述至少两种要素中的至少一种要素,包括如下中的至少一项:

该文本中的至少一个关键词被标注为属于所述至少两种要素中的至少一种要素;

该文本中的至少一个语句的句式被标注为属于所述至少两种要素中的至少一种要素;

该文本中的至少一个带标点符号的字符位置被标注为属于所述至少两种要素中的至少一种要素。

在本说明书方法的一个实施例中,所述识别出待处理的文本中属于该要素的字符,包括:

将所述待处理的文本输入预先训练的第二识别模型;

得到由该第二识别模型输出的属于每一种要素的字符;

其中,所述第二识别模型的训练方法包括:利用样本集训练所述第二识别模型,每一个样本集中包括一个文本、针对该文本设置的对应于所述至少两种要素中每一种要素的一对问题及答案。

在本说明书方法的一个实施例中,所述至少两种要素包括:对象、状态、障碍、诉求以及咨询中的至少两种。

根据第二方面,提出了一种文本相似度的计算方法,包括:

得到第一文本对应的第一向量组;该第一向量组中包括本说明书任一实施例的向量获取方法所获取的第一文本对应于各个要素的各个向量;

得到第二文本对应的第二向量组;该第二向量组中包括本说明书任一实施例的向量获取方法所获取的第二文本对应于各个要素的各个向量;

根据第一向量组与第二向量组,确定第一文本与第二文本的相似度。

在本说明书方法的一个实施例中,所述根据第一向量组与第二向量组确定第一文本与第二文本的相似度,包括:

将第一向量组中的各个向量进行加权平均计算,得到对应于第一文本的第一融合向量值;将第二向量组中的各个向量进行加权平均计算,得到对应于第二文本的第二融合向量值;计算第一融合向量值与第二融合向量在向量空间中的距离,根据该距离得到第一文本与第二文本的相似度;

或者,

针对所述至少两种要素中的每一种要素,计算第一向量组中对应于该要素的向量与第二向量组中对应于该要素的向量在向量空间中的距离;对得到的各个距离进行加权平均计算,根据计算出的加权平均结果得到第一文本与第二文本的相似度。

根据第三方面,提供了一种文本向量的获取装置,包括:

文本输入模块,被配置为得到待处理的文本;

识别模块,被配置为针对预先设置的至少两种要素中的每一种要素,识别出待处理的文本中属于该要素的字符;

要素向量获取模块,被配置为利用识别出的属于每一种要素的字符,得到对应于该要素的向量;

文本向量获取模块,被配置为将得到的对应于各个要素的各个向量作为所述文本的向量。

在本说明书装置的一个实施例中,所述识别模块被配置为执行:

将所述待处理的文本输入预先训练的第一识别模型;

得到由该第一识别模型输出的属于每一种要素的字符;

其中,所述第一识别模型的训练方法包括:利用被标注过的文本训练所述第一识别模型,每一个文本的标注方式为:该文本中的各个字符均被标注为属于所述至少两种要素中的一种要素。

在本说明书装置的一个实施例中,所述文本中的各个字符均被标注为属于所述至少两种要素中的一种要素,包括如下中的至少一项:

该文本中的至少一个关键词被标注为属于所述至少两种要素中的一种要素;

该文本中的至少一个语句的句式被标注为属于所述至少两种要素中的一种要素;

该文本中的至少一个带标点符号的字符位置被标注为属于所述至少两种要素中的一种要素。

在本说明书装置的一个实施例中,所述识别模块被配置为执行:

将所述待处理的文本输入预先训练的第二识别模型;

得到由该第二识别模型输出的属于每一种要素的字符;

其中,所述第二识别模型的训练方法包括:利用样本集训练所述第二识别模型,每一个样本集中包括一个文本、针对该文本设置的对应于所述至少两种要素中每一种要素的一对问题及答案。

根据第四方面,提供了文本相似度的计算装置,包括:本说明书任一实施例中提出的文本向量的获取装置以及计算模块;

所述文本向量的获取装置,被配置得到第一文本对应的第一向量组;该第一向量组中包括第一文本对应于各个要素的各个向量;以及得到第二文本对应的第二向量组;该第二向量组中包括第二文本对应于各个要素的各个向量;

计算模块,被配置为根据第一向量组与第二向量组,确定第一文本与第二文本的相似度。

在本说明书装置的一个实施例中,所述计算模块被配置为执行:

将第一向量组中的各个向量进行加权平均计算,得到对应于第一文本的第一融合向量值;将第二向量组中的各个向量进行加权平均计算,得到对应于第二文本的第二融合向量值;计算第一融合向量值与第二融合向量在向量空间中的距离,根据该距离得到第一文本与第二文本的相似度;

或者,

针对所述至少两种要素中的每一种要素,计算第一向量组中对应于该要素的向量与第二向量组中对应于该要素的向量在向量空间中的距离;对得到的各个距离进行加权平均计算,根据计算出的加权平均结果得到第一文本与第二文本的相似度。

根据第五方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书任一实施例所述的方法。

本说明书实施例提供的方法和装置,从文本包括的各种要素入手,针对每一种要素分别得到文本的一个向量,最终使用对应多种要素的多个向量来表征该文本。因为每一种要素都从一个特定的维度体现了文本的含义,而每一种要素都是影响文本含义的元素,因此,利用对应多种要素的多个向量则能更为准确地表示出文本的含义。基于此种向量,则能得到更为准确的文本相似度计算结果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本说明书一个实施例所应用的系统架构的示意图。

图2是本说明书一个实施例中获取文本的向量的方法流程图。

图3是本说明书一个实施例中多任务序列的模型结构示意图。

图4是本说明书一个实施例中计算两个文本的相似度的方法流程图。

图5是本说明书一个实施例中文本向量的获取装置的结构示意图。

图6是本说明书一个实施例中文本相似度的计算装置的结构示意图。

具体实施方式

下面结合附图,对本说明书提供的方案进行描述。

在现有技术中,获取一个文本的向量的方法为:以文本为单位,得到该文本对应的一个向量。比如,一个待分析的文本包括一个用户在投诉平台输入的50句话,现有技术则会将该50句话作为一个整体,得到对应该整个文本即对应该50句话的一个向量。

随着业务复杂度的提升,一个文本的复杂度也会越来越高,现有技术针对整个文本得到一个向量的做法,会导致得到的该一个向量无法准确地表示出文本的含义。比如,文本的长度过长(如某些用户在平台的投诉可以形成好几页文字的文本)或者文本中所涉及的内容种类繁多,都会提升文本的复杂度,而现有技术方法所得到的一个向量无法准确地表示出文本的含义。基于此种向量,在计算两个文本之间的相似度时,也就无法得到更为准确的相似度计算结果。

对文本内容的特点进行分析可知,一个文本无论长短,其文本所要表达的含义都会聚焦在几种要素上,文本的上下文实质上是围绕几种要素进行反复说明。比如,在一个用户投诉平台上,用户输入的文本可能有好几页,但是所有内容本质上都是对产品、产品的使用状态、产品使用障碍或未来诉求等几种要素的描述。因此,可以从文本包括的要素入手,针对每一种要素分别得到文本的一个向量,最终使用对应多种要素的多个向量来表征该文本。因为每一种要素都从一个特定的维度体现了文本的含义,而每一种要素都是影响文本含义的元素,因此,利用对应多种要素的多个向量则能更为准确地表示出文本的含义。

下面描述以上构思的具体实现方式。

为了方便对本说明书的理解,首先对本说明书所应用的系统架构进行描述。如图1中所示,该系统架构主要包括文本输入装置以及文本分析装置。其中,文本输入装置可以是任意一种具有文本输入功能的装置,比如用户端设备(如手机或者电脑等),文本分析装置可以是任意一种具有计算及分析功能的装置,比如位于网络侧的服务器。文本输入装置以及文本分析装置通过网络交互。其中,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。

图2示出了本说明书一个实施例中获取文本向量的方法的流程图。该方法的执行主体为文本向量的获取装置。该装置可以位于上述文本分析装置中。可以理解,该方法也可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图2,该方法包括:

步骤201:得到待处理的文本。

步骤203:针对预先设置的至少两种要素中的每一种要素,识别出待处理的文本中属于该要素的字符。

步骤205:利用识别出的属于每一种要素的字符,得到对应于该种要素的向量。

步骤207:将得到的对应于各个要素的各个向量作为所述文本的向量。

可见,上述图2所示过程中,每一种要素都是影响文本含义的元素,针对每一种要素分别得到文本对应于该要素的一个向量,最终使用对应多种要素的多个向量来表征文本,这样则能更为准确地表示出文本的含义。

下面结合图2对本说明书实施例的实现过程进行说明。

首先需要说明的是,在执行图2所示过程的处理之前,需要进行预设置处理,即针对一种类型的文本,设置出对应于该种类型文本的至少两种要素。原因如下:如前所述,一个文本无论长短,其表达的含义都会聚焦在几种要素上,文本的上下文实质上是围绕几种要素进行反复说明。每一种要素是能够对文本的含义产生影响的因素,要素的内容不同,会导致文本的含义不同。因此,需要设置出多个要素,从而可以以每一个要素为单位,得到文本的向量。在本说明书的一个实施例中,根据能够对一种类型文本的含义产生影响的因素,设置对应于该种类型文本的至少两种要素。

以上述的用户投诉为例,根据能够对用户投诉的文本含义产生影响的因素,确定出对应用户投诉这种类型文本的如下5个要素:

要素1:对象

对象是指文本中所涉及的产品信息,如产品名称(如余额宝、蚂蚁森林)、产品的功能或产品的属性(如花呗利息、相互宝分摊)。在用户投诉中,对象是用户投诉的产品。

“对象”这种要素的内容不同,会导致文本的含义不同。比如,文本1中涉及的对象是花呗,文本2中涉及的对象是余额宝,那么,因为两个文本的对象的内容不同,文本1与文本2的含义就不同。因此,需要考虑对象这种要素来对文本进行理解及向量化。

要素2:状态

状态是指对用户信息和/或产品状态的事实描述。其中,对用户信息的事实描述比如可以包括:用户的年龄、性别、职业、身体状况、手机号、所在地等。其中,对产品状态的事实描述是对一个对象某个方面的描述,比如“花呗已经还款了”、“刚加入相互宝”。

“状态”这种要素的内容不同,会导致文本的含义不同。比如,文本1中状态的内容是“我今年30岁,没有做过大手术”。文本2中状态的内容是“我今年70岁,做过大手术”。虽然文本1与文本2表现的障碍相同如都是“加入相互宝失败”,但是,由于状态的内容不同,文本1与文本2实质上体现的是两个问题,而不是同一个问题,其含义是不同的。因此,需要考虑状态这种要素来对文本进行理解及向量化。

要素3:障碍

障碍是指对一个对象进行操作后得到的与用户意愿相反的结果。比如,付款码不显示、花呗付款失败、花呗账单的入口找不到等。

可以理解,“障碍”这种要素的内容不同,会导致文本的含义不同。因此,需要考虑障碍这种要素来对文本进行理解及向量化。

要素4:诉求

诉求是指用户表达的对一个对象的观点或者要求。比如,“我想提升花呗额度”。可以理解,“诉求”这种要素的内容不同,会导致文本的含义不同。因此,需要考虑诉求这种要素来对文本进行理解及向量化。

要素5:咨询

咨询是指用户询问对一个对象如何进行操作。如“芝麻信用分怎么才能提高”、“刚做完手术可以加入相互宝吗

针对用户投诉这种文本类型,可以采用上述5种要素中的任意两种或多种。当然,也可以采用其他种要素,只要是对文本的含义产生影响的因素就可以作为要素。

以上是以用户投诉这种类型的文本为例,说明了可以选取的要素。针对其他类型的文本,也可以选取其他要素,比如对于论文这种类型的文本,因为对论文的含义产生影响的因素包括对象、诉求、引用文献、论证工具等,因此,可以针对论文这种类型的文本,设置对象、诉求、引用文献、论证工具四种要素。

下面对图2的执行过程进行说明。

首先在步骤201得到待处理的文本。

待处理的文本可以是任意一种文本类型的处理对象,比如,可以是用户在一个投诉平台上的一次投诉记录,再如可以是一篇论文等。

以用户的投诉记录为例,在一次投诉中,用户与客服人员进行交流,根据与客服人员的交流情况,用户分多次输入了“人工客服”、“我的花呗额度太小”、“30岁”、“可以使用,但是我希望额度是10万,目前可用的才4万多”、“能提高额度吗

接下来,在步骤203中针对预先设置的至少两种要素中的每一种要素,识别出待处理的文本中属于该要素的字符。

在本说明书的实施例中,步骤203的实现过程可以包括:将待处理的文本输入预先训练的识别模型;得到由该识别模型输出的属于每一种要素的字符。

为了能够利用识别模型进行识别,需要预先对识别模型进行训练。在本说明书的实施例中,对识别模型进行训练的方法可以包括但不限于如下中的至少一种方法:

训练方法1:标注训练方法。

训练方法2:问答题训练方法。

首先对训练方法1进行说明。

训练方法1的训练过程包括:利用被标注过的文本,训练识别模型记为识别模型1,每一个文本的标注方式为:该文本中的各个字符均被标注为属于所述至少两种要素中的至少一种要素。

该训练方法1中,可以通过人工标注训练样本的方式来训练识别模型1。

在进行人工标注时,通常是对关键词进行标注,标注出一个关键词所属的一种或者多种要素。比如,对于一个样本“我的花呗账单的入口找不到了”,标注出其中的关键词“花呗账单”属于对象这种要素,并标注出关键词“花呗账单的入口找不到”属于障碍这种要素。

但在实际的业务实现中,为了提高训练的识别模型1的泛化能力,让识别模型1能够不断主动学习到新的内容,在本说明书一个实施例中,在进行人工标注的时候,也可以对语句的句式进行标注,来体现被标注字符所属的要素。比如用户在输入时,通常会在一个对象的前面输入“我的”,比如“我的花呗账单”,“我的支付宝”等,“我的”后面的字符通常应该属于对象这种要素。因此,可以对句式“我的XXX”进行标注。

为了提高识别模型1的泛化能力,在本说明书另一个实施例中,在进行人工标注的时候,还可以对标点符号的位置进行标注,来体现被标注字符所属的要素。比如用户在输入时,通常会在诉求这个要素的后面输入标点符号“

根据上述三种人工标注的方式可以得到,步骤203中文本中的各个字符均被标注为属于至少两种要素中的至少一种要素的实现方式,包括如下中的至少一项:

该文本中的至少一个关键词被标注为属于所述至少两种要素中的至少一种要素;

该文本中的至少一个语句的句式被标注为属于所述至少两种要素中的至少一种要素;

该文本中的至少一个带标点符号的字符位置被标注为属于所述至少两种要素中的至少一种要素。

在本说明书一个实施例中,可以采用上述任意两种或者三种标注方式,这样,同一个文本,因为标注方式不同,就可以生成多个不同的训练样本(相当于不同的提问方式及相同的答案),能够更好地对识别模型进行训练。

接下来,对于上述训练方法2进行说明。

训练方法2的训练过程包括:利用样本集训练识别模型记为识别模型2,每一个样本集中包括一个文本、针对该文本设置的对应于所述至少两种要素中每一种要素的一对问题及答案。

该训练方法2中,可以通过机器阅读的方式来训练识别模型2。

比如,对于上述的用户投诉记录,一组样本集包括{文本1,对应于要素1的问题及根据文本1生成的答案A1,对应于要素2的问题及根据文本1生成的答案A2,要素3的问题及根据文本1生成的答案A3,要素4的问题及根据文本1生成的答案A4,要素5的问题及根据文本1生成的答案A5};另一组样本集中包括{文本2,对应于要素1的问题及根据文本2生成的答案B1,对应于要素2的问题及根据文本2生成的答案B2,要素3的问题及根据文本2生成的答案B3,要素4的问题及根据文本2生成的答案B4,要素5的问题及根据文本2生成的答案B5}。

比如,一组样本集包括:

文本1:我的花呗额度太小 30岁 可以使用,但是我希望额度是10万,目前可用的才4万多 能提高额度吗

对应于要素1的问题“文本中有哪些对象

对应于要素2的问题“文本中的状态是什么

对应于要素3的问题“文本中的障碍有哪些

对应于要素4的问题“文本中的诉求是

对应于要素5的问题“文本中的咨询包括什么

此种训练方法2即问答题的训练方法,无需人工标注,能够通过机器阅读问答题的方式对识别模型2进行更好的训练,比如,对于同一个文本,更换问题的表达方式,但是文本及问题的答案不变,就可以生成一个新的训练样本,对识别模型2进行更为深入的训练。

至此,通过步骤203的处理则针对每一种要素识别出了待处理的文本中属于该要素的字符。在识别过程中,为了标注识别结果,可以采用多任务的序列标注方法来对识别结果进行标注。

采用多任务的序列标注方法的原因如下:在一个待识别的文本中,同一个位置的字符有可能会同时属于不同的要素。如“花呗账单的入口找不到”,在这个待识别的文本中,“花呗账单”既属于对象这个要素,也属于障碍这个要素。如果仅采用单一任务的序列标注方法,一个位置的字符则只能被标记为属于一种要素,无法满足标注需求。因此,在本说明书的一个实施例中,对于每一种要素都采用一个独立的任务去做序列标注,多个任务底层共用一个文本的句子语义编码。 比如,参见图3所示,任务1到任务5分别对应上述对象到咨询5个要素的识别,其中,用标记的字符B、I、O分别表示待处理文本中相应位置的字符属于该任务对应的要素的起始位置、中间/结束位置、不属于该要素。比如对于文本“花呗账单的入口找不到”,任务1是对应于对象的任务,使用任务1(对应对象)对该文本的每一个字符进行标注的结果为:BIIIOOOOOO,使用任务3(对应障碍)对该文本的每一个字符进行标注的结果为:BIIIIIIIII。

利用上述多任务的序列标注方法则完成了对待处理文本中属于每一种要素的字符的标注。之后,利用该标注结果,则可以执行下述步骤205的处理。

步骤205:利用识别出的属于每一种要素的字符,得到对应于该种要素的向量。

比如,对于对象这种要素,根据上述多任务的序列标注方法共标注出属于对象的字符有6个,共两个词,则可以利用该6个字符即2个词形成的文本,得到对应于对象这种要素的向量。在本说明书的实施例中,如何得到一个文本的向量是现有技术,这里不再赘述。

比如,对应一种要素得到的向量表示为{1,1,1},对应另一种要素的向量表示为{1,1,0}。

接下来在步骤207将得到的对应于各个要素的各个向量作为所述文本的向量。

因为每一个要素都会得到一个向量,因此,针对待处理的文本,则得到了对应于多个要素的多个向量,使用该多个向量共同作为该文本的向量,即共同来表征该文本。

在本说明书实施例中,因为针对每一个文本都得到了对应于多个要素的多个向量,因此,更加有利于后续针对每一个要素进行统计分析。比如,如果需要分析历史上“对象”为花呗账单且“障碍”为找不到入口的投诉次数或者投诉比例,就可以针对利用要素“对象”所得到的向量以及利用要素“障碍”所得到的向量,进行统计分析。

另外,在得到了各个文本的向量后,通过两个文本的向量,可以计算两个文本的相似度。参见图4,在本说明书一个实施例中计算两个文本的相似度的方法包括:

步骤401:得到第一文本对应的第一向量组。

本步骤中,是利用本说明书任一实施例中提供的文本向量的获取方法来获得该第一文本对应于各个要素的各个向量,该各个向量组成了第一向量组。

步骤403:得到第二文本对应的第二向量组。

本步骤中,是利用本说明书任一实施例中提供的文本向量的获取方法来获得该第二文本对应于各个要素的各个向量,该各个向量组成了第二向量组。

步骤405:根据第一向量组与第二向量组,确定第一文本与第二文本的相似度。

本步骤405的实现方式可以包括:将第一向量组中的各个向量进行加权平均计算,得到对应于第一文本的第一融合向量值;将第二向量组中的各个向量进行加权平均计算,得到对应于第二文本的第二融合向量值;计算第一融合向量值与第二融合向量在向量空间中的距离,根据该距离得到第一文本与第二文本的相似度。

本步骤405的实现方式也可以包括:针对至少两种要素中的每一种要素,计算第一向量组中对应于该要素的向量与第二向量组中对应于该要素的向量在向量空间中的距离;对得到的各个距离进行加权平均计算,根据计算出的加权平均结果得到第一文本与第二文本的相似度。

本说明书各个实施例提供的方案,至少具有如下的有益效果:

1、随着业务复杂度的提升,一个文本的复杂度也会越来越高,比如文本的长度过长或者文本中所涉及的内容种类繁多,现有技术方法得到的一个向量无法准确地表示出文本的含义。基于此种向量,在计算两个文本之间的相似度时,也就无法得到更为准确的相似度计算结果。本说明书实施例提供的方法,从文本包括的各种要素入手,针对每一种要素分别得到文本的一个向量,最终使用对应多种要素的多个向量来表征该文本。因为每一种要素都从一个特定的维度体现了文本的含义,而每一种要素都是影响文本含义的元素,因此,利用对应多种要素的多个向量则能更为准确地表示出文本的含义。基于此种向量,则能得到更为准确的文本相似度计算结果。

2、因为针对每一个文本都得到了对应于多种要素的多个向量,因此,更加有利于后续针对每一种要素进行统计分析。

3、针对用户投诉类的文本,提出了能够体现此类文本含义的5种要素,即对象、状态、障碍、诉求、咨询,针对此5种要素得到的一个用户投诉类文本的5个向量能够更为准确地体现投诉类文本的含义。

4、在对识别模型进行训练时,可以采用对关键词进行标注,对语句的句式进行标注以及对标点符号的位置进行标注等多种标注方式,这样,同一个文本,因为标注方式不同,就可以生成多个不同的训练样本(相当于不同的问题描述方式对应相同的答案),能够更好地对识别模型进行训练。

5、能够通过机器阅读问答题的方式对识别模型进行更好的训练,比如,对于同一个文本,更换问题的表达方式,但是文本及问题的答案不变,就可以生成一个新的训练样本,也能够对识别模型进行更为深入的训练。

6、在识别过程中,采用多任务的序列标注方法来对识别结果进行标注,解决了同一个位置的字符只能被标记为属于一种要素的问题,能够更好地满足识别及对识别结果的标注要求。

在本说明书的一个实施例中,还提出了一种文本向量的获取装置,参见图5,该装置500包括:

文本输入模块501,被配置为得到待处理的文本;

识别模块502,被配置为针对预先设置的至少两种要素中的每一种要素,识别出待处理的文本中属于该要素的字符;

要素向量获取模块503,被配置为利用识别出的属于每一种要素的字符,得到对应于该要素的向量;

文本向量获取模块504,被配置为将得到的对应于各个要素的各个向量作为所述文本的向量。

在本说明书一个装置的实施例中,识别模块502被配置为执行:

将所述待处理的文本输入预先训练的第一识别模型;

得到由该第一识别模型输出的属于每一种要素的字符;

其中,所述第一识别模型的训练方法包括:利用被标注过的文本训练所述第一识别模型,每一个文本的标注方式为:该文本中的各个字符均被标注为属于所述至少两种要素中的一种要素。

在本说明书一个装置的实施例中,文本中的各个字符均被标注为属于所述至少两种要素中的一种要素,包括如下中的至少一项:

该文本中的至少一个关键词被标注为属于所述至少两种要素中的一种要素;

该文本中的至少一个语句的句式被标注为属于所述至少两种要素中的一种要素;

该文本中的至少一个带标点符号的字符位置被标注为属于所述至少两种要素中的一种要素。

在本说明书一个装置的实施例中,识别模块502被配置为执行:

将所述待处理的文本输入预先训练的第二识别模型;

得到由该第二识别模型输出的属于每一种要素的字符;

其中,所述第二识别模型的训练方法包括:利用样本集训练所述第二识别模型,每一个样本集中包括一个文本、针对该文本设置的对应于所述至少两种要素中每一种要素的一对问题及答案。

在本说明书一个装置的实施例中,至少两种要素包括:对象、状态、障碍、诉求以及咨询中的至少两种。

本说明书一个实施例还提出了一种文本相似度的计算装置,参见图6,该装置600包括:如图5所示的本说明书任一实施例提出的文本向量的获取装置500以及计算模块601;

文本向量的获取装置500,被配置得到第一文本对应的第一向量组;该第一向量组中包括第一文本对应于各个要素的各个向量;以及得到第二文本对应的第二向量组;该第二向量组中包括第二文本对应于各个要素的各个向量;

计算模块601,被配置为根据第一向量组与第二向量组,确定第一文本与第二文本的相似度。

在本说明书一个装置的实施例中,计算模块601被配置为执行:

将第一向量组中的各个向量进行加权平均计算,得到对应于第一文本的第一融合向量值;将第二向量组中的各个向量进行加权平均计算,得到对应于第二文本的第二融合向量值;计算第一融合向量值与第二融合向量在向量空间中的距离,根据该距离得到第一文本与第二文本的相似度。

在本说明书另一个装置的实施例中,计算模块601被配置为执行:

针对所述至少两种要素中的每一种要素,计算第一向量组中对应于该要素的向量与第二向量组中对应于该要素的向量在向量空间中的距离;对得到的各个距离进行加权平均计算,根据计算出的加权平均结果得到第一文本与第二文本的相似度。

本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书中任一个实施例中的方法。

本说明书一个实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行本说明书中任一个实施例中的方法。

可以理解的是,本说明书实施例示意的结构并不构成对文本向量的计算装置、文本相似度的计算装置的具体限定。在说明书的另一些实施例中,文本向量的计算装置、文本相似度的计算装置都可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置、系统内的各模块之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号