首页> 中国专利> 文本处理方法、用于短文本的链指方法、装置及存储介质

文本处理方法、用于短文本的链指方法、装置及存储介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本公开提供了一种文本处理方法、用于短文本的链指方法、装置、设备、存储介质以及计算机程序产品，涉及知识图谱、深度学习、自然语言处理等人工智能技术领域。具体实现方案为：为歧义词的每个词义项构建文本数据集，其中，歧义词对应多个词义项；对包含歧义词的短文本进行语义解析，得到多个候选消歧词；将每个候选消歧词分别与每个词义项的文本数据集进行匹配；响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功，将该候选消歧作为相匹配的词义项的目标消歧词；将包含目标消歧词的短文本，保存至相匹配的词义项的消歧文本集。获得的消歧文本集精准且简洁。

著录项

公开/公告号CN114818736A

专利类型发明专利
公开/公告日2022-07-29

原文格式PDF
申请/专利权人北京百度网讯科技有限公司;
展开▼

申请/专利号CN202210612667.1
发明设计人林泽南;赵岷;傅瑜;张国鑫;秦华鹏;吕雅娟;
展开▼

申请日2022-05-31
分类号G06F40/30;G06K9/62;
代理机构北京英赛嘉华知识产权代理有限责任公司;
代理人王达佐;马晓亚
地址 100085 北京市海淀区上地十街10号百度大厦2层
入库时间 2023-06-19 16:09:34

法律信息

法律状态公告日

法律状态信息

法律状态
2022-07-29

公开

发明专利申请公布

说明书

技术领域

本公开涉及知识图谱、深度学习、自然语言处理等人工智能技术领域，尤其涉及一种文本处理方法、用于短文本的链指方法、装置、设备、存储介质以及计算机程序产品。

背景技术

在自然语言处理领域，短文本通常是指长度较短、字符数较少的文本，例如搜索Query、对话内容、各类标题等。在各种短文本应用场景中，可以通过链接(Linking)的方式，实现对短文本内容的快速理解。最常用的是将短文本中的“实体提及(mention)”与语义知识库中的实体(entity)相关联，从而实现实体链指(Entity Linking)。

发明内容

本公开提供了一种文本处理方法、用于短文本的链指方法、装置、设备、存储介质以及计算机程序产品，获得的消歧文本集精准且简洁，提高了短文本的链指效率。

根据本公开的第一方面，提供了一种文本处理方法，包括：为歧义词的每个词义项构建文本数据集，其中，歧义词对应多个词义项；对包含歧义词的短文本进行语义解析，得到多个候选消歧词；将每个候选消歧词分别与每个词义项的文本数据集进行匹配；响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功，将该候选消歧作为相匹配的词义项的目标消歧词；将包含目标消歧词的短文本，保存至相匹配的词义项的消歧文本集。

根据本公开的第二方面，提供了一种用于短文本的链指方法，包括：获取待处理的短文本，并从待处理的短文本中确定出目标歧义词；获取目标歧义词的多个词义项，以及每个词义项的消歧文本集，其中，消歧文本集是通过上述第一方面提供的文本处理方法得到的；将待处理的短文本分别与每个词义项的消歧文本集进行匹配；基于匹配结果，为目标歧义词确定链指结果。

根据本公开的第三方面，提供了一种文本处理装置，包括：构建模块，被配置为歧义词的每个词义项构建文本数据集，其中，歧义词对应多个词义项；解析模块，被配置为对包含歧义词的短文本进行语义解析，得到多个候选消歧词；匹配模块，被配置为将每个候选消歧词分别与每个词义项的文本数据集进行匹配；确定模块，被配置为响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功，将该候选消歧作为相匹配的词义项的目标消歧词；保存模块，被配置为将包含目标消歧词的短文本，保存至相匹配的词义项的消歧文本集。

根据本公开的第四方面，提供了一种用于短文本的链指装置，包括：第一获取模块，被配置为获取待处理的短文本，并从待处理的短文本中确定出目标歧义词；第二获取模块，被配置为获取目标歧义词的多个词义项，以及每个词义项的消歧文本集，其中，消歧文本集是通过上述第三方法提供的文本处理装置得到的；文本匹配模块，被配置为将待处理的短文本分别与每个词义项的消歧文本集进行匹配；链指模块，被配置为基于匹配结果，为目标歧义词确定链指结果。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行上述文本处理方法或用于短文本的链指方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行上述文本处理方法或用于短文本的链指方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现上述文本处理方法或用于短文本的链指方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开可以应用于其中的示例性系统架构图；

图2是根据本公开的文本处理方法的一个实施例的流程图；

图3是根据本公开的文本处理方法的另一个实施例的流程图；

图4是根据本公开的文本处理方法的又一个实施例的流程图；

图5是根据本公开的用于短文本的链指方法的一个实施例的流程图；

图6是根据本公开的用于短文本的链指方法的另一个实施例的流程图；

图7是根据本公开的文本处理装置的一个实施例的结构示意图；

图8是根据本公开的用于短文本的链指装置的一个实施例的结构示意图；

图9是用来实现本公开实施例的文本处理方法或用于短文本的链指方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本公开的文本处理方法、文本处理装置或用于短文本的链指方法、用于短文本的链指装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，也可以经由服务器105实现终端设备101、102、103之间的交互。终端设备101、102、103上可以安装有各种客户端应用，例如文本处理应用、搜索应用等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种文本处理服务。例如，服务器105可以对从终端设备101、102、103获取短文本信息进行分析和处理，并生成处理结果(例如对短文本中的词汇进行链指等)。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的文本处理方法或用于短文本的链指方法一般由服务器105执行，相应地，文本处理装置或用于短文本的链指装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的文本处理方法的一个实施例的流程200。该文本处理方法包括以下步骤：

步骤201、为歧义词的每个词义项构建文本数据集，其中，歧义词对应多个词义项。

在本实施例中，文本处理方法的执行主体(例如图1所示的服务器105)可以首先从预先建立的词义知识库中，获取到歧义词以及歧义词的多个词义项。其中，歧义词可以是指涵盖多个表达意义的词汇，每一种表达意义都可以作为一个词义项。例如，词汇“李白”可能涵盖三种表达意义：“唐朝诗人李白”、“主持人的妻子李白”以及“游戏角色李白”，这样词汇“李白”就对应了三个词义项，并且每个词义项在上述词义知识库中都具有自己的ID(Identity document，身份标识)。

上述执行主体在确定出每个歧义词对应的词义项后，可以进一步为每个词义项构建文本数据集，使得每个词义项都对应有一个文本数据集。在文本数据集中可以包含各种长文本和短文本，这些文本的内容都是用于描述对应的词义项的。例如，在词义项“唐朝诗人李白”的文本数据集中，可以包括相关百科介绍、诗词解析等文本内容。在本实施例的一些可选实现方式中，可以直接将词义知识库中与词义项相关的描述文本，作为该词义项的文本数据集，也可以进一步通过人工添加的方式对文本数据集进行补充完善。

步骤202、对包含歧义词的短文本进行语义解析，得到多个候选消歧词。

在本实施例中，上述执行主体首先获取到包含有歧义词的短文本，例如包含有歧义词“李白”的搜索Query，文章标题等，这些短文本的来源可以是词义知识库，也可以是各类网页以及应用程序。然后对这些短文本进行语义解析，从短文本中剔除那些不适合做消歧词的无用词汇，例如助词、疑问词、语气词、标点等，然后将短文本中剩余的词汇都作为候选消歧词。

需要说明的是，本公开实施例中所涉及的消歧词，是指那些能够协助歧义词消除歧义，指向特定词义项的词。例如，消歧词“汪伦”可以将歧义词“李白”表达的意义，明确指向“唐朝诗人李白”这个词义项。

步骤203、将每个候选消歧词分别与每个词义项的文本数据集进行匹配。

在本实施例中，上述执行主体在得到候选消歧词后，可以进一步将每个消歧词分别与各个文本数据集进行匹配。在一些可选的匹配方式中，可以将候选消歧词作为查找目标，直接在文本数据集中进行字符串查找。在另一些可选的匹配方式中，可以先对文本数据集中的文本进行语义解析，然后在解析后的文本数据集中查找候选歧义词。之后可以根据候选消歧词在文本数据集中出现的次数，确定候选消歧词是否与文本数据集匹配。例如，可以预先设定一定匹配次数阈值，如果候选消歧词在文本数据集中出现的次数大于匹配次数阈值，则可以判断候选消歧词与文本数据集匹配成功，否则匹配失败。

在一些可选的实现方式中，可以对一个短文本中的全部候选消歧词进行综合判断，以确定是否与文本数据集匹配成功。具体地，在将每个候选消歧词分别与文本数据集进行匹配后，可以进一步对同一短文本中各个候选消歧词的出现次数求和，然后根据求和结果确定候选消歧词是否与文本数据集匹配。在这种情况下，一个短文中的全部候选消歧词与文本数据集的匹配情况相同。

步骤204、响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功，将该候选消歧作为相匹配的词义项的目标消歧词。

在本实施例中，可以进一步对候选消歧词与文本数据集的匹配情况进行统计，如果一个候选消歧词仅仅与一个文本数据集匹配成功，则可以将这个候选消歧词作为一个词义项的目标消歧词，该词义项即为匹配成功的文本数据集所对应的词义项，并且目标消歧词可以被保存到该词义项的消歧词集合中。

步骤205、将包含目标消歧词的短文本，保存至相匹配的词义项的消歧文本集。

在本实施例中，上述执行主体在确定出目标消歧词后，可以进一步对步骤202中得到的包含有歧义词的短文本进行筛选，从中得到包含有目标消歧词的短文本。然后将筛选得到短文本，保存到与目标消歧词对应的词义项的消歧文本集中。在后续对词汇进行消歧时，可以使用消歧文本集替代词义项在词义知识库中的描述文本。

本公开实施例提供的文本处理方法，首先为歧义词的每个词义项构建文本数据集，其中，歧义词对应多个词义项，然后对包含歧义词的短文本进行语义解析，得到多个候选消歧词，接着将每个候选消歧词分别与每个词义项的文本数据集进行匹配，并响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功，将该候选消歧作为相匹配的词义项的目标消歧词，最后将包含目标消歧词的短文本，保存至相匹配的词义项的消歧文本集。通过将短文本中的词汇与词义项的文本数据集进行匹配，为每个词义项生成了只包含短文本的消歧文本集，使得消歧文本集中的文本数据精准且简洁。

进一步继续参考图3，其示出了根据本公开的文本处理方法的另一个实施例的流程300。该文本处理方法包括以下步骤：

步骤301、为歧义词的每个词义项构建文本数据集，其中，歧义词对应多个词义项。

步骤302、对包含歧义词的短文本进行语义解析，得到多个候选消歧词。

步骤303、将每个候选消歧词分别与每个词义项的文本数据集进行匹配。

步骤304、响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功，将该候选消歧作为相匹配的词义项的目标消歧词。

步骤305、将包含目标消歧词的短文本，保存至相匹配的词义项的消歧文本集。

在本实施例中，步骤301-305的具体操作已在图2所示的实施例中步骤201-205进行了详细的介绍，在此不再赘述。

步骤306、对于每个词义项的消歧文本集分别执行向量压缩操作，得到消歧文本集的压缩平均向量，作为对应词义项的消歧向量。。

在本实施例中，上述执行主体可以进一步对每个消歧文本集进行向量转换及压缩，使得每个词义项可以对应一个消歧向量。具体的向量压缩操作包括：将文本集中的每个短文本进行向量转换，得到多个文本向量；对多个文本向量进行加权拟合，得到一个压缩平均向量。具体地，可以首先将一个消歧文本集中的每个短文本都转换成一个文本向量，例如，可以使用预训练语言模型BERT(Bidirectional Encoder Representation fromTransformers)、文心ERNIE将文本转换为向量形式，得到多个文本向量。然后，对这多个文本向量进行加权拟合，得到一个压缩平均向量，例如，可以使用白化Whitening或者SimCSE(Simple Contrastive Learning of Sentence Embeddings)等方式实现向量压缩，即利用词义项下的所有短文本作为训练集，压缩构建成一个短文本集合平均向量。这样每个消歧文本集都可以被转换为一个压缩平均向量，该压缩平均向量可以直接作为与消歧文本集相对应的词义项的消歧向量。

步骤307、为歧义词配置无词义文本集，其中，无词义文本集中包括多个无词义短文本，无词义短文本中包含歧义词且不包含目标消歧词。

在本实施例中，还可以进一步为歧义词配置一个无词义文本集，在该无词义文本集中包括有多个无词义短文本，其中，无词义短文本是指那些无法消歧，即不能被对应到某个词义项的的短文本。在这些无词义短文本中，包括有歧义词但是不包含目标消歧词，例如“李白是谁”，“李白多大”这两个短文本，包括有歧义词“李白”，但是不包括任何能指向词义项的“唐朝诗人李白”、“主持人的妻子李白”或“游戏角色李白”的目标消歧词，因此可以被认为是无词义短文本。

在构建无词义文本集时，可以通过人工筛选构建，也可以从上述步骤302中得到的包含歧义词的全部短文本中筛选，即对于包含歧义词的短文本来说，如果无法被保存到某个词义项的消歧文本集中，就可以直接将其保存到对应歧义词的无词义文本集中。

步骤308、对无词义文本集执行向量压缩操作，并将得到的压缩平均向量作为无词义文本集的消歧向量。

在本实施例中，上述执行主体可以进一步对无词义文本集进行向量转换及压缩，使得无词义文本集也可以对应一个压缩平均向量，即无词义文本集的消歧向量。具体的向量压缩操作可以如上述步骤306所述，被处理的文本集即无词义文本集，具体的压缩方法在此不再赘述。

从图3中可以看出，与图2对应的实施例相比，本实施例中的文本处理方法在得到每个词义项的消歧文本集后，可以进一步对每个消歧文本集执行向量压缩操作，从而为每个词义项生成一个消歧向量，提升了词义项之间的区分度。并且，还为歧义词配置了无词义文本集以及对应的消歧向量，可以进一步提升词义项与无词义情况的区分度。

进一步继续参考图4，其示出了根据本公开的文本处理方法的又一个实施例的流程400。该文本处理方法包括以下步骤：

步骤401、生成初始文本资源集。

在本实施例中，文本处理方法的执行主体(例如图1所示的服务器105)可以首先生成一个初始文本资源集，在该初始文本资源集中可以包括全网的搜索Query集合，也可以包括各类网页数据，例如百科、贴吧、新闻资讯等，还可以包括人工输入的消歧文本和消歧词。

步骤402、从初始文本资源集中，分别获取与歧义词的各个词义项匹配的文本资源，得到每个词义项的文本数据集。

在本实施例中，上述执行主体可以利用已有的词义知识库，首先确定歧义词的各个词义项，然后从初始文本集中获取与各个词义项匹配的文本资源。例如，可以使用与词义项关联的关键字，在初始文本资源集的搜索Query集合和各类网页数据中进行筛选，得到与每个词义项匹配的网页内容，作为文本数据集的一个组成部分；也可以直接获取与词义项对应的百科类页面，作为文本数据集的另一个组成部分。

步骤403、从初始文本资源集中，筛选出包含歧义词的短文本。

在本实施例中，上述执行主体可以将歧义词本身作为搜索关键字，从初始文本资源集中，筛选出包含歧义词的短文本。其中，短文本包括搜索Query、各类标题(如新闻标题、商品标题等)、问答平台中的问题描述等。本实施例中，短文本的长度通常不超过64个字符。

步骤404、对包含歧义词的短文本进行文本解析，得到多个候选消歧词。

步骤405、将每个候选消歧词分别与每个词义项的文本数据集进行匹配。

步骤406、响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功，将该候选消歧作为相匹配的词义项的目标消歧词。

步骤407、将包含目标消歧词的短文本，保存至相匹配的词义项的消歧文本集。

在本实施例中，步骤404-407的具体操作已在图2所示的实施例中步骤202-205进行了详细的介绍，在此不再赘述。

步骤408、从一个词义项的文本数据集中，获取关键文本信息。

在本实施例中，上述执行主体还可以从一个词义项的文本数据集中，获取出具有词义代表性的关键文本信息，比如百科页面中的摘要部分、高置信度的SPO三元组等。其中，一个SPO三元组包括一个句子的主语(subject)、谓语(predicate)和宾语(object)。

步骤409、从关键文本信息中提取扩展消歧词，并将扩展消歧词与歧义词进行拼接，得到拼接短文本。

在本实施例中，可以进一步从关键文本信息中提取扩展消歧词，例如上述摘要部分的关键词、SPO三元组中的O值即宾语，都可以作为扩展消歧词。然后上述执行主体可以将扩展消歧词与歧义词进行拼接，例如，分别将多个扩展消歧词直接与歧义词进行连接，从而得到多个拼接短文本。

步骤410、将拼接短文本保存至该词义项的消歧文本集。

在本实施例中，可以将得到的拼接短文本，保存到上述步骤408中确定的那个词义项的消歧文本集中。通过挖掘扩展消歧词，并使用扩展消歧词与歧义词拼接得到的拼接短文本，可以对消歧文本集进行补充，有效改善消歧文本集中文本量不足的问题。

在一些可选的实现方式中，文本处理方法400还可以进一步包括图3中的步骤306-308，其具体内容已经在图3中进行了详细描述，在此不再赘述。

从图4中可以看出，与图2对应的实施例相比，本实施例中的文本处理方法，可以首先生成初始文本资源集，然后从该初始文本资源集中获取各个词义项的文本数据集，以及包含歧义词的短文本，进行后续处理。这样，得到的消歧词以及消歧文本集都不再依赖于语义知识库的预先收录，有效扩展了消歧文本集的适用范围。

进一步继续参考图5，其示出了根据本公开的用于短文本的链指方法的一个实施例的流程500，该链指方法包括以下步骤：

步骤501、获取待处理的短文本，并从待处理的短文本中确定出目标歧义词。

在本实施例中，链指方法的执行主体(例如图1所示的服务器105)，可以首先获取待处理的短文本，该短文本可以是当前需要进行分析和处理的短文本。例如，从搜索页面得到的搜索Query、从问答页面得到的问题描述、从商品页面获取的商品标题等。然后从该待处理的短文本中确定出需要进行消歧的目标歧义词，具体可以根据当前任务类型确定目标歧义词，例如当前的搜索Query是通过影视类的网站页面得到的，那么可以将影视类相关的词汇确定为目标歧义词。

需要说明的是，本实施例中的目标歧义词并不只是实体词，还可以是非实体词，例如概念词或其他任意词汇。

步骤502、获取目标歧义词的多个词义项，以及每个词义项的消歧文本集。

在本实施例中，上述执行主体可以首先从已有词义知识库中，获取目标歧义词具有的全部词义项，然后进一步确定每个词义项的消歧文本集，其中，消歧文本集是通过上述图2-图4任一个提供的文本处理方法得到的。

步骤503、将待处理的短文本分别与每个词义项的消歧文本集进行匹配。

在本实施例中，上述执行主体可以将待处理的短文本，分别与每个词义项的消歧文本集进行匹配。具体地，可以直接在消歧文本集中搜索上述待处理的短文本，然后将搜索结果作为匹配结果；或者，可以计算待处理的短文本和每个消歧文本集的文本相似度，然后将文本相似度作为匹配结果。

步骤504、基于匹配结果，为目标歧义词确定链指结果。

在本实施例中，上述执行主体可以根据得到的匹配结果，确定目标歧义词的链指结果，例如，若待处理的短文本在某个消歧文本集中的出现次数大于预先确定的次数阈值，可以将该消歧文本集的词义项确定为目标歧义词的链指结果。或者，将待处理的短文本和每个消歧文本集的文本相似度进行排序，然后将文本相似度最高的消歧文本集的词义项，确定为目标歧义词的链指结果。

从图5中可以看出，本实施例的用于短文本的链指方法，首先获取待处理的短文本，并从待处理的短文本中确定出目标歧义词；然后获取目标歧义词的多个词义项，以及每个词义项的消歧文本集，之后将待处理的短文本分别与每个词义项的消歧文本集进行匹配，最后基于匹配结果，为目标歧义词确定链指结果。在对待处理的短文本进行消歧时，利用的消歧文本集中也只包括短文本，不包括过多的冗余信息，提高了短文本的消歧效率，改善了短文本中词汇链指的准确性。

进一步继续参考图6，其示出了根据本公开的用于短文本的链指方法的另一个实施例的流程600，该链指方法包括以下步骤：

步骤601、获取待处理的短文本，并从待处理的短文本中确定出目标歧义词。

步骤602、获取目标歧义词的多个词义项，以及每个词义项的消歧文本集。

在本实施例中，上述步骤601-602已经在图5中的步骤501-502中进行了详细描述，在此不再赘述。

步骤603、获取待处理的短文本的压缩平均向量，以及每个词义项的消歧向量。

在本实施例中，上述执行主体可以对待处理的短文本进行向量压缩操作，得到其对应的压缩平均向量。同时还可以获取每个词义项的消歧向量，其中，每个词义项的消歧向量可以根据图3提供的文本处理方法得到，具体的向量压缩方法也可以参考图3的步骤306中的具体描述，在此不再赘述。

步骤604、将待处理的短文本的压缩平均向量，分别与每个词义项的消歧向量进行匹配。

在本实施例中，上述执行主体可以计算待处理的短文本的压缩平均向量，与每个词义项的消歧向量之间的向量相似度，并将计算结果作为第一匹配结果。具体可以使用曼哈顿距离、欧几里得距离、余弦函数等方法，来计算向量相似度。

步骤605、获取目标歧义词的无词义文本集的消歧向量。

在本实施例中，上述执行主体还可以获取目标歧义词的无词义文本集的消歧向量，其中，无词义文本集的消歧向量可以根据图3提供的文本处理方法得到。

步骤606、将待处理的短文本的压缩平均向量，与无词义文本集的消歧向量进行匹配。

在本实施例中，上述执行主体可以计算待处理的短文本的压缩平均向量，与无词义文本集的消歧向量之间的向量相似度，并将计算结果作为第二匹配结果。

步骤607、判断无词义文本集的匹配度是否优于全部消歧文本集的匹配度。

在本实施例中，上述执行主体可以根据前述得到的第一匹配结果和第二匹配结果，来判断无词义文本集的匹配度是否优于全部消歧文本集的匹配度。具体可以根据计算得到的向量相似度进行确定，如果无词义文本集对应计算的向量相似度最大，可以认为无词义文本集的匹配度优于其余全部消歧文本集的匹配度，此时继续执行下述步骤609，否则执行下述步骤608。

步骤608、将匹配度最高的消歧文本集对应的词义项，确定为目标歧义词的链指结果。

在本实施例中，如果无词义文本集与待处理的短文本的匹配度不是最高的，说明目标歧义词可以对应到一个具体的词义项上，因此可以将匹配度最高的消歧文本集对应的词义项，确定为目标歧义词的链指结果，也就是将目标歧义词与该词义项在语义知识库中的ID相关联。

步骤609、按照预设规则从多个词义项中选出一个词义项，作为目标歧义词的链指结果。

在本实施例中，如果无词义文本集与待处理的短文本的匹配度是最高的，说明目标歧义词可能无法对应到一个具体的词义项上，因此可以按照预设规则从其具有的多个词义项中选出一个词义项，例如选出歧义词最常用的一个词义项，作为目标歧义词的链指结果。

在一些可选的实现方式中，还可以将目标歧义词的链指结果直接确定为无值(Nil)。

从图6中可以看出，与图5对应的实施例相比，本实施例中的用于短文本的链指方法，利用待处理的短文本的压缩平均向量与各个文本集的消歧向量进行匹配，由于各个文本集的消歧向量之间的差异更为明显，因此得到的匹配结果更具有代表性，能够明显提高目标歧义词的链指结果的准确性。进一步地，通过无词义文本集，对目标歧义词的无值情况进行补充确认，进一步提高了链指结果的准确性和全面性。

进一步参考图7，本公开提供了一种文本处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的文本处理装置700，可以包括构建模块701、解析模块702、匹配模块703、确定模块704和保存模块705。其中，构建模块701，被配置为歧义词的每个词义项构建文本数据集，其中，歧义词对应多个词义项；解析模块702，被配置为对包含歧义词的短文本进行语义解析，得到多个候选消歧词；匹配模块703，被配置为将每个候选消歧词分别与每个词义项的文本数据集进行匹配；确定模块704，被配置为响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功，将该候选消歧作为相匹配的词义项的目标消歧词；保存模块705，被配置为将包含目标消歧词的短文本，保存至相匹配的词义项的消歧文本集。

在本实施例中，文本处理装置700中：构建模块701、解析模块702、匹配模块703、确定模块704和保存模块705的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-205的相关说明，在此不再赘述。

在本实施例的一些可选实现方式中，处理装置700还包括：第一压缩模块，被配置为对于每个词义项的消歧文本集分别执行向量压缩操作，得到消歧文本集的压缩平均向量，作为对应词义项的消歧向量；其中，向量压缩操作包括：将文本集中的每个短文本进行向量转换，得到多个文本向量；对多个文本向量进行加权拟合，得到一个压缩平均向量。

在本实施例的一些可选实现方式中，处理装置700还包括：配置模块，被配置为歧义词配置无词义文本集，其中，无词义文本集中包括多个无词义短文本，无词义短文本中包含歧义词且不包含目标消歧词；第二压缩模块，被配置为对无词义文本集执行向量压缩操作，并将得到的压缩平均向量作为无词义文本集的消歧向量。

在本实施例的一些可选实现方式中，处理装置700还包括：信息获取模块，从一个词义项的文本数据集中，获取关键文本信息；拼接模块，被配置为从关键文本信息中提取扩展消歧词，并将扩展消歧词与歧义词进行拼接，得到拼接短文本；文本保存模块，被配置为将拼接短文本保存至该词义项的消歧文本集。

在本实施例的一些可选实现方式中，构建模块701包括：生成单元，被配置为生成初始文本资源集；获取单元，被配置为从初始文本资源集中，分别获取与歧义词的各个词义项匹配的文本资源，得到每个词义项的文本数据集。

在本实施例的一些可选实现方式中，解析模块702包括：筛选单元，被配置为从初始文本资源集中，筛选出包含歧义词的短文本；解析单元，被配置为对包含歧义词的短文本进行文本解析，得到多个候选消歧词。

进一步参考图8，本公开提供了一种用于短文本的链指装置的一个实施例，该装置实施例与图5所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的用于短文本的链指装置800，可以包括第一获取模块801，被配置为获取待处理的短文本，并从待处理的短文本中确定出目标歧义词；第二获取模块802，被配置为获取目标歧义词的多个词义项，以及每个词义项的消歧文本集，其中，消歧文本集是通过上述图7提供的文本处理装置得到的；文本匹配模块803，被配置为将待处理的短文本分别与每个词义项的消歧文本集进行匹配；链指模块804，被配置为基于匹配结果，为目标歧义词确定链指结果。

在本实施例中，用于短文本的链指装置800中各个模块的具体处理及其所带来的技术效果可分别参考图5对应实施例中的步骤501-504的相关说明，在此不再赘述。

在本实施例的一些可选实现方式中，文本匹配模块包括：向量获取单元，被配置为获取待处理的短文本的压缩平均向量，以及每个词义项的消歧向量；文本匹配单元，被配置为将待处理的短文本的压缩平均向量，分别与每个词义项的消歧向量进行匹配。

在本实施例的一些可选实现方式中，装置800还包括：第三获取模块，被配置为获取目标歧义词的无词义文本集的消歧向量；第二匹配模块，被配置为将待处理的短文本的压缩平均向量，与无词义文本集的消歧向量进行匹配；链指模块804包括：判断单元，被配置为判断无词义文本集的匹配度是否优于全部消歧文本集的匹配度；第一链指单元，被配置为若否，将匹配度最高的消歧文本集对应的词义项，确定为目标歧义词的链指结果；第二链指单元，被配置为若是，按照预设规则从多个词义项中选出一个词义项，作为目标歧义词的链指结果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如文本处理方法或用于短文本的链指方法。例如，在一些实施例中，文本处理方法或用于短文本的链指方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的文本处理方法或用于短文本的链指方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本处理方法或用于短文本的链指方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。服务器可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 文本处理方法、用于短文本的链指方法、装置及存储介质 [P] . 中国专利： CN114818736A . 2022-07-29
2. 文本处理方法、文本分类方法、装置、设备及存储介质 [P] . 中国专利： CN114186060A . 2022-03-15
3. Information storage media for multimedia data storage, information storage media, text subtitle processing apparatus, text subtitle processing method, and computer readable recording media [P] . BRPI0415045A . 2006-12-12

机译：用于多媒体数据存储的信息存储介质，信息存储介质，文本字幕处理设备，文本字幕处理方法和计算机可读记录介质
4. storage media, apparatus for playing multimedia image data and text-based subtitle data recorded in a storage media for displaying subtitles in an image based on multimedia image data, method of reproducing image data from multi-media and text-based subtitle data recorded on a storage media for displaying subtitles on an image based on multimedia image data, computer readable media, and presentation graphics decoder [P] . BRPI0507878A . 2007-07-24

机译：存储介质，用于播放记录在存储介质中的多媒体图像数据和基于文本的字幕数据以基于多媒体图像数据在图像中显示字幕的装置，从多媒体和记录在屏幕上的基于文本的字幕数据再现图像数据的方法用于基于多媒体图像数据在图像上显示字幕的存储介质，计算机可读介质和演示图形解码器
5. FORMAT AND DISPLAY METHOD FOR TEXT EXECUTABLE ON COMPUTER PROCESSOR, COMPUTER DEVICE CAPABLE OF FORMATTING AND DISPLAYING TEXT AND COMPUTER READABLE STORAGE MEDIUM STORING PROGRAM CAPABLE OF FORMATTING AND DISPLAYING TEXT, AND METHOD FOR ADDING NEW STYLE TO TEXT EDITOR CAPABLE OF FORMATTING AND DISPLAYING TEXT [P] . 日本专利： JP2000048016A . 2000-02-18

机译：用于在计算机处理器上执行的文本的格式和显示方法，具有格式并显示文本的计算机设备以及具有格式和显示文本的计算机可读存储介质存储程序，以及将具有文本格式的新样式添加到具有编辑和显示功能的文本编辑器中的方法