首页> 中国专利> 一种文本匹配方法、装置以及政务服务文本匹配方法

一种文本匹配方法、装置以及政务服务文本匹配方法

摘要

本申请提供一种文本匹配方法,包括:获得待匹配实体名称文本对应的目标实体类别;根据所述目标实体类别,获得实体类别与所述目标实体类别相同的所述待匹配实体名称文本对应的候选标准化实体名称文本;根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本相似度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹配的目标标准化实体名称文本。本申请提供的文本匹配方法,能够根据待匹配实体名称文本与候选标准化实体名称文本的文本相似度,获得待匹配实体名称文本匹配的目标标准化实体名称文本,无需依靠人工汇总的方式来将待匹配实体名称文本与目标标准化实体名称文本进行匹配,从而提高了实体名称文档标准化的效率。

著录项

  • 公开/公告号CN114818706A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN202110130726.7

  • 申请日2021-01-29

  • 分类号G06F40/295(2020.01);G06F40/194(2020.01);G06F16/903(2019.01);

  • 代理机构北京清源汇知识产权代理事务所(特殊普通合伙) 11644;北京清源汇知识产权代理事务所(特殊普通合伙) 11644;

  • 代理人冯德魁;张艳梅

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2023-06-19 16:11:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06F40/295 专利申请号:2021101307267 申请日:20210129

    实质审查的生效

说明书

技术领域

本申请涉及计算机技术领域,具体涉及一种文本匹配方法。本申请同时涉 及一种文本匹配装置、电子设备以及存储介质、政务服务文本匹配方法。

背景技术

随着互联网技术的快速发展,越来越多基于互联网的业务服务体系开始出 现或已应用在不同的服务领域,如:应用于政府服务的“互联网+政务服务”的 技术体系已经开始建设。但是,基于互联网的业务服务体系在给同时,也不得 不面对多诸多问题,如:实体名称文档标准化的问题。

以“互联网+政务服务”为例,在政务服务事项优化过程中需要分析哪些材 料是可以电子化的,此时,通常的做法是从各政府收集政务服务事项最依赖的 材料,再分析哪些材料是可以电子化的。然而,各地方政府在描述政务服务事 项所需要的政务材料时,对政务服务材料名称的描述往往是非标准化的,如: 将“中华人民共和国居民身份证”描述成“个人身份证”,“双人身份证”,“夫 妻身份证”等等。对政务服务材料名称的非标准化描述,不仅造成了糟糕的用 户体验,还给后续的政务服务事项优化带来了很大的挑战。因此,如何将非标 准化实体名称文档标准化,成为基于互联网的业务服务体系发展亟待解决的问题。

现有技术中,解决非标准化实体名称文档标准化问题的方法一般为:建立 包含大量相同类别实体名称文档数据库,通过人工汇总的方式把数据库中描述 同一实体名称的非标准化实体名称文档汇总后链接到描述该实体名称的标准化 实体名称文档上。由于现有解决非标准化实体名称文档标准化问题的方法需要 基于人工汇总,从而导致了非标准化实体名称文档标准化的效率较低。

发明内容

本申请提供一种文本匹配方法、装置、电子设备以及存储介质,以提高实 体名称文档标准化的效率。

本申请提供一种文本匹配方法,包括:

获得待匹配实体名称文本对应的目标实体类别;

根据所述目标实体类别,获得实体类别与所述目标实体类别相同的所述待 匹配实体名称文本对应的候选标准化实体名称文本;

根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本相似 度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹配的 目标标准化实体名称文本。

可选的,还包括:将所述目标标准化实体名称文本提供给用户设备。

可选的,还包括:将所述待匹配实体名称文本与所述目标标准化实体名称 文本进行关联。

可选的,所述将所述待匹配实体名称文本与所述目标标准化实体名称文本 进行关联,包括:建立所述待匹配实体名称文本与所述目标标准化实体名称文 本的对应关系。

可选的,所述获得待匹配实体名称文本对应的目标实体类别,包括:获得 所述用户设备发出的文本匹配指令,所述文本匹配指令中携带有所述待匹配实 体名称文本;

所述将所述位置推荐信息提供给用户设备,包括:针对所述文本匹配指令, 将所述目标标准化实体名称文本提供给所述用户设备。

可选的,还包括:展示所述目标标准化实体名称文本。

可选的,所述获得待匹配实体名称文本对应的目标实体类别,包括:

采取预设的分词策略对所述待匹配实体名称文本进行分词,获得所述待匹 配实体名称文本中的类别关键词;

根据所述待匹配实体名称文本中的类别关键词,获得所述目标实体类别。

可选的,所述根据所述目标实体类别,获得实体类别与所述目标实体类别 相同的所述待匹配实体名称文本对应的候选标准化实体名称文本,包括:

根据所述待匹配实体名称文本中的关键词,获得所述待匹配实体名称相关 联的关联标准化实体名称文本;

获得所述关联标准化实体名称文本的实体类别;

根据所述目标实体类别和所述实体类别,从所述关联标准化实体名称文本 中获得所述候选标准化实体名称文本。

可选的,所述根据所述待匹配实体名称文本与所述候选标准化实体名称文 本的文本相似度,从所述候选标准化实体名称文本中获得与所述待匹配实体名 称文本匹配的目标标准化实体名称文本,包括:

获得所述待匹配实体名称文本中的关键词的权重和所述候选标准化实体名 称文本中的关键词的权重;

获得所述待匹配实体名称文本中的关键词对应的第一词向量,以及所述候 选标准化实体名称文本中的关键词对应的第二词向量;

根据所述待匹配实体名称文本中的关键词的权重、所述候选标准化实体名 称文本中的关键词的权重、所述第一词向量以及所述第二词向量,获得所述第 一词向量和所述第二词向量的词向量相似度;

根据所述词向量相似度,获得所述文本相似度。

可选的,所述根据所述词向量相似度,获得所述文本相似度,包括:

获得所述待匹配实体名称文本匹配的字符串;

获得所述候选标准化实体名称文本对应的字符串;

根据所述待匹配实体名称文本匹配的字符串以及所述候选标准化实体名称 文本对应的字符串,获得所述待匹配实体名称文本匹配的字符串与所述候选标 准化实体名称文本对应的字符串的字符串相似度;

根据所述词向量相似度和所述字符串相似度,获得所述文本相似度。

可选的,所述根据所述词向量相似度和所述字符串相似度,获得所述文本 相似度,包括:根据预设的所述词向量相似度对应的第一相似度权重以及所述 词向量相似度对应的第二相似度权重,对所述词向量相似度和所述字符串相似 度进行加权,获得所述文本相似度。

可选的,还包括:判断所述文本相似度是否达到文本相似度阈值;

所述根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本 相似度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹 配的目标标准化实体名称文本,包括:若所述文本相似度达到所述文本相似度 阈值,则从所述候选标准化实体名称文本中,获得所述文本相似度达到所述文 本相似度阈值的所述候选标准化实体名称文本作为目标标准化实体名称文本。

可选的,所述从所述候选标准化实体名称文本中,获得所述文本相似度达 到所述文本相似度阈值的所述候选标准化实体名称文本作为目标标准化实体名 称文本,包括:从所述候选标准化实体名称文本中,获得所述文本相似度达到 所述文本相似度阈值且相似度最高的所述候选标准化实体名称文本作为目标标 准化实体名称文本。

可选的,还包括:若所述文本相似度未达到所述文本相似度阈值,则确定 所述候选标准化实体名称文本中不存在所述目标标准化实体名称文本。

本申请另一方面,还提供一种文本匹配装置,包括:

目标实体类别获得单元,用于获得待匹配实体名称文本对应的目标实体类 别;

候选文本获得单元,用于根据所述目标实体类别,获得实体类别与所述目 标实体类别相同的所述待匹配实体名称文本对应的候选标准化实体名称文本;

目标文本匹配单元,用于根据所述待匹配实体名称文本与所述候选标准化 实体名称文本的文本相似度,从所述候选标准化实体名称文本中获得与所述待 匹配实体名称文本匹配的目标标准化实体名称文本。

本申请另一方面,还提供一种电子设备,包括:

处理器;以及

存储器,用于存储文本匹配方法的程序,该设备通电并通过所述处理器运 行该文本匹配方法的程序后,执行下述步骤:

获得待匹配实体名称文本对应的目标实体类别;

根据所述目标实体类别,获得实体类别与所述目标实体类别相同的所述待 匹配实体名称文本对应的候选标准化实体名称文本;

根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本相似 度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹配的 目标标准化实体名称文本。

本申请另一方面,还提供一种存储介质,存储有文本匹配方法的程序,该 程序被处理器运行,执行下述步骤:获得待匹配实体名称文本对应的目标实体 类别;

根据所述目标实体类别,获得实体类别与所述目标实体类别相同的所述待 匹配实体名称文本对应的候选标准化实体名称文本;

根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本相似 度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹配的 目标标准化实体名称文本。

本申请另一方面,还提供一种政务服务文本匹配方法,包括:

获得用于描述政务服务材料名称的、待匹配实体名称文本对应的目标实体 类别;

根据所述目标实体类别,获得实体类别与所述目标实体类别相同的所述待 匹配实体名称文本对应的候选标准化实体名称文本;

根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本相似 度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹配的 目标标准化实体名称文本;

将所述待匹配实体名称文本与所述目标标准化实体名称文本进行关联。

本申请另一方面,还提供一种地址文本匹配方法,包括:

获得用于描述地理位置名称的、待匹配实体名称文本对应的目标实体类别;

根据所述目标实体类别,获得实体类别与所述目标实体类别相同的所述待 匹配实体名称文本对应的候选标准化实体名称文本;

根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本相似 度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹配的 目标标准化实体名称文本;

将所述待匹配实体名称文本与所述目标标准化实体名称文本进行关联。

与现有技术相比,本申请具有如下优点:

本申请提供一种文本匹配方法,通过获得待匹配实体名称文本对应的目标 实体类别;根据所述目标实体类别,获得实体类别与所述目标实体类别相同的 所述待匹配实体名称文本对应的候选标准化实体名称文本;根据所述待匹配实 体名称文本与所述候选标准化实体名称文本的文本相似度,从所述候选标准化 实体名称文本中获得与所述待匹配实体名称文本匹配的目标标准化实体名称文 本。本申请提供的文本匹配方法,能够根据待匹配实体名称文本与候选标准化 实体名称文本的文本相似度,获得待匹配实体名称文本匹配的目标标准化实体 名称文本,无需依靠人工汇总的方式来将待匹配实体名称文本与目标标准化实 体名称文本进行匹配,从而提高了实体名称文档标准化的效率。

附图说明

图1为本申请第一实施例提供的文本匹配方法的第一场景示意图。

图2为本申请第一实施例中提供的一种文本匹配方法的流程图。

图3为本申请第一实施例中提供的文本匹配方法的第一场景示意图。

图4为本申请第二实施例中提供的一种文本匹配装置的示意图。

图5为本申请实施例中提供的一种电子设备的示意图。

图6为本申请第五实施例中提供的一种文本匹配方法的流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请 能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背 本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

为了更清楚地展示本申请第一实施例中提供的文本匹配方法,首先介绍一 下本申请第一实施例中提供的文本匹配方法的应用场景。本申请第一实施例中 提供的文本匹配方法,执行主体可以为服务端,也可以为安装有相关文本识别 应用的客户端,也可以同时为服务端和客户端,也就是通过为服务端和客户端 与服务端之间的交互来完成文本匹配方法。所谓客户端为安装在用户设备上能 够实现本申请实施例提供的文本匹配方法的应用程序或软件,所谓用户设备在 具体实现方式上一般为手机、PC(Personal Computer,个人计算机)等以及平板 电脑等,所谓能够实现本申请实施例提供的文本匹配方法的应用程序(APP, Application)或软件可以为手机应用程序、网页版在线文本匹配软件以及电脑软 件等。所谓服务端为用于为上述客户端提供数据处理等服务的计算设备,所谓 服务端在具体实现方式上一般为服务器或者服务器集群。

本申请第一实施例中,具体以通过为服务端和客户端与服务端之间的交互 来完成文本匹配方法的应用场景、客户端为安装在电脑上能够实现本申请实施 例提供的文本匹配方法的电脑软件为例,对本申请第一实施例中提供的文本匹 配方法进行详细地说明请参照图1,其为本申请第一实施例提供的文本匹配方法 的第一场景示意图。

首先,客户端101在用户设备获得针对客户端101触发的文本匹配触发操 作后,会基于用户设备获得待匹配实体名称文本。

本申请第一实施例中,所谓实体名称文本为目标文本中用于描述实体的名 称的文本,所谓目标文本一般为一片文档、一段话或者一句话,如:政务服务 事项、政务服务之外的网络服务事项、设备操作流程以及化学实验步骤介绍、 以及等。当实体名称文本为用于描述政务服务材料名称的文本时,所谓实体一 般为政务服务事项中的所需要的政务服务材料;当实体名称文本为用于描述网 络服务材料名称的文本时,所谓实体也可以为政务服务之外的网络服务事项中 的所需要的网络服务材料。另外,所谓实体还可以为其他类型的实体,如:设 备操作流程说明中的设备、化学实验步骤介绍中的化学品以及化学反应装置等。 也就是说,本申请第一实施例中,对目标文本以及实体不做具体限定。

所谓待匹配实体名称文本一般为非标准化实体名称文本,也可以为标准化 实体名称文本。所谓标准化实体名称文本和非标准化实体名称文本分别为对同 一实体名称的标准描述文本和非标准描述文本。具体可以以“中华人民共和国 居民身份证”为例,“中华人民共和国居民身份证”的标准化实体名称文本为“中 华人民共和国居民身份证”,非标准化实体名称文本可以为“个人身份证”,“双 人身份证”,“夫妻身份证”等等。也可以以“不动产登记申请表”为例,“不动 产登记申请表”的标准化实体名称文本为“不动产登记申请表”,非标准化实体 名称文本可以为“不动产登记申请书”等。还可以“人事档案”为例,“人事档 案”的标准化实体名称文本为“人事档案”,非标准化实体名称文本可以为“申 请人人事档案”、“参保人员人事档案”以及“人事档案原件”等等。

在“互联网+政务服务”中,对政务服务材料名称的非标准化描述,不仅造 成了糟糕的用户体验,还给后续的政务服务事项优化带来了很大的挑战。在其 他应用场景也会为用户带来不便。因此,本申请第一实施例中提供的文本匹配 方法需要为待匹配实体名称文本匹配与其对应的标准化实体名称文本。即,获 得与待匹配实体名称文本匹配的目标标准化实体名称文本,也就是说,对非标 准化实体名称文本标准化。所谓目标标准化实体名称文本即与待匹配实体名称 文本的文本相似度超出文本相似度阈值且与该待匹配实体名称文本描述同一实 体名称的标准描述文本。

然后,客户端101获得待匹配实体名称文本后,会基于用户对用户设备的 触发操作,进一步向服务端102发出文本匹配指令,该文本匹配指令中携带有 待匹配实体名称文本。另外,客户端101获得待匹配实体名称文本后还可以先 将待匹配实体名称文本发送给服务端102,再向服务端102发出针对该待匹配实 体名称文本的文本匹配指令。本申请第一实施例中,并不对客户端101将待匹 配实体名称文本发送给服务端102的具体方式作具体的限定。在服务端102获 得携带有待匹配实体名称文本的文本匹配指令后,会执行依次以下步骤来获得 与待匹配实体名称文本匹配的目标标准化实体名称文本,具体请参照图2,其为 本申请第一实施例中提供的一种文本匹配方法的流程图。

在步骤S201中,获得待匹配实体名称文本对应的目标实体类别。

所谓实体类别为实体名称文本描述的实体的类别,该实体类别为根据预设 的实体类别划分策略预先划分好的类别。在具体实施过程中,获得目标实体类 别的过程为:首先,采取预设的分词策略对待匹配实体名称文本进行分词,获 得待匹配实体名称文本中的类别关键词;然后,根据待匹配实体名称文本中的 类别关键词,获得目标实体类别。所谓类别关键词为实体名称文本中能够标识 实体类别的词。具体以实体为政务服务材料为例,如:待匹配实体名称文本为 “某某申请书”、“某某认证书”、“某某证”以及“某某表”等时,对“某某申 请书”、“某某认证书”、“某某证”以及“某某表”等来说,“申请书”、“认证书”、 “证”以及“表”等即为待匹配实体名称文本中的类别关键词。本申请第一实 施例中,根据预设的实体类别划分策略预先划分好的类别,也就是根据预先统 计的实体名称文本中的类别关键词确定的实体类别。因此,“申请书”类、“认 证书”类、“证”类以及“表”类等也就是根据预设的实体类别划分策略预先划 分好的类别。

本申请第一实施例中,根据待匹配实体名称文本中的类别关键词,获得目 标实体类别的具体实现方式为:根据待匹配实体名称文本中的类别关键词以及 类别关键词与类别的对应关系,获得目标实体类别。

本申请第一实施例中,根据预先统计的实体名称文本中的类别关键词确定 实体的类别,能够确保在获得实体名称文本中的类别关键词后,即可直接根据 类别关键词来获得实体名称文本的实体类别,从而使实体名称文本的实体类别 的获取更为简单、快捷。

需要说明的是,在遇到新实体名称文本时,可以利用逆向最大匹配法对新 实体名称文本的实体类别进行确认。

所谓预先设置的分词策略可以为:采用自然语言处理中用于分词的中文分 词器对待匹配实体名称文本进行分词。本申请第一实施例中,为了控制分词的 粒度,可以进一步引入个性化词典,将实体名称文本文本按照顺序切分成连续 词序,然后根据规则以及连续词序是否在给定的个性化词典中来决定连续词序 是否为最终的分词结果。

在步骤S202中,根据目标实体类别,获得实体类别与目标实体类别相同的 待匹配实体名称文本对应的候选标准化实体名称文本。

所谓待匹配实体名称文本对应的候选标准化实体名称文本为基于待匹配实 体名称文本中的关键词获得的、与待匹配实体名称文本中的关键词相关联的标 准化实体名称文本。在具体实施过程中,针对待匹配实体名称文本,采用bm25 (Best Match,最佳匹配)的召回策略,并利用ES(Elastic Search,分布式全文 检索)工具在预设的标准化实体名称文本数据中快速召回待匹配实体名称相关 联的关联标准化实体名称文本。

本申请第一实施例中,获得候选标准化实体名称文本的具体实现方式为: 首先,根据待匹配实体名称文本中的关键词,获得待匹配实体名称相关联的关 联标准化实体名称文本。然后,获得关联标准化实体名称文本的实体类别。最 后,根据目标实体类别和实体类别,从关联标准化实体名称文本中获得候选标 准化实体名称文本。其中,关联标准化实体名称文本的实体类别的详细过程与 获得待匹配实体名称文本对应的目标实体类别的过程类似,详情请参照步骤 S201中对目标实体类别获得过程的描述,在此不再进行详细的赘述。

在步骤S203中,根据待匹配实体名称文本与候选标准化实体名称文本的文 本相似度,从候选标准化实体名称文本中获得与待匹配实体名称文本匹配的目 标标准化实体名称文本。

在具体实施过程中,文本相似度的获得过程如下:第一、获得待匹配实体 名称文本中的关键词的权重和候选标准化实体名称文本中的关键词的权重。第 二、获得待匹配实体名称文本中的关键词对应的第一词向量,以及候选标准化 实体名称文本中的关键词对应的第二词向量。第三、根据待匹配实体名称文本 中的关键词的权重、候选标准化实体名称文本中的关键词的权重、第一词向量 以及第二词向量,获得第一词向量和第二词向量的词向量相似度。第四、根据 词向量相似度,获得文本相似度。

本申请第一实施例中,获得待匹配实体名称文本中的关键词对应的第一词 向量和候选标准化实体名称文本中的关键词对应的第二词向量的方式为:基于 Word2vec(WordTo Vector,用来产生词向量的相关模型)模型,将待匹配实体 名称文本中的关键词、候选标准化实体名称文本中的关键词映射到一个向量, 从而获得第一词向量和第二词向量,所谓Word2vec模型为根据给定的语料库, 通过训练模型后获得的快速有效地将一个词语表达成向量形式的网络模型。

本申请第一实施例中,获得待匹配实体名称文本中的关键词的权重和候选 标准化实体名称文本中的关键词的权重的具体实现方式如下:

首先,将待匹配实体名称文本和候选标准化实体名称文本作为一个目标文 本集。

然后,对待匹配实体名称文本以及候选标准化实体名称文本分别进行分词, 获得待匹配实体名称文本以及候选标准化实体名称文本中的不同关键词。

最后,采用TF-IDF(Term Frequency–Inverse Document Frequency,信息检 索数据挖掘的常用加权技术)技术,分别获得待匹配实体名称文本中的不同关 键词在待匹配实体名称文本中的TF(Term Frequency,词频)、待匹配实体名称 文本中的不同关键词在目标文本集中的IDF(Inverse Document Frequency,逆文 本频率指数),以及获得候选标准化实体名称文本中的不同关键词在候选标准化 实体名称文本中的词频、候选标准化实体名称文本中的不同关键词在目标文本 集中的逆文本频率指数;而后根据词频和逆文本频率指数,获得待匹配实体名 称文本中的不同关键词的TF-IDF以及候选标准化实体名称文本中的不同关键词 的TF-IDF;并根据待匹配实体名称文本中的不同关键词的TF-IDF以及候选标 准化实体名称文本中的不同关键词的TF-IDF,确定待匹配实体名称文本中的不 同关键词以及候选标准化实体名称文本中的不同关键词在计算词向量相似度的 权重。

以政务服务材料名称文本“中华人民共和国居民身份证”为例,如果政务 服务材料名称文本“中华人民共和国居民身份证”,针对与其对应的候选标准化 实体名称文本共同组成的目标文本集,“中华人民共和国”的TF-IDF为2,“居 民”的TF-IDF为1,“身份证”的TF-IDF为7,则计算词向量相似度时,“中华 人民共和国”的权重为0.2,“居民”的权重为0.1,“身份证”的权重为0.7。

本申请第一实施例中,根据待匹配实体名称文本中的关键词的权重、候选 标准化实体名称文本中的关键词的权重、第一词向量以及第二词向量,获得第 一词向量和第二词向量的词向量相似度的过程为:针对第一词向量和第二词向 量求解第一词向量和第二词向量的余弦相似度作为词向量相似度。具体的,在 针对第一词向量和第二词向量求解第一词向量和第二词向量的余弦相似度时, 将第一词向量和第二词向量中的元素与各自的权重相乘。

为了提高待匹配实体名称文本与候选标准化实体名称文本的文本相似度的 精确度,本申请第一实施例中,在获得文本相似度时,进一步引入了字符串相 似度来求解文本相似度,在具体实施过程中,首先,获得待匹配实体名称文本 匹配的字符串;其次,获得候选标准化实体名称文本对应的字符串;再次,根 据待匹配实体名称文本匹配的字符串以及候选标准化实体名称文本对应的字符 串,获得待匹配实体名称文本匹配的字符串与候选标准化实体名称文本对应的 字符串的字符串相似度;最后,根据词向量相似度和字符串相似度,获得文本 相似度。具体的,根据预设的词向量相似度对应的第一相似度权重以及词向量 相似度对应的第二相似度权重,对词向量相似度和字符串相似度进行加权,获 得文本相似度。

本申请第一实施例中,在根据词向量相似度和字符串相似度,获得文本相 似度之前,需要先判断文本相似度是否达到文本相似度阈值。若文本相似度达 到文本相似度阈值,则从候选标准化实体名称文本中,获得文本相似度达到文 本相似度阈值的候选标准化实体名称文本作为目标标准化实体名称文本。具体 的,从候选标准化实体名称文本中,获得文本相似度达到文本相似度阈值且相 似度最高的候选标准化实体名称文本作为目标标准化实体名称文本。例如:“个 人身份证”与“中华人民共和国居民身份证”的文本相似度为0.78,当预设的 文本相似度阈值为0.7时,“中华人民共和国居民身份证”作为“个人身份证” 的目标标准化实体名称文本。

另外,如果文本相似度未达到文本相似度阈值,则确定候选标准化实体名 称文本中不存在目标标准化实体名称文本。

本申请第一实施例中,在服务器102确定候选标准化实体名称文本中不存 在目标标准化实体名称文本时,会生成不存在目标标准化实体名称文本的反馈 信息反馈给客户端101,客户端101通过用户设备的交互界面展示该反馈信息。

在服务器102获得目标标准化实体名称文本后,可以先针对文本匹配指令, 将目标标准化实体名称文本提供给客户端101,再由客户端101将待匹配实体名 称文本与目标标准化实体名称文本进行关联,即,建立待匹配实体名称文本与 目标标准化实体名称文本的对应关系。另外,在服务器102获得目标标准化实 体名称文本后,还可以先将待匹配实体名称文本与目标标准化实体名称文本进 行关联,再获得关联结果提供给客户端101。

本申请第一实施例中提供的文本匹配方法还可以应用于服务端为执行主体 的应用场景,请参照图3,其为本申请第一实施例中提供的文本匹配方法的第一 场景示意图。

步骤S301:获得待匹配实体名称文本。步骤步骤S302:获得目标实体类别, 即,获得待匹配实体名称文本对应的目标实体类别。步骤S303:获得候选标准 化实体名称文本,即,根据目标实体类别,获得实体类别与目标实体类别相同 的待匹配实体名称文本对应的候选标准化实体名称文本。步骤S304-1:获得词 向量相似度。步骤S304-2:获得字符串相似度。步骤S305:获得文本相似度, 即,根据词向量相似度和字符串相似度,获得文本相似度。步骤S306:判断文 本相似度是否达到文本相似度阈值。步骤S306-1:若是,获得目标标准化实体 名称文本,即,从候选标准化实体名称文本中,获得文本相似度达到文本相似 度阈值的候选标准化实体名称文本作为目标标准化实体名称文本。步骤S306-2: 若否,获得反馈信息,即,确定候选标准化实体名称文本中不存在目标标准化 实体名称文本,获得未获得的目标标准化实体名称文本的反馈信息。

本申请第一实施例中提供的文本匹配方法还可以应用于客户端为执行主体 的应用场景。

在具体实施过程中,客户端在获得待匹配实体名称文本后,会依次执行下 述步骤,首先,获得待匹配实体名称文本对应的目标实体类别;然后,根据目 标实体类别,获得实体类别与目标实体类别相同的待匹配实体名称文本对应的 候选标准化实体名称文本;最后,根据待匹配实体名称文本与候选标准化实体 名称文本的文本相似度,从候选标准化实体名称文本中获得与待匹配实体名称 文本匹配的目标标准化实体名称文本。

本申请第一实施例中,不对本申请第一实施例中提供的文本匹配方法的应 用场景做具体的限定,如:本申请第一实施例中提供的文本匹配方法还可以应 用于其他场景,在此不再一一赘述。提供上述应用场景,是为了便于理解本申 请第一实施例中提供的文本匹配方法,而并非用于限定本申请第一实施例中提 供的文本匹配方法。

本申请第一实施例中提供一种文本匹配方法,通过获得位置查询文本中的 多个位置要素文本,多个位置要素文本为位置查询文本中用于描述位置的文本; 针对多个位置要素文本,获得多个位置要素文本对应的候选位置信息;根据多 个位置要素文本在位置查询文本中的出现次数以及多个位置要素文本对应的候 选位置信息的聚类得分中的至少一个,对多个位置要素文本对应的候选位置信 息进行排序,根据排序结果获得针对位置查询文本的位置推荐信息。本申请第 一实施例中提供的文本匹配方法,基于多个位置要素文本来对多个位置要素文 本对应的候选位置信息进行排序,能够保证针对位置查询文本的位置推荐信息 中的候选位置信息对应多个位置要素文本,从而提高了在位置查询文本中存在 多个位置要素文本时位置推荐信息的精确度。

本申请第一实施例中提供一种文本匹配方法,通过获得待匹配实体名称文 本对应的目标实体类别;根据目标实体类别,获得实体类别与目标实体类别相 同的待匹配实体名称文本对应的候选标准化实体名称文本;根据待匹配实体名 称文本与候选标准化实体名称文本的文本相似度,从候选标准化实体名称文本 中获得与待匹配实体名称文本匹配的目标标准化实体名称文本。本申请第一实 施例中提供的文本匹配方法,能够根据待匹配实体名称文本与候选标准化实体 名称文本的文本相似度,获得待匹配实体名称文本匹配的目标标准化实体名称 文本,无需依靠人工汇总的方式来将待匹配实体名称文本与目标标准化实体名 称文本进行匹配,从而提高了实体名称文档标准化的效率。第二实施例

与本申请实施例提供的文本匹配方法的应用场景以及第一实施例提供的文 本匹配方法相对应的,本申请第二实施例还提供了一种文本匹配方法。由于该 装置实施例基本相似于本申请实施例提供的文本匹配方法的应用场景以及第一 实施例提供的文本匹配方法,所以描述得比较简单,相关之处请参照对本申请 实施例提供的文本匹配方法的应用场景以及第一实施例提供的文本匹配方法的 部分说明即可。下述描述的装置实施例仅仅是示意性的。

请参照图4,其为本申请第二实施例中提供的一种文本匹配装置的示意图。

该文本匹配装置,包括:

目标实体类别获得单元401,用于获得待匹配实体名称文本对应的目标实体 类别;

候选文本获得单元402,用于根据所述目标实体类别,获得实体类别与所述 目标实体类别相同的所述待匹配实体名称文本对应的候选标准化实体名称文 本;

目标文本匹配单元403,用于根据所述待匹配实体名称文本与所述候选标准 化实体名称文本的文本相似度,从所述候选标准化实体名称文本中获得与所述 待匹配实体名称文本匹配的目标标准化实体名称文本。

可选的,本申请第二实施例中提供的文本匹配装置,还包括:文本提供单 元,用于将所述目标标准化实体名称文本提供给用户设备。

可选的,本申请第二实施例中提供的文本匹配装置,还包括:文本关联单 元,用于将所述待匹配实体名称文本与所述目标标准化实体名称文本进行关联。

可选的,所述文本关联单元具体用于建立所述待匹配实体名称文本与所述 目标标准化实体名称文本的对应关系。

可选的,所述目标实体类别获得单元401具体用于获得所述用户设备发出 的文本匹配指令,所述文本匹配指令中携带有所述待匹配实体名称文本;

所述文本提供单元具体用于针对所述文本匹配指令,将所述目标标准化实 体名称文本提供给所述用户设备。

可选的,本申请第二实施例中提供的文本匹配装置,还包括:文本展示单 元,用于展示所述目标标准化实体名称文本。

可选的,所述目标实体类别获得单元401具体用于采取预设的分词策略对 所述待匹配实体名称文本进行分词,获得所述待匹配实体名称文本中的类别关 键词;根据所述待匹配实体名称文本中的类别关键词,获得所述目标实体类别。

可选的,所述候选文本获得单元402具体用于根据所述待匹配实体名称文 本中的关键词,获得所述待匹配实体名称相关联的关联标准化实体名称文本; 获得所述关联标准化实体名称文本的实体类别;根据所述目标实体类别和所述 实体类别,从所述关联标准化实体名称文本中获得所述候选标准化实体名称文 本。

可选的,所述目标文本匹配单元403具体用于获得所述待匹配实体名称文 本中的关键词的权重和所述候选标准化实体名称文本中的关键词的权重;获得 所述待匹配实体名称文本中的关键词对应的第一词向量,以及所述候选标准化 实体名称文本中的关键词对应的第二词向量;根据所述待匹配实体名称文本中 的关键词的权重、所述候选标准化实体名称文本中的关键词的权重、所述第一 词向量以及所述第二词向量,获得所述第一词向量和所述第二词向量的词向量 相似度;根据所述词向量相似度,获得所述文本相似度。

可选的,所述根据所述词向量相似度,获得所述文本相似度,包括:获得 所述待匹配实体名称文本匹配的字符串;

获得所述候选标准化实体名称文本对应的字符串;

根据所述待匹配实体名称文本匹配的字符串以及所述候选标准化实体名称 文本对应的字符串,获得所述待匹配实体名称文本匹配的字符串与所述候选标 准化实体名称文本对应的字符串的字符串相似度;

根据所述词向量相似度和所述字符串相似度,获得所述文本相似度。

可选的,所述根据所述词向量相似度和所述字符串相似度,获得所述文本 相似度,包括:根据预设的所述词向量相似度对应的第一相似度权重以及所述 词向量相似度对应的第二相似度权重,对所述词向量相似度和所述字符串相似 度进行加权,获得所述文本相似度。

可选的,本申请第二实施例中提供的文本匹配装置,还包括:相似度判断 单元,用于判断所述文本相似度是否达到文本相似度阈值;

所述目标文本匹配单元403具体用于若所述相似度判断单元的判断结果为 是,则从所述候选标准化实体名称文本中,获得所述文本相似度达到所述文本 相似度阈值的所述候选标准化实体名称文本作为目标标准化实体名称文本。

可选的,所述从所述候选标准化实体名称文本中,获得所述文本相似度达 到所述文本相似度阈值的所述候选标准化实体名称文本作为目标标准化实体名 称文本,包括:从所述候选标准化实体名称文本中,获得所述文本相似度达到 所述文本相似度阈值且相似度最高的所述候选标准化实体名称文本作为目标标 准化实体名称文本。

可选的,本申请第二实施例中提供的文本匹配装置,还包括:结果确定单 元,用于若所述相似度判断单元的判断结果为否,则确定所述候选标准化实体 名称文本中不存在所述目标标准化实体名称文本。

第三实施例

与本申请实施例提供的文本匹配方法的应用场景、第一实施例提供的文本 匹配方法相对应的,本申请第三实施例还提供了一种电子设备。由于第三实施 例基本相似于本申请实施例提供的文本匹配方法的应用场景、第一实施例提供 的文本匹配方法,所以描述得比较简单,相关之处参见对本申请实施例提供的 文本匹配方法的应用场景、第一实施例提供的文本匹配方法的部分说明即可。 下述描述的第三实施例仅仅是示意性的。

请参照图5,其为本申请实施例中提供的一种电子设备的示意图。

该电子设备,包括:处理器501;

以及存储器502,用于存储信息处理方法的程序,该设备通电并通过处理器 运行该信息处理方法的程序后,执行下述步骤:

获得待匹配实体名称文本对应的目标实体类别;

根据所述目标实体类别,获得实体类别与所述目标实体类别相同的所述待 匹配实体名称文本对应的候选标准化实体名称文本;

根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本相似 度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹配的 目标标准化实体名称文本。

需要说明的是,本申请第八实施例提供的电子设备的详细描述,可以参考 对本申请实施例提供的直播服务系统的应用场景、第一实施例提供的直播服务 系统以及上述方法实施例的相关描述,这里不再赘述。

第四实施例

与本申请实施例提供的文本匹配方法的应用场景、第一实施例提供的文本 匹配方法相对应的,本申请第四实施例还提供了一种存储介质。由于第四实施 例基本相似于本申请实施例提供的文本匹配方法的应用场景、第一实施例提供 的文本匹配方法,所以描述得比较简单,相关之处参见对本申请实施例提供的 文本匹配方法的应用场景、第一实施例提供的文本匹配方法的部分说明即可。 下述描述的装置实施例仅仅是示意性的。

该存储介质存储有计算机程序,该计算机程序被处理器运行,执行下述步 骤:

获得待匹配实体名称文本对应的目标实体类别;

根据所述目标实体类别,获得实体类别与所述目标实体类别相同的所述待 匹配实体名称文本对应的候选标准化实体名称文本;

根据所述待匹配实体名称文本与所述候选标准化实体名称文本的文本相似 度,从所述候选标准化实体名称文本中获得与所述待匹配实体名称文本匹配的 目标标准化实体名称文本。

需要说明的是,本申请第九实施例提供的存储介质的详细描述,可以参考 对本申请实施例提供的文本匹配方法的应用场景、第一实施例提供的文本匹配 方法的相关描述,这里不再赘述。

第五实施例

与本申请实施例提供的文本匹配方法的应用场景以及第一实施例提供的文 本匹配方法相对应的,本申请第五实施例还提供了另一种文本匹配方法。由于 该装置实施例基本相似于本申请实施例提供的文本匹配方法的应用场景以及第 一实施例提供的文本匹配方法,所以描述得比较简单,相关之处请参照对本申 请实施例提供的文本匹配方法的应用场景以及第一实施例提供的文本匹配方法 的部分说明即可。下述描述的方法实施例仅仅是示意性的。

本申请第五实施例中提供的一种文本匹配方法,以下结合图6进行说明。

图6为本申请第五实施例中提供的一种文本匹配方法的流程图。图6为本 申请第五实施例中提供的一种文本匹配方法的流程图,该方法包括:步骤S601 至步骤S604。

在步骤S601中,获得用于描述政务服务材料名称的、待匹配实体名称文本 对应的目标实体类别。

本申请第五实施例中,所谓实体名称文本为目标文本中用于描述实体的名 称的文本,所谓目标文本一般为一片文档、一段话或者一句话,如:政务服务 事项、政务服务之外的网络服务事项、设备操作流程以及化学实验步骤介绍等。 所谓实体一般为政务服务事项中的所需要的政务服务材料,此时,实体名称文 本为用于描述政务服务材料名称的文本;所谓实体也可以为政务服务之外的网 络服务事项中的所需要的网络服务材料,此时,实体名称文本为用于描述网络 服务材料名称的文本。另外,所谓实体还可以为其他类型的实体,如:设备操 作流程说明中的设备、化学实验步骤介绍中的化学品以及化学反应装置等。也 就是说,本申请第一实施例中,对目标文本以及实体不做具体限定。

所谓待匹配实体名称文本一般为非标准化实体名称文本,也可以为标准化 实体名称文本。所谓标准化实体名称文本和非标准化实体名称文本分别为对同 一实体名称的标准描述文本和非标准描述文本。具体可以以“中华人民共和国 居民身份证”为例,“中华人民共和国居民身份证”的标准化实体名称文本为“中 华人民共和国居民身份证”,非标准化实体名称文本可以为“个人身份证”,“双 人身份证”,“夫妻身份证”等等。也可以以“不动产登记申请表”为例,“不动 产登记申请表”的标准化实体名称文本为“不动产登记申请表”,非标准化实体 名称文本可以为“不动产登记申请书”等。还可以“人事档案”为例,“人事档 案”的标准化实体名称文本为“人事档案”,非标准化实体名称文本可以为“申 请人人事档案”、“参保人员人事档案”以及“人事档案原件”等等。

所谓实体类别为实体名称文本描述的实体的类别,该实体类别为根据预设 的实体类别划分策略预先划分好的类别。在具体实施过程中,获得目标实体类 别的过程为:首先,采取预设的分词策略对待匹配实体名称文本进行分词,获 得待匹配实体名称文本中的类别关键词;然后,根据待匹配实体名称文本中的 类别关键词,获得目标实体类别。所谓类别关键词为实体名称文本中能够标识 实体类别的词。具体以实体为政务服务材料为例,如:待匹配实体名称文本为 “某某申请书”、“某某认证书”、“某某证”以及“某某表”等时,对“某某申 请书”、“某某认证书”、“某某证”以及“某某表”等来说,“申请书”、“认证书”、 “证”以及“表”等即为待匹配实体名称文本中的类别关键词。本申请第五实 施例中,根据预设的实体类别划分策略预先划分好的类别,也就是根据预先统 计的实体名称文本中的类别关键词确定的实体类别。因此,“申请书”类、“认 证书”类、“证”类以及“表”类等也就是根据预设的实体类别划分策略预先划 分好的类别。

在步骤S602中,根据目标实体类别,获得实体类别与目标实体类别相同的 待匹配实体名称文本对应的候选标准化实体名称文本。

本申请第五实施例中,所谓待匹配实体名称文本对应的候选标准化实体名 称文本为基于待匹配实体名称文本中的关键词获得的、与待匹配实体名称文本 中的关键词相关联的标准化实体名称文本。在具体实施过程中,针对待匹配实 体名称文本,采用bm25的召回策略,并利用ES工具在预设的标准化实体名称 文本数据中快速召回待匹配实体名称相关联的关联标准化实体名称文本。

在步骤S603中,根据待匹配实体名称文本与候选标准化实体名称文本的文 本相似度,从候选标准化实体名称文本中获得与待匹配实体名称文本匹配的目 标标准化实体名称文本。

在具体实施过程中,在根据词向量相似度和字符串相似度,获得文本相似 度之前,需要先判断文本相似度是否达到文本相似度阈值。若文本相似度达到 文本相似度阈值,则从候选标准化实体名称文本中,获得文本相似度达到文本 相似度阈值的候选标准化实体名称文本作为目标标准化实体名称文本。具体的, 从候选标准化实体名称文本中,获得文本相似度达到文本相似度阈值且相似度 最高的候选标准化实体名称文本作为目标标准化实体名称文本。

另外,如果文本相似度未达到文本相似度阈值,则确定候选标准化实体名 称文本中不存在目标标准化实体名称文本。

在步骤S604中,将待匹配实体名称文本与目标标准化实体名称文本进行关 联。

所谓关联的具体实现方式一般为:建立待匹配实体名称文本与目标标准化 实体名称文本的对应关系。

第六实施例

与本申请实施例提供的文本匹配方法的应用场景以及第一实施例提供的文 本匹配方法相对应的,本申请第六实施例还提供了另一种文本匹配方法。由于 该装置实施例基本相似于本申请实施例提供的文本匹配方法的应用场景以及第 一实施例提供的文本匹配方法,所以描述得比较简单,相关之处请参照对本申 请实施例提供的文本匹配方法的应用场景以及第一实施例提供的文本匹配方法 的部分说明即可。下述描述的方法实施例仅仅是示意性的。

首先,获得用于描述地理位置名称的、待匹配实体名称文本对应的目标实 体类别。

本申请第六实施例中,所谓实体名称文本为目标文本中用于描述地理位置 名称的文本,所谓目标文本一般为一片文档、一段话或者一句话,如:创建地 图时搜集到的用于描述地理位置的文档,社会治理、城市管理过程中用于描述 涉案地理位置的文档等。需要说明的是,本申请第一实施例中,对目标文本以 及实体不做具体限定。

所谓待匹配实体名称文本一般为非标准化实体名称文本,也可以为标准化 实体名称文本。所谓标准化实体名称文本和非标准化实体名称文本分别为对同 一实体名称的标准描述文本和非标准描述文本。具体可以以“中华人民共和国” 为例,“中华人民共和国”的标准化实体名称文本为“中华人民共和国”,非标 准化实体名称文本可以为“中国”,“我国”,等等。也可以以“北京奥林匹克公 园”为例,“北京奥林匹克公园”的标准化实体名称文本为“北京奥林匹克公园”, 非标准化实体名称文本可以为“奥林匹克公园”等。

所谓实体类别为实体名称文本描述的实体的类别,该实体类别为根据预设 的实体类别划分策略预先划分好的类别。在具体实施过程中,获得目标实体类 别的过程为:首先,采取预设的分词策略对待匹配实体名称文本进行分词,获 得待匹配实体名称文本中的类别关键词;然后,根据待匹配实体名称文本中的 类别关键词,获得目标实体类别。所谓类别关键词为实体名称文本中能够标识 实体类别的词。具体以实体为政务服务材料为例,如:待匹配实体名称文本为 “某某国”、“某某省省”、“某某市”以及“某某山”等时,对于“某某国”、“某 某省省”、“某某市”以及“某某山”等来说,“国”、“省”、“市”以及“山”等 即为待匹配实体名称文本中的类别关键词。本申请第六实施例中,根据预设的 实体类别划分策略预先划分好的类别,也就是根据预先统计的实体名称文本中 的类别关键词确定的实体类别。因此,“国家”类、“省直辖市”类、“山”类以 及“区”类等也就是根据预设的实体类别划分策略预先划分好的类别。

其次,根据目标实体类别,获得实体类别与目标实体类别相同的待匹配实 体名称文本对应的候选标准化实体名称文本。

本申请第六实施例中,所谓待匹配实体名称文本对应的候选标准化实体名 称文本为基于待匹配实体名称文本中的关键词获得的、与待匹配实体名称文本 中的关键词相关联的标准化实体名称文本。在具体实施过程中,针对待匹配实 体名称文本,采用bm25的召回策略,并利用ES工具在预设的标准化实体名称 文本数据中快速召回待匹配实体名称相关联的关联标准化实体名称文本。

再次,根据待匹配实体名称文本与候选标准化实体名称文本的文本相似度, 从候选标准化实体名称文本中获得与待匹配实体名称文本匹配的目标标准化实 体名称文本。

在具体实施过程中,在根据词向量相似度和字符串相似度,获得文本相似 度之前,需要先判断文本相似度是否达到文本相似度阈值。若文本相似度达到 文本相似度阈值,则从候选标准化实体名称文本中,获得文本相似度达到文本 相似度阈值的候选标准化实体名称文本作为目标标准化实体名称文本。具体的, 从候选标准化实体名称文本中,获得文本相似度达到文本相似度阈值且相似度 最高的候选标准化实体名称文本作为目标标准化实体名称文本。

另外,如果文本相似度未达到文本相似度阈值,则确定候选标准化实体名 称文本中不存在目标标准化实体名称文本。

最后,将待匹配实体名称文本与目标标准化实体名称文本进行关联。

所谓关联的具体实现方式一般为:建立待匹配实体名称文本与目标标准化 实体名称文本的对应关系。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本 领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改, 因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出 接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(Flash RAM)。 内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由 任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程 序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他 实体类别的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读 存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁待,磁待磁磁 盘存储或其他磁性存储介质或任何其他非传输介质,可用于存储可以被计算设 备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒 体(Transitory Media),如调制的数据信号和载波。

2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机 程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件 和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计 算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号