首页> 中国专利> 企业名称查重方法及装置

企业名称查重方法及装置

摘要

本发明公开了一种企业名称查重方法及装置,其中该方法包括:利用ES搜索与待查重的第一企业名称匹配的第二企业名称;按照结构要素对第一企业名称和第二企业名称进行分词,其中,结构要素包括行政区域、公司描述和组织形式,公司描述包括公司字号和行业描述;对比第一企业名称中各结构要素与第二企业名称中各结构要素,确定行政区域对应的第一相似度、公司描述对应的第二相似度及组织形式对应的第三相似度;基于第一相似度、第二相似度和第三相似度确定每个第二企业名称与第一企业名称的总相似度;将满足预设条件的总相似度对应的第二企业名称确定为与第一企业名称相同的企业名称。本发明可以提高查重精准度及查重效率。

著录项

  • 公开/公告号CN112364635A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 中国银行股份有限公司;

    申请/专利号CN202011376984.5

  • 发明设计人 田晓丹;孙业宝;曲婕;

    申请日2020-11-30

  • 分类号G06F40/279(20200101);G06F40/194(20200101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人吴学锋;吕俊刚

  • 地址 100818 北京市西城区复兴门内大街1号

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及计算机技术领域,尤其涉及一种企业名称查重方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

企业名称结构基本要求如下:一般由四部分组成,即“行政区划+公司字号+行业描述+组织形式”,比如“西安天瑞财务咨询有限公司”这个名称中,其中“西安”是行政区划,“天瑞”是公司字号,“财务咨询”是行业描述,“有限公司”是组织形式。

针对企业用户平台,为防止同一家企业被重复注册,需在用户注册前对企业名称进行查重校验。为提升企业名称查重的精准度和速度,首先会用搜索引擎技术进行初筛,将系统后台数据库中最相近的n条企业作为候选项,然后利用企业名称相似算法,分别判断用户输入的企业名称与各个候选企业是否为同一家企业。

由于企业名称为人工输入,往往存在简写、漏写等情况,单纯的校验重复项的查重准确度已经不能满足需求了,并且当数据量较大时,采用模糊查询的方式效率非常低。

发明内容

本发明实施例提供一种企业名称查重方法,用以提高查重精准度及查重效率,该方法包括:

利用ES搜索与待查重的第一企业名称匹配的第二企业名称;

按照结构要素对第一企业名称和第二企业名称进行分词,其中,结构要素包括行政区域、公司描述和组织形式,公司描述包括公司字号和行业描述;

对比第一企业名称中各结构要素与第二企业名称中各结构要素,确定行政区域对应的第一相似度、公司描述对应的第二相似度及组织形式对应的第三相似度;

基于第一相似度、第二相似度和第三相似度确定每个第二企业名称与第一企业名称的总相似度;

将满足预设条件的总相似度对应的第二企业名称确定为与第一企业名称相同的企业名称

本发明实施例还提供一种企业名称查重装置,用以提高查重精准度及查重效率,该装置包括:

搜索模块,用于利用ES搜索与待查重的第一企业名称匹配的第二企业名称;

分词模块,用于按照结构要素对第一企业名称和第二企业名称进行分词,其中,结构要素包括行政区域、公司描述和组织形式,公司描述包括公司字号和行业描述;

对比模块,用于对比第一企业名称中各结构要素与第二企业名称中各结构要素,确定行政区域对应的第一相似度、公司描述对应的第二相似度及组织形式对应的第三相似度;

确定模块,用于基于第一相似度、第二相似度和第三相似度确定每个第二企业名称与第一企业名称的总相似度;

确定模块,还用于将满足预设条件的总相似度对应的第二企业名称确定为与第一企业名称相同的企业名称

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述企业名称查重方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述企业名称查重方法的计算机程序。

本发明实施例中,先利用ES搜索技术对企业名称进行初筛,以毫秒级的速度快速得到与待查重的第一企业名称匹配的第二企业名称,提高了查重效率;之后将企业名称按照结构要素进行分词,分别确定不同结构要素的相似度,使得相似度的确定更加具有针对性;之后根据各个分词的相似度确定第二企业名称与第一企业名称的总相似度,根据总相似度确定第二企业名称与第一企业名称是否相同,进一步提升了查重的精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例中一种企业名称查重方法的流程图;

图2为本发明实施例中行政区域简称、全称、地址编码的对应关系示意图;

图3为本发明实施例中另一种企业名称查重方法的流程图;

图4为本发明实施例中另一种企业名称查重方法的流程图;

图5为本发明实施例中一种企业名称查重装置的结构示意图;

图6为本发明实施例中一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

本发明实施例提供了一种企业名称查重方法,如图1所示,该方法包括步骤101至步骤:

步骤101、利用ES搜索与待查重的第一企业名称匹配的第二企业名称。

ES全称ElasticSearch,是一种分布式全文搜索引擎,它基于Lucene(全文搜索引擎)开发而来。Lucene是公认的迄今为止的最好用的搜索引擎库,但是Lucene所提供的API需要使用者花费大量时间去熟悉学习。ES的出现就很好的解决了这个问题,ES具有良好的封装、易用的API以及链式书写方式,能达到开箱即用的效果,因此得到了广泛的应用。ES默认使用BM25算法,BM25(Best Match25)是在信息检索系统中根据提出的query对document进行评分的一种算法。

通过ES搜索,可以得到多个与第一企业名称匹配的第二企业名称。

ES搜索的数据库中存储的是已注册成功企业名称,如果通过后续步骤确定数据库中不存在与待查重企业名称相同的企业名称,且后续待查重企业名称注册成功,则可以将待查重企业名称添加入数据库中,以保证数据库数据的全面性。

步骤102、按照结构要素对第一企业名称和第二企业名称进行分词。

其中,结构要素包括行政区域、公司描述和组织形式,公司描述包括公司字号和行业描述。

分词之后,企业名称被划分为行政区域、公司描述和组织形式三部分。由于分词是较为成熟的现有技术,对于如何对企业名称进行分词,在此不做赘述。

步骤103、对比第一企业名称中各结构要素与第二企业名称中各结构要素,确定行政区域对应的第一相似度、公司描述对应的第二相似度及组织形式对应的第三相似度。

企业名称中包含三种结构要素,分别计算第一企业名称与每个第二企业名称中每一结构要素的相似度:

(1)行政区域

在对比第一企业名称中第一行政区域与第二企业名称中第二行政区域之前,先建立行政码表,行政码表中包含各级行政区域的名称和地址编码的对应关系,其中各级行政区域的名称包括按照规则提取的简称及全称,简称经过人工过滤,确保简称的准确性。示例性的,“河南”为“河南省”的简称,“大厂”为“大厂回族自治县”的简称。

参见图2,图2示出了一种行政区域简称、全称与地址编码的对应关系。图2中,id为序号;abbr_name为行政区域简称;full_name为行政区域全称;parent_code为该行政区域的上级行政区域的地址编码;region_code为该行政区域的地址编码;region_level为行政区域等级。

在对比第一行政区域与第二行政区域时,先确定第一行政区域和第二行政区域包含的各级行政区域对应的地址编码;之后对比第一行政区域中各级行政区域、对应的地址编码与第二行政区域中各级行政区域、对应的地址编码,得到第一对比结果;按照预设的评分标准,确定第一对比结果对应的第一相似度。

其中,第一对比结果包括两企业名称中各级行政区域与地址编码完全相同、两企业名称中地址编码相同而行政区域不同、两名称中最小级别的行政区域及地址编码完全相同而其他级别的行政区域及地址编码不同、两企业名称中各级行政区域和对应的地址编码不同而最小级别的行政区域存在包含与被包含关系,以及第一其他结果。

示例性的,“河北省石家庄市”对应的地址编码数组为【130000,130100】。如果两个企业名称的地址编码数组完全相同,且行政区域的文字描述相同(需均为“河北省石家庄市”),则按照评分标准确定得分为100分;如果两个企业名称的地址编码数组完全相同,而行政区域不同,如存在简称和全称的区别,则按照评分标准确定得分为90,如“河北省石家庄市”和“河北石家庄”;如果最小级别的行政区域和地址编码相同,但其他级别的行政区域和地址编码不同,则按照评分标准确定得分为80,如“河北省石家庄市”和“石家庄市”分别对应的地址编码数组为【130000,130100】,【130100】;如果各级行政区域和对应的地址编码不同而最小级别(级别按照省、市、县(区)依次降低)的行政区域存在包含与被包含关系,则按照评分标准确定得分为60分,如“河北省”和“石家庄市”;其他情况为0分。

需要说明的是,上述仅示例性的给出了一种评分标准,该评分标准可以由用户设定,此处不作为对具体评分标准的限定。确定评分之后,将该评分作为第一相似度。

(2)公司描述

对比第一企业名称中第一公司描述与第二企业名称中第二公司描述,确定公司描述对应的第二相似度,具体可以之行为:利用莱文斯坦比算法计算确定第二公司描述与第一公司描述的莱文斯坦比;根据预设的评分标准确定莱文斯坦比对应的第二相似度。

莱文斯坦比算法的计算公式为r=(sum-ldist)/sum,其中,sum是指str1和str2字串的长度总和,ldist是类编辑距离。此处的类编辑距离指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数,许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符和删除一个字符,删除和插入操作次数加1,替换操作次数加2。示例性的,“泰安重工机械”与“泰安重工”的莱文斯坦比为0.8。

莱文斯坦比用于描述相似度,莱文斯坦比越大,第一企业名称和第二企业名称越相似,在设定评分标准时,可以将越大的莱文斯坦比的评分设置的越高。

(3)组织形式

对比第一企业名称中第一组织形式与第二企业名称中第二组织形式,确定组织形式对应的第三相似度,具体可以执行为:对此第二组织形式与第一组织形式,得到第二对比结果;根据预设的评分标准确定第二对比结果对应的第三相似度。

其中,第二对比结果包括两组织形式完全相同、两组织形式不同但同时被包含在第一指定组织形式集合中、两组织形式不同但其中至少一个组织形式被包含在第二指定组织形式集合中,以及第二其他结果。

示例性的,设定3个组织形式集合comp1、comp2和comp3,comp1=['有限责任公司','有限公司','集团有限公司','集团有限责任公司'],comp2=['股份有限公司','股份公司','集团股份有限公司','集团股份公司'],comp3=['公司','集团','集团公司']。如果两个企业名称的组织形式描述完全一样,如均为“有限责任公司”,则得分为100分;如果两组织形式不同但同时被包含在第一指定组织形式集合中(都在comp1集合、或都在comp2集合),则得分为90分;如果描述有至少一个在comp3集合,则得分为80分;其他情况为0分。

同样需要说明的是,上述仅示例性的给出了一种评分标准,该评分标准可以由用户设定,此处不作为对具体评分标准的限定。确定评分之后,将该评分作为第三相似度。

步骤104、基于第一相似度、第二相似度和第三相似度确定每个第二企业名称与第一企业名称的总相似度。

如图3所示,步骤104可以执行为如下步骤1041至步骤1042:

步骤1041、根据第一相似度、第二相似度、第三相似度与标准得分的大小关系,确定第二企业名称与第一企业名称的第四相似度。

步骤1042、将第四相似度与第二相似度确定为第二企业名称与第一企业名称的总相似度。

需要说明的是,与第一相似度、第二相似度、第三相似度比较的标准得分可以设置为相同得分或不同得分。比如说,以num表示第四相似度,当第一相似度大于等于80分,则num加1;当第二相似度大于等于50分,则num+1;当第三相似度大于等于80分,则num+1。其他情况下,num不加不减。

在本发明实施例中,将第四相似度num和第二相似度score共同作为总相似度。

步骤105、将满足预设条件的总相似度对应的第二企业名称确定为与第一企业名称相同的企业名称。

如图4所示,步骤105具体可以执行为如下步骤1051:

步骤1051、将第四相似度满足第一预设条件,且第二相似度满足第二预设条件时,第四相似度和第二相似度对应的第二企业名称确定为与第一企业名称相同的企业名称。

本发明实施例中,第一预设条件和第二预设条件可以由用户设定,比如说,该第一预设条件可以为num为3,第二预设条件为score2得分为100,若同时满足上述两个预设条件,则确定两个企业名称相同。

除了判断企业名称完全相同的情况外,还可能存在企业名称相似度较高,但计算设备又无法将其判断为相同的情况,此种情况下,可以给出相似的判断结果,并由用户确定两企业名称是否相同。比如说,当num为3,且score2大于等于70时,则判断“相似度较高,请核实两企业名称是否相同”;当num为2,且score2为100时,则判断“相似度极高,请核实两企业名称是否相同”;当num为2,且score2大于等于70时,则判断“相似度较高,请核实两企业名称是否相同”;其他情况判断“两企业名称不相同”。

在本发明实施例的另一种实现方式中,当查找到的相似企业较多时,还可以按照一定的规则对企业名称进行排序,以便于用户方便的进行查看。具体的,可以先由用户预设各个结构要素对应的权重,再根据权重、第一相似度、第二相似度和第三相似度,确定第二企业名称与第一企业名称的第五相似度。

以w1表示行政区域的权重,w2表示公司描述的权重,w3表示组织形式的权重,w1+w2+w3=1,则第五相似度score为:

score=w1×score1+w2×score2+w3×score3

其中,score1表示第一相似度;score2表示第二相似度;score3表示第三相似度。

按照第五相似度score由高到底的顺序进行排序。

本发明实施例中,先利用ES搜索技术对企业名称进行初筛,以毫秒级的速度快速得到与待查重的第一企业名称匹配的第二企业名称,提高了查重效率;之后将企业名称按照结构要素进行分词,分别确定不同结构要素的相似度,使得相似度的确定更加具有针对性;之后根据各个分词的相似度确定第二企业名称与第一企业名称的总相似度,根据总相似度确定第二企业名称与第一企业名称是否相同,进一步提升了查重的精准度。

本发明实施例中还提供了一种企业名称查重装置,如下面的实施例所述。由于该装置解决问题的原理与企业名称查重方法相似,因此该装置的实施可以参见企业名称查重方法的实施,重复之处不再赘述。

如图5所示,该装置包括搜索模块501、分词模块502、对比模块503和确定模块504。

其中,搜索模块501,用于利用ES搜索与待查重的第一企业名称匹配的第二企业名称;

分词模块502,用于按照结构要素对第一企业名称和第二企业名称进行分词,其中,结构要素包括行政区域、公司描述和组织形式,公司描述包括公司字号和行业描述;

对比模块503,用于对比第一企业名称中各结构要素与第二企业名称中各结构要素,确定行政区域对应的第一相似度、公司描述对应的第二相似度及组织形式对应的第三相似度;

确定模块504,用于基于第一相似度、第二相似度和第三相似度确定每个第二企业名称与第一企业名称的总相似度;

确定模块504,还用于将满足预设条件的总相似度对应的第二企业名称确定为与第一企业名称相同的企业名称。

在本发明实施例的一种实现方式中,对比模块503,用于:

确定第一行政区域和第二行政区域包含的各级行政区域对应的地址编码;

对比第一行政区域中各级行政区域、对应的地址编码与第二行政区域中各级行政区域、对应的地址编码,得到第一对比结果,其中第一对比结果包括两企业名称中各级行政区域与地址编码完全相同、两企业名称中地址编码相同而行政区域不同、两名称中最小级别的行政区域及地址编码完全相同而其他级别的行政区域及地址编码不同、两企业名称中各级行政区域和对应的地址编码不同而最小级别的行政区域存在包含与被包含关系,以及第一其他结果;

按照预设的评分标准,确定第一对比结果对应的第一相似度。

在本发明实施例的一种实现方式中,对比模块503,用于:

利用莱文斯坦比算法计算确定第二公司描述与第一公司描述的莱文斯坦比;

根据预设的评分标准确定莱文斯坦比对应的第二相似度。

在本发明实施例的一种实现方式中,对比模块503,用于:

对此第二组织形式与第一组织形式,得到第二对比结果,其中第二对比结果包括两组织形式完全相同、两组织形式不同但同时被包含在第一指定组织形式集合中、两组织形式不同但其中至少一个组织形式被包含在第二指定组织形式集合中,以及第二其他结果;

根据预设的评分标准确定第二对比结果对应的第三相似度。

在本发明实施例的一种实现方式中,确定模块504,用于:

根据第一相似度、第二相似度、第三相似度与标准得分的大小关系,确定第二企业名称与第一企业名称的第四相似度;

将第四相似度与第二相似度确定为第二企业名称与第一企业名称的总相似度。

在本发明实施例的一种实现方式中,确定模块504,用于:

将第四相似度满足第一预设条件,且第二相似度满足第二预设条件时,第四相似度和第二相似度对应的第二企业名称确定为与第一企业名称相同的企业名称。

本发明实施例中,先利用ES搜索技术对企业名称进行初筛,以毫秒级的速度快速得到与待查重的第一企业名称匹配的第二企业名称,提高了查重效率;之后将企业名称按照结构要素进行分词,分别确定不同结构要素的相似度,使得相似度的确定更加具有针对性;之后根据各个分词的相似度确定第二企业名称与第一企业名称的总相似度,根据总相似度确定第二企业名称与第一企业名称是否相同,进一步提升了查重的精准度。

本发明实施例还提供一种计算机设备,图6为本发明实施例中计算机设备的示意图,该计算机设备能够实现上述实施例中的企业名称查重方法中全部步骤,该计算机设备具体包括如下内容:

处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和通信总线604;

其中,所述处理器601、存储器602、通信接口603通过所述通信总线604完成相互间的通信;所述通信接口603用于实现相关设备之间的信息传输;

所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的企业名称查重方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述企业名称查重方法的计算机程序。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号