首页> 中国专利> 一种计算企业实际经营地的方法

一种计算企业实际经营地的方法

摘要

本申请提供了一种计算企业实际经营地址的方法,通过已训练的地址信息提取模型从目标企业地址提取省市区县等详细结构化数据;通过已训练的行政区划映射模型将提取到的省市区县等详细结构化数据映射成标准规范的行政区划描述数据;基于从企业地址提取到并映射后的标准规范行政区划描述数据,计算该地址的初始得分;基于目标企业地址的发布日期,并结合衰减函数计算该地址的实际得分;输出得分最高的对应的地址就是该企业的实际经营地址(如果得分最高对应的地址有多个,则输出发布日期最近的地址)。

著录项

  • 公开/公告号CN112989166A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 杭州有数金融信息服务有限公司;

    申请/专利号CN202110330113.8

  • 发明设计人 唐杰;徐超;陈雨馨;梁协君;

    申请日2021-03-26

  • 分类号G06F16/953(20190101);G06F40/20(20200101);

  • 代理机构11605 北京崇智知识产权代理有限公司;

  • 代理人马良

  • 地址 310000 浙江省杭州市江干区九环路九号4号楼8楼808室

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本方法涉及文本处理技术领域,特别是涉及一种根据企业多个来源地址提取企业实际经营地的方法。

背景技术

企业在公开数据源上发布的地址往往会存在以下几个问题:

1.企业基本信息中发布的地址往往是注册地址,通常与经营地址会存在一定的出入;

2.年报中发布的地址是企业自主公示,并且更新频率比较低,通常情况下为1年更新一次;

3.招聘网站发布的地址虽然更新比较频繁,但由于发布数量较多,经手人员较多,导致同一个地址可能出现简写,错写,漏写等描述方式不统一的问题;

当用户想要通过以上所诉数据来源,获得该企业的实际经营地址时,通常的做法是,首先是通过人工审查,一一核实,排除掉难以得出真实位置的地址,然后在剩下的地址中,通过地址描述的详细程度以及该地址的发布日期以甄别出该企业的实际经营地址。然而,该种方法需要耗费大量的人力物力,且

核实过程会耗费大量的时间,存在分析过程效率低下的问题。

发明内容

基于此,有必要针对上诉技术问题,提供一种能够提高分析效率的提取企业实际经营地址的方法,它能够在用户查询某企业的实际经营地址时,通过对从多个公开数据来源网站中获取到的地址进行合理的分析,以计算出该企业的实际经营地址。

为了实现以上目的,本方法采用的技术方案是:一种计算企业实际经营地的方法,利用从多个公开数据来源网站中获取到的地址进行分析,先从地址长度,有无省市县等关键字,这些方面入手过滤掉无法定位到企业实际经营位置且可能会对最后计算的结果产生影响或者没有多大意义的地址;然后通过已经训练好的模型从地址中提取关键的地址信息,并映射为标准规范的行政区划描述;最后结合经过大量实验调整为最优权重的公式计算出每个企业地址的得分,输出得分最高且发布日期最近的地址即为该企业的实际经营地址。

整个方案的具体实施步骤如下:

1.从多个来源获取企业的地址及其地址的发布日期,并对这些地址进行清洗,以过滤掉长度不够的地址,没有xx省或xx市或xx县等这种重要关键字的地址,只有xx省xx市xx县等这种没有意义的地址;

2.通过已经训练好的地址信息提取模型从上述1中清洗后的地址提取到关键的地址信息;

3.通过已经训练好的行政区划映射模型从上诉2中提取到的地址信息映射为标准规范的行政区划描述;

4.通过经过大量实验并调整好权重的企业地址初始得分公式和上诉3中标准规范的行政区划描述,计算每个企业地址的初始得分;

5.通过企业地址最终得分公式和上诉4中的企业地址初始得分以及该企业地址的发布日期,计算出每个企业地址的最终得分;

6.输出得分最高且发布日期最近的地址就是该企业的实际经营地址。

附图说明

图1为方案具体实施流程图。

具体实施方式

为了使本申请的目的,技术方案及优点更加清楚明白,以下结合实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。

本申请提供的计算企业实际经营地的方法,可以应用于如图1所示的应用环境中,其步骤包括:

步骤101:当一个用户查询目标企业的实际经营地时,首先,需要从各个可以获取到该企业地址的网站上去获取该企业的多个地址,最直接的可以从国家企业信用信息公示系统网站查询获得该企业的注册地址,并且从该企业的变更记录中获得该注册地址的变更日期也就是发布日期,如果该注册地址没有发生变更过,则从该企业的照面信息中获取成立日期做为该注册地址的发布日期;另外,还可以从该企业最近一年发布的年报中获取该企业自主公示的年报地址,选取该年报的发布日期做为该年报地址的发布日期;更多的地址来源还可以从众多的招聘网站中获取,比如BOSS直聘,智联招聘,前程无忧,58同城招聘,拉勾网,大街网等等,选取该企业最近一年发布的招聘公告,从中获取到该企业发布的招聘地址,并将该招聘公告发布的日期做为该招聘地址的发布日期。

步骤102:在对步骤101中获取到的企业地址进行分析之前,首先要对这些地址进行一个基本的过滤清洗,发明人在实施的时候发现,可能由于招聘网站上发布的招聘公告往往不是出自同一个人之手,每个人都会有自己独特的书写习惯,或者由于工作的疏忽会出现错写,漏写,简写等使旁人难以辨别出真实位置的地址;如:某苏州公司在2020年10月份于前程无忧网站上发布的一条招聘公告中,在地址描述栏中填写的是:漕湖大道39号,这对于一个应聘者来说这样的描述是可以接受的,他可以先锁定苏州市,然后再去查询漕湖大道39号的位置,但这种地址对于本方法来说其实是没有意义的,缺少重要的xx省或xx市或xx县关键字,从而导致无法定位到该地址准确的位置,甚至有可能会对最后输出的结果产生不必要的影响,应当将类似这样的地址统统过滤掉;更有甚者,某长春公司在2020年10月份与58同城招聘网站上发布的一条招聘公告中,在地址描述栏中只填写了“长春”,这不仅对本方法没有意义,对于应聘者来说这种地址其实也是没有意义的;所以,要先通过正则表达式将这些字数过少,或者不包含浙江(省),苏州(市)等这种关键字,或者只有浙江(省),苏州(市)这种关键字的地址都过滤掉,以免对结果造成不必要的影响。

步骤103:需要知道的是,即使如上步骤2所诉对获取到的地址进行了清洗,但不可避免会出现以下几个问题;首先,如果该查询企业是一个新企业,那么由于在企业创立初期各必须岗位的人员比较固定,所以在短时间内不需要招聘新的人员,因而在各大招聘网站上也就获取不到该企业发布的招聘地址;其次,国家企业信用信息公示系统网站需要进行日常的更新以及维护,当处于这个节点去查询刚刚成立的企业的话,可能会导致无法获取到该企业的注册地址;最后,企业年报是一年发布一次,那么同样意味着查询最近刚刚成立的企业时也无法获得该企业的年报地址;当以上问题同时出现的时候,那么该企业从上诉网站中就获取不到地址,这时就应直接返回该企业的实际经营地址为空;另外,如果经过清洗后只剩下一个地址,执行下面的步骤同样是没有意义的,这时可以直接返回该地址做为企业实际经营地址。

步骤104:当获取到的企业地址有多个,且经过如上步骤2所诉清洗后任然保留多个地址时,需要进一步的分析确定该企业的实际经营地址;为了保证最后结果的准确性,需要训练地址信息提取模型;从国家企业信用信息公示系统网站以及招聘网站随机获取一批地址做为训练样本,将每个样本地址都标注成如下形式:样本地址:浙江省杭州市江干区九环路九号4号楼4楼436室,标注结果为:省:浙江省,市:杭州市,县(区):江干区,路:九环路,路-号:九号,园区:,园区-栋:4号楼,园区-栋-楼:4楼,园区-栋-楼-号:436室;将样本地址做为输入特征,将相应的标注好的目标省市县等地址信息做为期望的输出特征,对长久记忆神经网络进行训练获得已训练的地址信息提取模型。

步骤105:用如上所诉步骤103中已训练好的地址信息提取模型对该企业清洗后的所有地址进行关键信息提取。

步骤106:对如上所诉步骤104中提取到的地址信息进行检查,比如:在省这个key下只能存储如浙江省,上海市等34个省级行政区,可以是简称,如:浙江,新疆,澳门等,其中包括23个省,5个自治区,4个直辖市,2个特别行政区,只要出现了这些行政区关键字以外的则将该地址舍弃;同理检查市,区(县)key下是否出现了其它的关键字,如果出现了也要一样舍弃该地址。

步骤107:训练行政区划映射模型;将不常用的描述如:广西壮族自治区,大厂回族自治县,伊犁哈萨克自治州等当做训练的样本,将对应的常用的标准规范的描述如:广西,大厂县,伊犁州做为标注的结果;将所诉目标行政区划描述做为输入特征,将相应的所诉目标行政区划对应的标准规范描述做为期望的输出特征,对长久记忆神经网络进行训练获得已训练的行政区划映射模型。

步骤108:用如上所诉步骤106中已训练好的行政区划映射模型将提取到的地址信息映射为标准规范的行政区划描述;

步骤109:根据如下公式:

s

步骤110:根据如下公式:

计算该企业地址的实际得分;由该公式已知,当通过计算得出该企业地址的初始得分s

步骤111:依据该企业地址的最终得分进行倒序排序,如果出现同一个分数对应多个地址时,则再按照发布日期进行二次倒序排序,以此来输出得分最高且发布日期最近的地址即为最终的企业实际经营地址。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号