公开/公告号CN108399240A
专利类型发明专利
公开/公告日2018-08-14
原文格式PDF
申请/专利权人 北京金堤科技有限公司;
申请/专利号CN201810170853.8
申请日2018-02-28
分类号
代理机构北京超凡志成知识产权代理事务所(普通合伙);
代理人王文红
地址 100000 北京市海淀区知春路63号中国卫星通信大厦东塔20层2001
入库时间 2023-06-19 06:33:14
法律状态公告日
法律状态信息
法律状态
2020-04-14
授权
授权
2018-09-07
实质审查的生效 IPC(主分类):G06F17/30 申请日:20180228
实质审查的生效
2018-08-14
公开
公开
技术领域
本发明涉及数据挖掘技术领域,尤其是涉及企业变更信息数据挖掘方法和系统。
背景技术
在企业公开数据中,能够看到很多有价值的信息数据,如个人与企业、企业与企业之间的投资人、法人、股东、监事、董事等数据,目前多数都是静态显示的。
为了让用户可以直观地获取企业的人事、股权及对外投资的变动情况,在原有静态变化的基础上添加时间的维度,以期通过动态图像的形式向用户展现所查企业从成立到当下的动态变化情况。此需要对所查公司的变更记录、年报以及投资人等信息进行挖掘处理。
而目前的问题在于,在原始信息源中,存在大量的无关数据/脏数据,不能直接利用之成为待显示的数据,因此缺少能够有效对原始信息源中的企业数据进行挖掘处理的方法。
发明内容
有鉴于此,本发明的目的在于提供企业变更信息数据挖掘方法和系统,通过在原有静态企业经营情况的基础上添加时间的维度,通过这种形式向用户动态展现所查企业数年经营的变化情况。让用户可以直观地获取企业的人事、股权及对外投资的变动情况,辅助其更好的做出判断。
第一方面,本发明实施例提供了企业变更信息数据挖掘方法,包括:
获取企业变更事件的信息源数据和待挖掘信息,根据所述待挖掘信息对所述信息源数据进行清洗得到关联关系表格;
定义关系结构表格,并根据所述关系结构表格和所述关联关系表格提取企业变更事件关系结构;
遍历所述关联关系表格并补充所述企业变更事件关系结构中的起始时间和结束时间,以形成完整的数据挖掘信息。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述获取企业变更事件的信息源数据,对所述信息源数据进行清洗得到关联关系表格包括:
提取所述信息源数据的信息源关键词;
将所述企业变更事件的名称与所述信息源关键词之间建立映射得到关联关系映射;
根据所述待挖掘信息,利用所述信息源关键词对所述信息源数据进行清洗筛选得到所述关联关系表格。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述定义关系结构表格,并根据所述关系结构表格和所述关联关系表格提取企业变更事件关系结构包括:
定义所述关系结构表格;
遍历所述关联关系表格的第一行找出第一具体变更内容,并在关联关系映射中找到所述第一具体变更内容的映射关系;
将所述映射关系设置为标志,结合所述关系结构表格中的结构项形成所述企业变更事件关系结构。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述遍历所述关联关系表格并补充所述企业变更事件关系结构中的起始时间和结束时间,以形成完整的数据挖掘信息包括:
遍历所述关联关系表格;
根据所述企业变更事件的变更条目补充所述起始时间和所述结束时间,其中,所述变更条目包括变更时间。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,还包括:
遍历所述关联关系表格的第二行找出第二具体变更内容;
根据所述关联关系映射形成新的企业变更事件关系结构;
查询所述新的企业变更事件关系结构是否已有相同的标志。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,还包括:
若已有相同的所述标志,则对该标志携带的字符串进行补充;
若不存在相同的所述标志,则新建该标志,并形成完整的所述数据挖掘信息。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,在遍历所述关联关系表格未找到所述起始时间的情况下,将所述起始时间设定为企业的工商注册时间。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,在遍历所述关联关系表格未找到所述结束时间的情况下,则将所述结束时间设置为特殊标志符。
结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,所述信息源数据包括人事任职、股权、投资、注册资本、住所变更记录和经营范围变更。
第二方面,本发明实施例提供了企业变更信息数据挖掘系统,包括:
获取单元,用于获取企业变更事件的信息源数据和待挖掘信息,根据所述待挖掘信息对所述信息源数据进行清洗得到关联关系表格;
提取单元,用于定义关系结构表格,并根据所述关系结构表格和所述关联关系表格提取企业变更事件关系结构;
数据挖掘单元,用于遍历所述关联关系表格并补充所述企业变更事件关系结构中的起始时间和结束时间,以形成完整的数据挖掘信息。
本发明提供了企业变更信息数据挖掘方法,包括:获取企业变更事件的信息源数据和待挖掘信息,根据待挖掘信息对信息源数据进行清洗得到关联关系表格;定义关系结构表格,并根据关系结构表格和关联关系表格提取企业变更事件关系结构;遍历关联关系表格并补充企业变更事件关系结构中的起始时间和结束时间,以形成完整的数据挖掘信息。本发明通过在原有静态企业经营情况的基础上添加时间的维度,通过这种形式向用户动态展现所查企业数年经营的变化情况。让用户可以直观地获取企业的人事、股权及对外投资的变动情况,辅助其更好的做出判断。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的企业变更信息数据挖掘方法流程图;
图2为本发明实施例提供的步骤S101方法流程图;
图3为本发明实施例提供的步骤S102方法流程图;
图4为本发明实施例提供的企业变更信息数据挖掘系统示意图。
图标:
10-获取单元;20-提取单元;30-数据挖掘单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在企业公开数据中,能够看到很多有价值的信息数据,如个人与企业、企业与企业之间的投资人、法人、股东、监事、董事等数据,目前多数都是静态显示的。为了让用户可以直观地获取企业的人事、股权及对外投资的变动情况,在原有静态变化的基础上添加时间的维度,以期通过动态图像的形式向用户展现所查企业从成立到当下的动态变化情况。此需要对所查公司的变更记录、年报以及投资人等信息进行挖掘处理。而目前的问题在于,在原始信息源中,存在大量的无关数据/脏数据,不能直接利用之成为待显示的数据,因此缺少能够有效对原始信息源中的企业数据进行挖掘处理的方法。基于此,本发明实施例提供的企业变更信息数据挖掘方法和系统,通过在原有静态企业经营情况的基础上添加时间的维度,通过这种形式向用户动态展现所查企业数年经营的变化情况。让用户可以直观地获取企业的人事、股权及对外投资的变动情况,辅助其更好的做出判断,增强了用户体验。
为便于对本实施例进行理解,首先对本发明实施例所公开的企业变更信息数据挖掘方法进行详细介绍。
实施例一:
图1为本发明实施例提供的企业变更信息数据挖掘方法流程图。
参照图1,企业变更信息数据挖掘方法包括:
步骤S101,获取企业变更事件的信息源数据和待挖掘信息,根据待挖掘信息对信息源数据进行清洗得到关联关系表格;
步骤S102,定义关系结构表格,并根据关系结构表格和关联关系表格提取企业变更事件关系结构;
步骤S103,遍历关联关系表格并补充企业变更事件关系结构中的起始时间和结束时间,以形成完整的数据挖掘信息。
具体地,清洗过程即为根据待挖掘信息对信息源数据进行筛选的过程。信息源数据包括,但不限于人事任职、股权、投资、注册资本、住所变更记录和经营范围变更。
进一步地,参照图2,步骤S101包括:
步骤S201,提取信息源数据的信息源关键词;
步骤S202,将企业变更事件的名称与信息源关键词之间建立映射得到关联关系映射;
步骤S203,根据待挖掘信息,利用信息源关键词对信息源数据进行清洗筛选得到关联关系表格。
具体地,本发明实施例利用信息源关键词判断该信息源是否与要展现的内容(“任职”、“参股”或者“对外投资”)相关联,以进行筛选,可以加快筛选速度,并得到关联关系表格。
进一步地,参照图3,步骤S102包括:
步骤S301,定义关系结构表格;
步骤S302,遍历关联关系表格的第一行找出第一具体变更内容,并在关联关系映射中找到第一具体变更内容的映射关系;
步骤S303,将映射关系设置为标志,结合关系结构表格中的结构项形成企业变更事件关系结构。
具体地,以清洗数据后的表格为例,遍历该表格的第一行,将“变更前”和“变更后”做对比,找出第一具体变更内容,通过查阅映射关系可知该事件的关系,将“姓名”和“关系”组成一条字符串,并设置为标志,并以此标志,结合关系结构表格中的结构项,形成企业变更事件关系结构,此时的企业变更事件关系结构尚不完成,欠缺起始时间和结束时间。
进一步地,步骤S103包括:
遍历所述关联关系表格;
根据所述企业变更事件的变更条目补充所述起始时间和所述结束时间,其中,所述变更条目包括变更时间。
进一步地,还包括:
遍历所述关联关系表格的第二行找出第二具体变更内容;
根据所述关联关系映射形成新的企业变更事件关系结构;
查询所述新的企业变更事件关系结构是否已有相同的标志。
进一步地,还包括:
若已有相同的所述标志,则对该标志携带的字符串进行补充;
若不存在相同的所述标志,则新建该标志,并形成完整的所述数据挖掘信息。
进一步地,在遍历所述关联关系表格未找到所述起始时间的情况下,将所述起始时间设定为企业的工商注册时间。
进一步地,在遍历所述关联关系表格未找到所述结束时间的情况下,则将所述结束时间设置为特殊标志符。
本发明提供了企业变更信息数据挖掘方法,包括:获取企业变更事件的信息源数据和待挖掘信息,根据待挖掘信息对信息源数据进行清洗得到关联关系表格;定义关系结构表格,并根据关系结构表格和关联关系表格提取企业变更事件关系结构;遍历关联关系表格并补充企业变更事件关系结构中的起始时间和结束时间,以形成完整的数据挖掘信息。本发明通过在原有静态企业经营情况的基础上添加时间的维度,通过这种形式向用户动态展现所查企业数年经营的变化情况。让用户可以直观地获取企业的人事、股权及对外投资的变动情况,辅助其更好的做出判断。
实施例二:
在原始信息源中,存在大量的无关数据/脏数据,不能直接利用之成为待显示的数据,因此需要对原始信息源中的企业数据进行挖掘处理。
企业数据的挖掘处理,需要在所查公司的变更记录、年报以及投资人等不同的信息源中寻找企业人物、企业事件与时间的线性关系,譬如:“沈某”于“2011-02-14 00:00:00”任职于“北京XXX科技有限公司”,于“2012-02-16 00:00:00”离职。
本发明实施例提供的企业变更信息数据挖掘的方法,能够按需求挖掘出企业变更信息。
本实施例以要展示“人事任职”、“股权”或者“投资”等为例。信息源举例:如下表1,为“北京XXX科技有限公司”的部分变更记录:
表1
通常所存储的信息源为此形式,其中“注册资本”不在展示之列,当然信息源中还会有“住所变更记录”、“经营范围变更”或其他的脏数据。
步骤一:获取信息源,并清洗数据。
首先,定义所需的关联关系,将企业事件名称与信息源关键词之间建立映射。如下表2。
表2
然后,在众多信息源中,通过关键词来判断该信息源是否与要展现的内容(“任职”、“参股”或者“对外投资”)相关联,以进行筛选。清洗后,获得任职、参股和对外投资等需要的关联关系。如表3所示。
表3
步骤二:提取企业变更事件中的关系
提取关系时,先定义关系结构。如表4。
表4
然后,以清洗数据后的表格为例,遍历该表格的第一行,首先,将“变更前”和“变更后”做对比,找出具体变更内容,得到“自然人股东”的变更,通过查以上映射表2,得知该关系为“参股”;并将“姓名”和“关系”组成一条字符串设置为标志。如“沈某”和“参股”,则将其组成“沈某参股”,并设置为标志,见下表5。
表5
步骤三:提取企业变更事件的起始和终止时间。
提取的线性时间要保证有始有终。
首先,遍历清洗后的数据表格;
然后,对于某个企业变更事件(任职、投资等),根据变更条目是“变更前”,还是“变更后”,来判断该“变更时间”是为“起始时间”,还是“结束时间”;
例如,遍历时发现,“沈某”第一次出现在“变更后”,因此我们判断该“变更时间”为“起始时间”,见下表6。
表6
而后,当我们遍历表格的第二行,对比得出具体变更内容,将“姓名”和“关系”组成一条字符串设置为标志,查询是否已有相同的标志。若有,则对其进行完善;若无,则新建。
例如,表格的第二行“沈某”有相同标志位,且第二次出现在“变更前”,因此我们判断该“变更时间”为“结束时间”,见下表,而“王某”没有相同标志位,则新建。创建后如表7所示。
表7
需要说明的是,作为一种特例情况,经遍历后,对于某个企业变更事件,若无明确起始时间,则以所在企业的工商注册时间为起始时间;
若无明确结束时间(离职或投资结束时间),则默认目前仍在进行中,以某一特殊标志(如9999-99-99)表示。
由此,得出企业变更展示所需要的时间维度关系。
本发明实施例提供的企业变更信息数据挖掘的方法,与上述实施例提供的企业变更信息数据挖掘的方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例三:
图4为本发明实施例提供的企业变更信息数据挖掘系统示意图。
参照图4,企业变更信息数据挖掘系统,包括:
获取单元10,用于获取企业变更事件的信息源数据和待挖掘信息,根据所述待挖掘信息对所述信息源数据进行清洗得到关联关系表格;
提取单元20,用于定义关系结构表格,并根据所述关系结构表格和所述关联关系表格提取企业变更事件关系结构;
数据挖掘单元30,用于遍历所述关联关系表格并补充所述企业变更事件关系结构中的起始时间和结束时间,以形成完整的数据挖掘信息。
本发明实施例所提供的企业变更信息数据挖掘方法以及系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
机译: 企业变革系统,企业革命方法和企业变更计划
机译: 当在变更信息数据库的制造过程中上述装置部件发生变更时
机译: 在分析和评估输入企业的基本信息数据后,通过互联网和广告提供方法对广告和促销企业进行CC抄送