公开/公告号CN112559600A
专利类型发明专利
公开/公告日2021-03-26
原文格式PDF
申请/专利权人 南京万购信息科技有限公司;
申请/专利号CN202011525024.0
申请日2020-12-22
分类号G06F16/2458(20190101);G06F16/953(20190101);
代理机构32339 南京聚匠知识产权代理有限公司;
代理人卢美玲
地址 210019 江苏省南京市建邺区云龙山路60号龙熙大厦B座22F万购科技
入库时间 2023-06-19 10:24:22
技术领域
本发明属于计算机数据挖掘领域,具体涉及一种基于搜索引擎检索数据的企业产品名录挖掘方法。
背景技术
企业的生产产品名录是企业核心数据,具体指企业生产产出的产品,包括有物品、服务、信息等内容。明确企业生产产品名录,可以有效解析该企业所出产业链的位置,对挖掘企业的经济影响和社会影响具有深远意义。而调研区域内企业生产产品名录,对区域发展与规划、企业行为与决策、政府招商与决策等方面具有深远意义。因此,大范围调研企业生产产品名录对数据挖掘与预测具有深远的意义。
目前,大范围调研获取企业生产产品名录并不存在行之有效的方法。最为接近获取此类数据的方法是,利用企业工商登记的企业营业范围,明确企业的相关经营活动领域,例如A企业的经营范围:汽车、汽车摩托车零配件、机械设备。这种方法表达生产产品名录存在以下两方面核心问题:第一,不能明确具体的产品名称,比如汽车摩托车零配件包含几千种,所以无从得知企业的实际生产产品;第二,经营范围远广于企业生产产品。许多公司为了后期发展需求,会在工商登记注册时,增加诸多未涉及的领域。因此,利用企业工商登记的企业营业范围这种方法难以获得企业的生产产品名录。
鉴于此,本发明基于大数据思维,利用互联网信息中事物间存在关联的特性,提出了一种基于搜索引擎检索数据的企业生产产品名录挖掘方法。该方法能够有效实现大范围调研获取企业生产产品名录数据,具有广泛的应用前景。
发明内容
针对上述提到的问题,本发明提供的基于搜索引擎检索数据的企业产品名录挖掘方法,根据互联网信息中事物间存在关联的特性,从互联网信息中挖掘得出企业的生产产品名录。本发明采用的技术方案如下:
基于搜索引擎检索数据的企业产品名录挖掘方法,包括如下步骤:
S1、建立待挖掘企业名目录库{C
S2、建立待分析产业的产品名目录库{P
S3、构建联合检索条件集合{Q
S4、获取检索页面结果;
S5、获取检索结果反馈数目;
S6、确定结果筛选阈值θ;
S7、通过阈值判断企业名称和企业产品的相关性;
S8、确定产品名录集合。
进一步地,所述步骤S3具体包括如下步骤:
S31、循环遍历n个企业和m个产品名录;
S32、在每个遍历中生成联合检索条件q
S32、每个联合检索条件q
进一步地,所述步骤S4具体为:根据构建的检索条件集合{Q
进一步地,所述步骤S5具体为:从每个搜索引擎反馈页面HTML
进一步地,所述步骤S6具体为:采用随机算法选取1000个联合检索结果N
进一步地,所述步骤S7具体为:当N
进一步地,所述步骤S8具体为:遍历企业n在所有产品m的筛选结果,可得到企业n在产品名目录库{P
本发明所采用的方法可成功地应用于利用互联网大范围调研获取企业的生产产品名录,取得了高效准确的计算结果。
附图说明
图1是基于搜索引擎检索数据的企业生产产品名录挖掘方法流程图;
图2是部分待挖掘企业名录示意图;
图3是手工构建汽车产业链产品详细名录(共计1160项)示意图;
图4是联合检索条件示例图;
图5是联合检索页面结果示例图;
图6是企业检索结果反馈数目列表;
图7是企业筛选产品名录示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明的保护范围。
参阅图1,本发明的方法总体流程图,在本实施例中选取部分企业及汽车产业中的各类产品(分3级,共计1160项)为产品调查对象,互联网检索结果以百度搜索引擎为例,作为实施示例。本实施例的基于搜索引擎检索数据的企业产品名录挖掘方法,分为搜索引擎检索数据获取过程及企业生产产品名录筛选过程,搜索引擎检索数据获取过程包括如下步骤:
S1、建立待挖掘企业名目录库{C
S2、建立待分析产业的产品名目录库{P
S3、构建联合检索条件集合{Q
S31、循环遍历n个企业和m个产品名录;
S32、在每个遍历中生成联合检索条件q
S32、每个联合检索条件q
S4、获取检索页面结果;步骤S4具体为:根据构建的检索条件集合{Q
=2&rsv_page=1
每条Quest可以通过网络爬虫获取页面,可得到返回页面集合{HTML
S5、获取检索结果反馈数目;步骤S5具体为:从每个搜索引擎反馈页面HTML
Re=百度为您找到相关结果约(.*?)个,则表达式返回结果为N
本发明的基于搜索引擎检索数据的企业产品名录挖掘方法企业检索结果反馈数目列表如图6。
附图7是企业筛选产品名录示例。企业生产产品名录筛选过程包括如下步骤:
S6、确定结果筛选阈值θ;步骤S6具体为:采用随机算法选取1000个联合检索结果N
S7、通过阈值判断企业名称和企业产品的相关性;步骤S7具体为:当N
S8、确定产品名录集合。步骤S8具体为:遍历企业n在所有产品m的筛选结果,可得到企业n在产品名目录库{P
本发明所采用的方法可成功地应用于利用互联网大范围调研获取企业的生产产品名录,取得了高效准确的计算结果。
由上述实施例可知,本发明方法通过筛选详尽的行业产品名录清单,构建与待分析企业的联合检索条件,抓取搜索引擎联合检索数据结果,确定结果筛选阈值,最终实现企业生产产品名录的获取。为验证方法准确性,实验在2.5万个江苏省企业中随机抽选了3组100个企业进行方法测试和人工调研验证,并在汽车产业链1160个细分产品名录中进行测试。实验结果的准确率分别为92.3%、91.5%和92.5%。
本发明所创新提出的方法,可以广泛地应用于企业具体生产产品名录的确定,可以精确化地明确企业具体提供的产品和服务名称,对企业信息的深度挖掘分析具有基石作用。不仅如此,该方法也同样适用于各类企业服务、企业提供咨询等功能性产品的调查,具有广阔的产品应用前景。
以上所述为本发明的较佳实施例而已,但本发明不应局限于该实施例和附图所公开的内容,所以凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
机译: 用搜索引擎对非结构化数据进行搜索以检索富含结构化数据的记录并基于其生成报告的设备和方法
机译: 数据挖掘系统,数据挖掘方法和数据检索系统
机译: 数据挖掘系统,数据挖掘方法和数据检索系统