公开/公告号CN105843965A
专利类型发明专利
公开/公告日2016-08-10
原文格式PDF
申请/专利权人 广州精点计算机科技有限公司;
申请/专利号CN201610247854.9
申请日2016-04-20
分类号G06F17/30(20060101);
代理机构北京隆源天恒知识产权代理事务所(普通合伙);
代理人闫冬
地址 510630 广东省广州市天河北路906高科大厦A-701
入库时间 2023-06-19 00:12:25
法律状态公告日
法律状态信息
法律状态
2019-06-04
授权
授权
2019-05-31
著录事项变更 IPC(主分类):G06F16/951 变更前: 变更后: 申请日:20160420
著录事项变更
2016-09-07
实质审查的生效 IPC(主分类):G06F17/30 申请日:20160420
实质审查的生效
2016-08-10
公开
公开
技术领域
本发明涉及网络爬虫技术领域,尤其涉及一种基于URL主题分类的深层网络爬虫表单填充方法和装置。
背景技术
深层网(Deep Web、Invisible Web、Hidden Web)是一个与表层网(Surface Web、Visible Web)相对应的概念,最初由Dr.Jill Ellsworth于1994年提出,意指那些不能被普通搜索引擎访问的内容。根据BrightPlanet公司的技术白皮书显示,深层网包含的可访问信息量是目前我们熟知的表层网络的400-550倍;深层网中包含有高质量的信息。由于互联网具有信息数量大、更新和增长速度快的特点,而且随着Web的发展,越来越多的数据可以通过表单提交来获取。这些表单提交所产生信息是由Deep Web后台数据库动态产生的。在这种情况下,信息集成就更加需要网络爬虫来自动获取这些页面以进一步地处理数据。因此搜索引擎需要一个功能强大,工作高效的网络爬虫为其采集信息,使其能够为用户提供全面、及时的查询结果。
在深层网里面拥有高质量的数据,在各个领域,我们都需要更加精准更加丰富的数据,这就要求网络爬虫需要对深层网络的数据进行挖掘和标引,为了更好的实现这种深层网络的智能爬虫,我们需要对爬虫自动填写网页表单控件的策略进行改良,让整个流程匹配的准确率都有提升。
鉴于上述缺陷,本发明创作者经过长时间的研究和试验,最终获得了本发明。
发明内容
本发明的目的在于提供一种基于URL主题分类的深层网络爬虫表单填充方法和装置用以克服上述技术缺陷。
为实现上述目的,本发明采用的技术方案在于:
一方面提供了一种基于URL主题分类的深层网络爬虫表单填充装置,包括预处理单元、下载单元、网页分析单元、网页处理单元和存储单元;
所述预处理单元,用于采集URL数据,对所述URL进行分块处理,并对所述URL进行粗分类后存储;
所述下载单元,用于根据所述URL和其对应的分类类别获取可搜索的网页表单;
所述网页分析单元,用于对所述可搜索的网页表单进行核心特征词提取,找出网页表单中的表单标签和表单控件;
所述存储单元,用于将所述URL和其对应的细分类类别进行存储,并且构建所述URL与相应主题的映射关系。
较佳的,所述预处理单元包括采集模块、分块模块、删除模块、分类处理模块和存储模块;
所述采集模块,用于采集URL数据,并形成初始的URL集合;
所述分块模块,用于对所述URL根据符号和数字将所述URL进行分块处理并形成URL块集;
所述删除模块,用于将所述URL块集中对分类无意义的URL块进行删除处理;
所述分类处理模块,用于根据已建立好的URL字典,从经过删除处理的URL块集中筛选出对分类有意义的特征词,然后根据所述URL字典和所述特征词对所述URL进行粗分类;
所述存储模块,用于所述URL和其对应的分类类别进行存储。
较佳的,所述下载单元包括:散列模块、网页下载模块和可搜索网页表单模块;
所述散列模块,用于对所述URL和其对应的分类类别,根据分类类别进行主题设定,并按照主题来组织URL队列,并同时利用布隆过滤器技术进行散列处理;
所述网页下载模块,用于根据所述主题对URL队列中的URL进行逐条处理,访问Web,抓取网页表单;
所述可搜索网页表单模块,用于从抓取的网页表单中通过启发式规则得出可搜索的网页表单。
较佳的,所述网页分析单元包括:构建模块、除噪模块、提取模块、接口模块和关联模块;
所述构建模块,用于半自动构建领域本体知识库;
所述除噪模块,用于通过主成分分析算法对所述可搜索的网页表单去除噪音;
所述提取模块,用于通过TFIDF算法对所述可搜索的网页表单进行特征提取,提取关于主题的核心特征词;
所述接口模块,用于将所述可搜索的网页表单通过DOM接口表示成DOM树的结构;
所述关联模块,用于通过就近原则算法把表示成DOM树的结构的所述可搜索的网页表单中的表单标签和表单控件找出来。
较佳的,所述网页处理单元包括:标准化处理模块、核心特征词匹配模块、表单标签匹配模块和表单控件填充模块;
所述标准化处理模块,用于将所述表单标签和核心特征词进行标准化处理;
所述核心特征词匹配模块,用于通过语义的相似度匹配算法将标准化后的核心特征词与所述领域本体知识库匹配得出URL的细分类主题;
所述表单标签匹配模块,用于通过语义的相似度匹配算法将标准化后的表单标签与所述领域本体知识库属性匹配得出所述表单控件的属性值;
所述表单控件填充模块,用于通过反馈的所述表单控件的属性值对相应的表单控件进行填充。
又一方面提供了一种基于URL主题分类的深层网络爬虫表单填充方法,包括以下步骤:
步骤S1,采集URL数据,对所述URL进行分块处理,并对所述URL进行粗分类后存储;
步骤S2,根据所述URL和其对应的分类类别获取可搜索的网页表单;
步骤S3,对所述可搜索的网页表单进行核心特征词提取,找出网页表单中的表单标签和表单控件;
步骤S4,将所述表单标签和核心特征词进行标准化处理,得出所述URL的细分类主题,对所述表单控件进行填充;
步骤S5,将所述URL和其对应的细分类类别进行存储,并且构建URL与相应主题的映射关系。
较佳的,所述步骤S1具体包括:
步骤S11,采集URL数据并形成初始的URL集合;
步骤S12,对所述URL根据符号和数字将所述URL进行分块处理并形成URL块集;
步骤S13,将所述URL块集中对分类无意义的URL块进行删除处理;
步骤S14,根据已建立好的URL字典,从经过删除处理的URL块集中筛选出对分类有意义的特征词,然后根据所述URL字典和所述特征词对所述URL进行粗分类;
步骤S15,将所述URL和其对应的分类类别进行存储。
较佳的,所述步骤S2具体包括:
步骤S21,对所述URL和其对应的分类类别,根据分类类别进行主题设定,并按照主题来组织URL队列,并同时利用布隆过滤器技术进行散列处理;
步骤S22,根据所述主题对URL队列中的URL进行逐条处理,访问Web,抓取网页表单;
步骤S23,从抓取的网页表单中通过启发式规则得出可搜索的网页表单。
较佳的,所述步骤S3具体包括:
步骤S31,半自动构建领域本体知识库;
步骤S32,通过主成分分析算法对所述可搜索的网页表单去除噪音;
步骤S33,通过TFIDF算法对所述可搜索的网页表单进行特征提取,提取关于主题的核心特征词;
步骤S34,将所述可搜索的网页表单通过DOM接口表示成DOM树的结构;
步骤S35,通过就近原则算法把表示成DOM树的结构的所述可搜索的网页表单中的表单标签和表单控件找出来。
较佳的,所述步骤S4具体包括:
步骤S41,将所述表单标签和核心特征词进行标准化处理;
步骤S42,通过语义的相似度匹配算法将标准化后的核心特征词与所述领域本体知识库匹配得出URL的细分类主题;
步骤S43,通过语义的相似度匹配算法将标准化后的表单标签与所述领域本体知识库属性匹配得出所述表单控件的属性值;
步骤S44,通过反馈的所述表单控件的属性值对相应的表单控件进行填充。
与现有技术比较本发明的有益效果在于:本发明提供的一种基于URL主题分类的深层网络爬虫表单填充方法和装置,实现了基于URL主题分类的深层网 络爬虫表单填充优化。利用本体库以及基于语义的相似度匹配算法把深层网络爬虫进一步智能化,从而丰富了相关领域的数据,并构建映射存储,为提高搜索引擎的信息检索提供了一种新的思路。
附图说明
图1为本发明的一种基于URL主题分类的深层网络爬虫表单填充装置的功能框图;
图2为预处理单元的功能框图;
图3为下载单元的功能框图;
图4为网页分析单元的功能框图;
图5为网页处理单元的功能框图;
图6为本发明的一种基于URL主题分类的深层网络爬虫表单填充方法流程示意图;
图7为步骤S1的流程示意图;
图8为步骤S2的流程示意图;
图9为步骤S3的流程示意图;
图10为步骤S4的流程示意图。
具体实施方式
为便于进一步理解本发明的技术内容,下面结合附图对本发明作进一步说明。
实施例一
如图1所示,为本发明提供的一种基于URL主题分类的深层网络爬虫表单填充装置的功能框图,该基于URL主题分类的深层网络爬虫表单填充装置包括:预处理单元1、下载单元2、网页分析单元3、网页处理单元4和存储单元5。
预处理单元1用于采集URL数据并形成初始的URL集合,根据符号和数字对完整的URL进行分块处理并形成URL块集,删除对分类无意义的URL块,并根据已建立好的URL字典筛选出对分类有意义的特征词,并根据特征词对URL进行粗分类,将URL和其对应的分类类别进行存储并传递给下载单元2。下载单元2用于对传递过来的URL和其对应的分类类别,根据分类类别进行主题设定, 并按照主题组织URL队列,同时进行散列处理,根据主题对URL队列中的URL进行逐条处理,访问Web,抓取网页表单,通过启发式规则得出可搜索的网页表单。网页分析单元3用于构建领域本体知识库,对网页表单去除噪音后对网页表单进行提取关于主题的核心特征词,将网页表单表示成DOM树的结构,将DOM树的结构的网页表单中的表单标签和表单控件找出来并关联到一起。网页处理单元4用于将表单标签和核心特征词进行标准化处理,得出URL的细分类主题和表单控件的属性值,通过反馈的表单控件的属性值对相应的表单控件进行填充,并下载返回的网页数据。存储单元5用于对网页处理单元4传递而来的URL和其对应的细分类类别进行存储,并且构建URL与相关主题的映射关系。
如图2所示,为预处理单元的功能框图,预处理单元1包括:采集模块11、分块模块12、删除模块13、分类处理模块14和存储模块15。采集模块11,用于采集URL数据,并形成初始的URL集合。分块模块12,用于对传递过来的URL数据源中的完整的URL进行分块处理并形成URL块集。分块处理具体是:根据符号和数字将URL进行分块处理并形成URL块集。删除模块13,用于将URL块集中对分类无意义的URL块进行删除处理。分类处理模块14,用于根据已建立好的URL字典,从经过删除处理的URL块集中筛选出对分类有意义的特征词,然后根据URL字典和筛选出的特征词对URL进行粗分类。粗分类具体为:分成各个大类,大类中包含一个未分类,专门归纳那些无法被粗分类的URL。存储模块15,用于将URL和其对应的分类类别进行存储和传递给下载单元进行进一步分析。
举例说明完整的URL进行分析处理的过程:例如:采集模块11采集到一个为“http://www.scut.edu.cn/webpage/about.htm”的URL,分块模块12按照“:”、“//”、“.”、“/”等符号对该URL进行分块,结果形成“http”、“www”、“scut”、“edu”、“cn”、“webpage”、“about”、“htm”等URL块集。删除模块13将“http”、“www”这些对分类无意义的URL块进行删除处理。分类处理模块14根据已建立好的URL字典,从经过删除处理的URL块集中筛选出对分类有意义的特征词,如假设上述的URL在对照URL字典后筛选出的特征词是“scut”、“edu”、“about”、“webpage”,然后根据URL字典和这些筛选出的特征词,就可以将该URL进行粗分类,假设粗分类为教育类。存储模块15将URL和其对应的分类类别进行存储和传递给下载单元进行进一步的分析。
如图3所示,为下载单元的功能框图,下载单元2包括:散列模块21、网页下载模块22和可搜索网页表单模块23。散列模块21,用于对传递过来的URL和其对应的分类类别,根据分类类别进行主题设定,并按照主题来组织URL队列,并同时利用Bloom Filter(布隆过滤器)技术进行散列处理。
还是以上述例子为例,散列模块21对传递过来的URL和其对应的分类类别,根据其分类类别进行主题设定,如表一所示;并按照主题来组织URL队列,如表二所示;并同时利用Bloom Filter技术进行散列处理。
表一
表二
网页下载模块22,用于根据主题对URL队列中的URL进行逐条处理,访问Web,抓取网页表单。可搜索网页表单模块23,用于从抓取的网页表单中通过启发式规则得出可搜索的网页表单。启发式规则包括:网页表单不能含有密码框;网站遍历深度小于等于3层;网页表单的可输入控件数量大于等于1。
如图4所示,为网页分析单元的功能框图,网页分析单元3包括:构建模块31、除噪模块32、提取模块33、接口模块34和关联模块35。构建模块31,用于半自动构建领域本体知识库。除噪模块32:用于通过主成分分析算法对可 搜索的网页表单去除噪音,去除噪音具体为:去除停用词和变量降维。提取模块33:用于通过TFIDF算法对除噪模块32处理后的可搜索的网页表单进行特征提取,提取关于主题的核心特征词。接口模块34,用于将可搜索的网页表单通过DOM接口表示成DOM树的结构。关联模块35:用于通过就近原则算法把DOM树的结构的可搜索的网页表单中的表单标签和表单控件找出来并关联到一起。
如图5所示,为网页处理单元的功能框图,网页处理单元4包括:标准化处理模块41、核心特征词匹配模块42、表单标签匹配模块43和表单控件填充模块44。标准化处理模块41,用于将表单标签和核心特征词进行标准化处理。标准化处理具体包括:将所有不属于集合{a,b,…,z,A,B,…,Z,0,1,…,9}的字符用空格字符替代,去掉开头和结尾的空格。将所有大写字符转换成与之等价的小写字符。删除遇到的停用词。将剩下文本中的每个词通过词干分析算法提取词干。核心特征词匹配模块42,用于通过语义的相似度匹配算法将标准化后的核心特征词与领域本体知识库匹配得出URL的细分类主题。表单标签匹配模块43:用于通过语义的相似度匹配算法将标准化后的表单标签与领域本体知识库属性匹配得出表单控件的属性值。表单控件填充模块44:用于通过反馈的表单控件的属性值对相应的表单控件进行填充。
存储单元5,用于对网页处理单元4传递而来的URL和其对应的细分类类别进行存储,并且构建URL与相关主题的映射关系。
实施例二
如图6所示,为本发明提供的一种基于URL主题分类的深层网络爬虫表单填充方法流程示意图,该方法包括以下步骤:
步骤S1,采集URL数据,对完整的URL进行分块处理,并对URL进行粗分类后存储。
如图7所示,为步骤S1的流程示意图,该步骤S1具体包括以下步骤:
步骤S11,采集URL数据并形成初始的URL集合。
步骤S12,对完整的URL根据符号和数字将URL进行分块处理并形成URL块集。
步骤S13,将URL块集中对分类无意义的URL块进行删除处理。
步骤S14,根据已建立好的URL字典,从经过删除处理的URL块集中筛选出 对分类有意义的特征词,然后根据URL字典和筛选出的特征词对URL进行粗分类。粗分类具体为:分成各个大类,大类中包含一个未分类,专门归纳那些无法被粗分类的URL。
步骤S15,将URL和其对应的分类类别进行存储和传递给下载单元进行进一步分析。
步骤S2,根据所述URL和其对应的分类类别获取可搜索的网页表单。
如图8所示,为步骤S2的流程示意图,该步骤S2具体包括以下步骤:
步骤S21,对传递过来的URL和其对应的分类类别,根据分类类别进行主题设定,并按照主题来组织URL队列,并同时利用Bloom Filter(布隆过滤器)技术进行散列处理。
步骤S22,根据主题对URL队列中的URL进行逐条处理,访问Web,抓取网页表单。
步骤S23,从抓取的网页表单中通过启发式规则得出可搜索的网页表单。
启发式规则包括:网页表单不能含有密码框;网站遍历深度小于等于3层;网页表单的可输入控件数量大于等于1。
步骤S3,对可搜索的网页表单进行核心特征词提取,找出网页表单中的表单标签和表单控件。
如图9所示,为步骤S3的流程示意图,该步骤S3具体包括以下步骤:
步骤S31,半自动构建领域本体知识库。
步骤S32,通过主成分分析算法对可搜索的网页表单去除噪音。去除噪音具体为:去除停用词和变量降维。
步骤S33,通过TFIDF算法对可搜索的网页表单进行特征提取,提取关于主题的核心特征词。
步骤S34,将可搜索的网页表单通过DOM接口表示成DOM树的结构。
步骤S35,通过就近原则算法把表示成DOM树的结构的可搜索的网页表单中的表单标签和表单控件找出来并关联到一起。
步骤S4,将表单标签和核心特征词进行标准化处理,得出URL的细分类主题,对表单控件进行填充。
如图10所示,为步骤S4的流程示意图,该步骤S4具体包括以下步骤:
步骤S41,将表单标签和核心特征词进行标准化处理。
标准化处理具体包括:将所有不属于集合{a,b,…,z,A,B,…,Z,0,1,…,9}的字符用空格字符替代,去掉开头和结尾的空格。将所有大写字符转换成与之等价的小写字符。删除遇到的停用词。将剩下文本中的每个词通过词干分析算法提取词干。
步骤S42,通过语义的相似度匹配算法将标准化后的核心特征词与领域本体知识库匹配得出URL的细分类主题。
步骤S43,通过语义的相似度匹配算法将标准化后的表单标签与领域本体知识库属性匹配得出表单控件的属性值。
步骤S44,通过反馈的表单控件的属性值对相应的表单控件进行填充。
步骤S5,URL和其对应的细分类类别进行存储,并且构建URL与相应主题的映射关系。
本发明提供的一种基于URL主题分类的深层网络爬虫表单填充方法和装置,实现了基于URL主题分类的深层网络爬虫表单填充优化。利用本体库以及基于语义的相似度匹配算法把深层网络爬虫进一步智能化,从而丰富了相关领域的数据,并构建映射存储,为提高搜索引擎的信息检索提供了一种新的思路。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
机译: 基于神经网络的深层神经网络数据处理方法及装置
机译: 基于深层神经网络训练装置的识别装置及其方法
机译: 基于深层神经网络训练装置的识别装置及其方法