基于两阶段的深层网络数据源发现系统研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网数据根据是否能被搜索引擎所索引分为浅层网络和深层网络。深层网络相比浅层网络具有更大的数据量和更高的质量，高效的定位深层网络数据源是挖掘隐藏在深层网络背后信息的前提。由于Web本质是动态变化的，不断有新的数据源加入和旧的数据源撤出，以及查询表单稀疏分布的特点，现有的深层网络数据源发现系统会访问大量无关页面，导致效率低下。
　　基于两阶段的深层网络数据源发现系统（SmartCrawler），将数据源发现过程分为站点定位阶段和站内搜索阶段，并具有自适应、增量式和高效等特点。站点定位阶段借助搜索引擎反向爬行已发现的深层网络站点来收集站点数据，保证站点队列有充足的候选数据；采用自适应的站点排序机制实现优先选取潜在深层网络站点以及站点分类器来实现聚焦爬行。站内搜索阶段采取平衡的优先访问策略，在优先访问潜在指向含查询表单页面同时，通过设计树型结构来保证站点内部的覆盖范围。站点和链接优先选取策略采用学习智能体方法，通过自动抽取爬行过程中发现的深层网络站点和表单路径特征，并构建相应的特征空间作为站点和链接排序的依据，能够自适应的调节爬行过程中站点和链接的选取。
　　为了验证两阶段爬虫的性能，通过实现三种不同策略的爬虫，在8个具有代表性的领域，分别访问100,000个页面。测试结果表明，SmartCrawler能够有效提高爬行效率，在相同条件下能够收获更多的查询表单和覆盖更广的深层网络站点。自适应学习机制可以有效学习到新的特征，指导爬行过程中站点和链接的选取。

著录项

作者
聂昶;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机应用技术
授予学位硕士
导师姓名赵峰;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
深层网络; 数据源发现系统; 爬行过程; 自适应学习机制; 特征提取;

相似文献

中文文献
外文文献
专利

1. 基于主题和表单属性的深层网络数据源分类方法 [J] . 祝官文 ,王念滨 ,王红滨 . 电子学报 . 2013,第002期
2. 基于BP神经网络的大型旋转机械故障诊断及其网络数据源的研究 [J] . 李培元 ,谢志江 ,赵心夏 . 西南民族大学学报（自然科学版） . 2004,第003期
3. 基于主题模型的深层网数据源选择算法 [J] . 王秋月 ,曹巍 ,史少晨 . 计算机应用 . 2015,第009期
4. 基于Choquet积分的深层网数据源选择 [J] . 郭若飞 ,蔡欣宝 ,赵朋朋 . 计算机工程 . 2011,第004期
5. 基于B/S架构的网络拓扑发现系统的研究与设计 [J] . 李康 . 科技信息 . 2010,第023期
6. 基于BP网络的大型旋转机械故障诊断及其网络数据源 [C] . 谢志江 ,付艳 ,赵心夏 . 第九届全国机械动力学学术年会 . 2001
7. 基于表单特性的深层网络数据源分类方法研究 [A] . 祝官文 . 2012

基于两阶段的深层网络数据源发现系统研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅