基于Top-k查询约束的深网增量爬取

江俊彦; 彭智勇; 吴小莹

首页> 中文期刊> 《模式识别与人工智能》 >基于Top-k查询约束的深网增量爬取

基于Top-k查询约束的深网增量爬取

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Crawling all deep web data is difficult for third party applications due to dynamicity, autonomy and quantity of deep web data sources. To tackle the deep web crawling problem under the query type restriction(only top-k queries are allowed) and limited query resources, an approach for incremental web crawling with top-k query constraint is proposed. Historical data and domain knowledge are combined to maximize total repository data quality. Firstly, valid queries are generated using a query tree, and changes and corresponding cost of the query are estimated by historical data and domain knowledge. Next, grounded on the query cost and data quality of the estimation, the optimal subset is selected approximately to globally maximize total data quality under limited query resources. The experimental results on real datasets show the proposed approach improves the efficiency of crawling dynamic web database.%深网数据源的动态性、自治性和体量使第三方应用难以完全爬取所有Web数据.文中研究查询类型(仅允许Top-k查询)和查询资源约束下深网数据源爬取问题,提出基于Top-k查询约束的深网增量爬取方法,结合历史数据和领域知识,优化总体数据质量.首先基于查询树获得有效查询,利用历史数据和领域知识估计查询变化和查询代价.然后,基于估计的查询代价和数据质量,近似选择最优的查询子集最大化总体数据质量.实验表明文中方法较好地提高动态Web数据库爬取的效率和数据质量.

著录项

来源
《模式识别与人工智能》 |2017年第1期|43-53|共11页
作者
江俊彦; 彭智勇; 吴小莹;
展开▼
作者单位

武汉大学软件工程国家重点实验室武汉430072;

武汉大学计算机学院武汉430072;

武汉大学软件工程国家重点实验室武汉430072;

武汉大学计算机学院武汉430072;

武汉大学软件工程国家重点实验室武汉430072;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
Top-k查询; Web数据库爬取; 数据质量; 查询代价; 查询选择;

相似文献

中文文献
外文文献
专利

1. 一种基于深网的个性化信息爬取方法 [J] . 谭涛 ,谭乐婷 ,张刚园 . 电脑知识与技术 . 2016,第002期
2. 基于聚集约束的不确定性数据Top-k查询 [J] . 占仟豪 ,刘斌 . 电脑知识与技术 . 2016,第020期
3. 基于文本语义的SA-LDA增量爬取图书选择与推介 [J] . 蓝燕 . 惠州学院学报 . 2020,第003期
4. 基于窗口队列的信道信息增量智能爬取仿真 [J] . 徐金梅 . 计算机仿真 . 2019,第011期
5. 基于窗口比较的网站信息增量爬取方法 [J] . 刘学 ,麻朴方 ,尤佳莉 . 网络新媒体技术 . 2017,第004期
6. 增量爬取技术的策略框架设计 [C] . Chen Cheng ,陈诚 ,Li Guangya . 第29届中国数据库学术会议 . 2012
7. 深网数据爬取关键技术研究 [A] . 章俊 . 2018

基于Top-k查询约束的深网增量爬取

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅