Deep Web数据源的发现与聚类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网上的资源可以划分为Surface Web和Deep Web两部分。其中，Surface Web指能够被传统搜索引擎检索到的那部分资源，Deep Web指传统搜索引擎检索不到的那部分资源，通常指Web数据库包含的信息。
　　调查表明，Deep Web蕴含的信息量是Surface Web的400至500倍。然而，由于Web数据库覆盖各个领域，并且分布在世界的各个角落，因此必须对其进行集成后才能有效地加以利用。因为Deep Web集成的是同一领域的Web数据库，所以在集成前需要发现Web数据库并将其按照所属领域分类。
　　查询接口是Web数据库的唯一入口，因此可以通过查询接口来发现Web数据库。查询接口位于网页的表单之中，但并非所有的表单都是查询接口，因此需要从表单中识别出查询接口。基于前人的研究成果和对大量表单的观察，本文提出了7条启发式规则用以识别查询接口。实验结果表明，查询接口识别的F-measure值能达到0.98以上。
　　 Deep Web集成需要建立集成查询接口到各本地查询接口的映射关系。在集成前，需要从查询接口中抽取其模式信息。对于抽取过程中存在的6大难点，文中给出了相应的解决方法。实验结果表明，文中给出的方法抽取查询接口模式信息的准确度可达94％以上。
　　同一领域的Web数据库所在网页的标题和关键词通常会共享一定的关键词。基于这个思想，本文提出了基于频繁项集的Web数据库聚类算法。该算法将共享一定关键词的网页所包含的Web数据库聚为一类，聚类结果的簇数等于频繁项集的个数，并且用频繁项集对应的关键词作为簇标签。实验结果表明，该聚类算法的F-measure值能达到0.91以上。
　　

著录项

作者
高川;
展开▼
作者单位

北京化工大学;

展开▼
授予单位北京化工大学;
学科计算机应用技术
授予学位硕士
导师姓名朱群雄;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
查询接口识别; 模式抽取; Web数据库; 频繁项集; 搜索引擎;

相似文献

中文文献
外文文献
专利

1. 基于Dirichlet过程的Deep Web数据源聚类方法 [J] . 黄进 ,何中市 ,李英豪 . 微型机与应用 . 2015,第007期
2. 频繁项集在Deep Web数据源聚类中的应用 [J] . 张蓬飞 ,朱群雄 . 计算机工程与应用 . 2012,第014期
3. Deep Web数据源聚类与分类 [J] . 王兵 ,王轲 . 计算机与现代化 . 2007,第008期
4. Deep Web数据源的发现和分类 [J] . 常甜甜 ,陈军华 . 上海师范大学学报（自然科学版） . 2016,第005期
5. 基于本体和语义相似度的Deep Web数据源发现技术 [J] . 卓林 . 计算机光盘软件与应用 . 2012,第020期
6. Deep Web数据源的发现研究 [C] . 张素智 ,段晓飞 . 河南省计算机学会2007年学术年会 . 2007
7. Deep Web数据源发现及Deep Web垂直搜索引擎设计 [A] . 兰均 . 2011

Deep Web数据源的发现与聚类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅