首页> 中文学位 >Deep Web数据源聚类与查询转换的研究
【6h】

Deep Web数据源聚类与查询转换的研究

代理获取

摘要

随着互联网的日益增长,Web已经成为人们获取信息的重要途径。Web分为Surface Web和Deep Web两大类。相对而言,Deep Web蕴含了更为丰富的资源,而且价值更高。然而Web数据库分布在各个领域,只能通过查询接口进行访问,所以必须通过数据集成后才能更好的利用。
   将数据库按照其所属领域进行划分是Deep Web数据集成中一个十分重要的环节。由于相同领域的数据库查询接口所在页面的标题和关键字往往会共享一些词汇,而这些词汇又在很大程度上反映了数据库的领域。因此,本文提出了一种基于频繁项集的聚类算法,对标题和关键字等文本提示信息进行聚类,从而实现对数据库的划分,可以使数据库的信息更好的被利用。在新算法中,频繁项集的个数决定了聚类的个数,并且频繁项集可以作为标签来描述聚类。实验验证,此方法的F-measure值可以达到0.92以上。
   另外,查询转换也是数据集成的一个重要组成部分,它主要负责将用户提交的查询在集成查询接口和Web本地查询接口之间进行转换。由于Web查询接口的异质性很高,因此对查询的转换难度很大,通常只能做近似转换。本文对查询转换问题进行了模型化及较深入的研究,提出了查询转换器的解决方案,解决了查询转换中的源的异质性和领域的可移植性等问题,有效的改善了查询的精度和性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号