首页> 中文学位 >异构Web数据库集成查询接口模式匹配问题的研究
【6h】

异构Web数据库集成查询接口模式匹配问题的研究

代理获取

摘要

随着计算机技术,特别是Internet的迅速发展,可共享的资源越来越多,各种Web数据库中已经存放了涵盖各个领域的大量有价值的信息,成为人们获取信息的主要渠道。然而由于Web数据库所独有的空间复杂性导致了其数据源的极端多样性,这也使得Web数据库的表达形式之间存在巨大的差异,描述同一事物的数据却表现出了明显的异构特征。如何快速、准确、低成本地将各种描述同一事物的异构Web数据集成到同一个关系数据库中是很有意义的研究课题,它可以为用户提供访问数据的统一接口,实现异构形式对用户的透明。
   传统的异构Web数据库集成方式采用Mediator-Wrapper框架模式,使用XQuery作为公共的查询语言,系统的所有功能都建立在全局数据的XML/元数据表达上。本文针对Web数据库的信息量大且更新速度快的特点,结合经典的决策树分类方法对海量含噪的异构Web数据库集成中的查询接口匹配问题展开研究。主要工作如下:
   1.综述并分析了现有异构Web数据库集成框架Mediator-Wrapper的基本理论体系及当前主要的查询接口模式匹配方法。
   2.系统总结了传统的决策树模型的基本理论,并分析了其经典算法及优化策略。
   3.针对异构Web数据中含噪较多的特征,结合已有的决策分类算法,给出一种基于可疑实例影响度分析的混合决策树学习算法MDSⅡ,通过采用信息增益率函数选择分裂属性,分析可疑Web数据全局影响度,判定匹配模式,可以在很好地提高模式的匹配精度的同时解决Mediator-Wrapper框架对XML/元数据表达的过度依赖问题,大大提高了模型的抗噪性。
   4.针对传统模式匹配方法在处理海量数据时存在的建模速度慢、过度依赖领域知识、分类规则过拟合现象严重等缺陷,提出一种基于当前节点中最大纯度差(PDN)变化趋势的自主数据集成分类算法PDN_trends,通过对数据自身的跟踪和观察计算来判定决策树的预剪枝时机,不依赖领域知识使得数据集成分类更加自主,同时减小模型规模使得分类规则更具可理解性,同时在保证一定分类精度的基础上提高了建树效率。
   5.基于上述研究,实现了异构Web数据库模式匹配规则生成系统,通过大量多样的数据库实验说明了所提出的关于异构Web数据库集成中的查询接口模式匹配方法的正确性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号