首页> 中文学位 >面向特定领域的Deep Web数据获取技术研究
【6h】

面向特定领域的Deep Web数据获取技术研究

代理获取

摘要

随着互联网技术的飞速发展,隐藏在Web数据库中高质量的信息资源因为结构完整、数据量巨大而受到广泛的关注。然而这类信息资源只有用户向Web查询接口提交查询后才会以HTML页面的方式展现出来,使得传统的搜索引擎无法获取,因而被称为DeepWeb。为了提高DeepWeb资源的利用程度,需要将隐藏在查询接口之后的数据展现到查询结果页面中,并将其抽取成为结构化的数据。
   本文对特定领域的DeepWeb数据获取关键技术进行了研究。研究主要分为两部分:数据表面化以及数据记录抽取。主要研究内容如下:
   1)针对DeepWeb查询接口中的范围型属性,提出了一种基于采样的值域划分方法。该方法有效地提高了Top-k查询接口中数据表面化的效率。
   2)针对查询接口中的分类型属性,改进一种基于层次树模型的数据表面化方法。该方法通过调整分类型属性的提交顺序,有效的减少了查询提交的次数。
   3)针对查询接口中的文本型属性,本文采用了一种候选值筛选的方法。该方法利用候选属性值在样本库中的分布,对候选值进行筛选,增加了平均查询收益。
   4)根据查询结果页面中特征节点的分布信息,提出了一种数据区域定位算法。该算法将页面的结构信息和数据记录的属性特征结合起来,弱化了网页结构变更对抽取效果的影响。
   5)在数据记录抽取阶段,本文讨论了一种特征序列划分和树相似度相结合的数据记录抽取方法。该方法不但可以提高数据记录抽取的准确率,而且能够对齐数据记录的属性。
   本文通过实验验证了上述算法的有效性,并设计了面向电子商务领域的DeepWeb信息集成原型系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号