首页> 中文学位 >文献异构检索中Deep Web数据集成研究
【6h】

文献异构检索中Deep Web数据集成研究

代理获取

目录

摘要

研究目的及意义

国内外研究现状

本文的创新点

本文的组织结构

3.1DeepWeb数据集成机制

3.1.1DeepWeb数据集成技术

3.1.2两种DeepWeb数据集成机制

3.1.3科技文献异构数据库共享检索平台中的集成机制确定

3.2DeepWeb数据集成关键技术

3.2.1DeepWeb数据的特点

3.2.2DeepWeb数据抽取方法

3.2.3DeepWeb页面与DOM树的对应

3.2.4查询结果排序处理技术

3.3一种基于DOM树匹配的DeepWeb自动抽取算法

3.3.1算法主要思想

3.3.2DOM树匹配计算算法

3.3.3数据区域识别算法

3.3.4抽取规则生成

3.3.5实验分析

3.4一种基于Lucene的改进排序算法

3.4.1算法主要思想

3.4.2词和文档的位置关系度量

3.4.3基于Lucene的改进排序算法

3.4.4实验分析

4.1DeepWeb异构数据集成解决方案

4.1.1项目建设的需求

4.1.2项目的技术难点和关键问题分析

4.1.3开发技术架构

4.1.4科技文献的异构数据集成框架

4.2基于DOM树匹配的DeepWeb抽取算法实现

4.2.1设计原理及目标

4.2.2系统设计结构

4.2.3抽取子系统工作流程

4.2.4自动抽取方法的实现

4.3基于Lucene的改进排序算法实现

4.3.1整合流程

4.3.2改进的排序算法算法的实现

4.4相关平台对比

4.4.1项目使用情况

4.4.1检索性能对比

4.4.2综合对比

4.5系统运行部分截图

5.1本文研究工作总结

5.2下一步工作展望

展开▼

摘要

科技文献检索是科研工作者不可或缺的一项重要工作。随着大量以Deep Web形式存在的数字资源不断涌现,科研工作者要获得全面、满意的文献信息,需要将同一查询重复提交到多个Deep Web文献检索站点,导致查询效率很低。因此,应当出现更加有效的Deep Web集成技术来解决当前文献异构检索中存在的问题。
  基于贵州省科技计划项目《科技文献异构数据库共享检索平台》(简称SIUS)的关键技术研发,我们对文献异构检索中的Deep Web集成技术展开了研究,取得了可喜的成果,本文对研究方法和结果做一个总结和阐述。我们在研究中提出一种Deep Web数据集成机制,它结合了虚拟视图法和公共数据仓库法的优点,能够满足检索中对实时性和高效性的要求。在此基础上,提出了两个算法,一个是基于DOM树匹配的Deep Web自动抽取算法,它利用Deep Web页面中数据区域的特点,识别出数据区域,进而产生抽取规则;另一个主要算法是基于Lucene的改进排序算法,该算法在Lucene排序算法的基础上,再引入词频位置加权。实验结果表明,这些方法在Deep Web异构数据集成中能够取得了较好的效果。
  将文中提出的算法在SIUS中实现,SIUS是贵州省内唯一的异构数据检索平台,该平台已通过验收并投入使用,迄今已有200多家单位使用该平台资源,下载各种科技文献50多万篇,访问人数已达20万人次,产生了较好的社会效益和经济效益。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号