首页> 中文学位 >Deep Web数据源发现及Deep Web垂直搜索引擎设计
【6h】

Deep Web数据源发现及Deep Web垂直搜索引擎设计

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 研究背景

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 论文研究内容

1.4 论文结构安排

第二章 Deep Web数据挖掘概述

2.1 Deep Web定义

2.2 Deep Web数据源发现

2.2.1 Deep Web数据源难以发现的原因

2.2.2 Deep Web数据源发现的途径

2.2.3 Deep Web数据源发现相关技术

2.3 Deep Web数据集成框架

2.4 HTML基础知识

2.4.1 HTML概念

2.4.2 HTML表单

2.5 本章小结

第三章 基于特征词复合权重的关联网页分类方法

3.1 引言

3.2 关联规则基本概念

3.3 网页预处理

3.3.1 网页的表示模型

3.3.2 词频统计

3.3.3 特征词的复合权重

3.4 基于特征词复合权重的关联网页分类算法

3.5 实验结果与分析

3.5.1 实验数据及处理

3.5.2 分类性能评价指标

3.5.3 实验结果及分析

3.6 本章小结

第四章 基于决策树和链接相似的查询接口判定方法

4.1 引言

4.2 Deep Web查询接口

4.2.1 Deep Web表单

4.2.2 查询接口特征抽取

4.3 基于决策树的Deep Web查询接口预判定

4.3.1 决策树概念

4.3.2 基于决策树的预判定

4.4 基于链接相似的查询接口二次判定

4.4.1 链接相似基本概念

4.4.2 查询接口二次判定

4.5 实验结果与分析

4.5.1 实验数据及阈值参数分析

4.5.2 实验结果及分析

4.6 本章小结

第五章 Deep Web垂直搜索引擎设计

5.1 背景

5.2 系统总体设计

5.2.1 系统框架

5.2.1 系统功能

5.3 核心模块

5.3.1 图书查询接口发现模块

5.3.2 信息检索模块

5.4 系统实现

5.4.1 开发环境

5.4.2 功能演示界面

5.5 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

随着网络的快速发展,因特网上的信息急剧膨胀,且正在加速深化。按其所蕴含信息的深度可以将Web划分为Surface Web和Deep Web两类。与Surface Web相比,Deep Web信息不仅领域性强,主题专一,而且信息的质量和结构化更好,增长速度也更快。因此,Deep Web数据集成研究正逐渐成为互联网信息检索领域的研究热点。
   Deep Web数据源发现是指在Web中发现可访问的Web数据库,它是DeepWeb数据集成的前提和基础。这一过程涉及许多关键技术,如网页分类、查询接口判定等。
   本文以Deep Web数据源发现为重点,对其所涉及的一些关键技术进行深入研究,并结合所研究的成果,开发了一个面向图书领域的Deep Web垂直搜索引擎原型系统。所做的工作和取得的成果主要体现在以下三个方面:
   (1)网页分类技术。针对网页分类中关联分类方法存在的不足:一、仪把网页当成纯文本处理,忽略了网页的标签信息;二、仅用网页中的特征词作为关联规则的项,没有考虑特征词的权重,或仅以词频来量化权重,忽略了特征词位置特征的影响,提出一种基于特征词复合权重的关联网页分类方法。实验结果表明,考虑网页的标签信息,并以特征词的复合权重为基础建立分类规则,可以提高网页分类的准确率,是一种比传统关联分类方法更好的分类方法。
   (2)查询接口判定技术。针对目前查询接口判定方法误判较多,无法有效区分搜索引擎类接口的不足,提出一种基于决策树和链接相似的Deep Web查询接口判定方法。实验结果表明,该方法能有效区分搜索引擎类接口,在准确率和查全率上取得了比传统接口判定方法更好的效果。
   (3)在上述关键技术研究的基础上,设计并实现了一个面向图书领域的DeepWeb垂直搜索引擎原型系统。实际应用表明,该系统能够为用户提供来自多个Web数据库的图书信息检索,具有一定的实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号