声明
摘要
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.2.3 目前研究成果的不足
1.3 研究主要内容和研究目标
1.4 文章的组织结构
第2章 WEB信息提取相关技术
2.1 XML及相关标准
2.1.1 XML
2.1.2 DOM
2.1.3 XSL
2.2 WEB信息提取技术概述
2.2.1 WEB信息提取与信息检索的区别
2.2.2 WEB信息提取的分类
2.2.3 WEB信息提取评价标准
2.3 本章小结
第3章 系统设计思路和获取待提取页面
3.1 研究概述
3.1.1 基本设计思想
3.1.2 WEB信息提取数据源
3.2 页面预处理
3.2.1 页面清洗
3.2.2 XHTML转换为XML
3.3 解析生成DOM树
3.3.1 标记节点类型
3.3.2 获取节点路径表达式
3.4 本章小结
第4章 获取用户需求和构造提取规则
4.1 定义目标结构
4.1.1 概念描述
4.1.2 构造目标结构
4.2 标记样本
4.2.1 内容映射
4.2.2 结构映射
4.2.3 样本数据映射规则
4.3 构造提取规则
4.3.1 根节点存在结构映射
4.3.2 根节点不存在结构映射
4.4 本章小结
第5章 实验与分析
5.1 实验设计
5.1.1 实验环境
5.1.2 实验数据源
5.1.3 实验内容
5.2 实验评估
5.2.1 简单规则提取
5.2.2 复杂规则提取
5.3 原型系统演示
5.4 本章小结
第6章 总结
6.1 工作总结
6.2 未来工作
参考文献
附录一
附录二
致谢
攻读学位期间所发表的学术论文