文摘
英文文摘
论文说明:图表目录
声明
第1章 绪论
1.1 Web信息抽取研究综述
1.1.1研究背景与意义
1.1.2国内外文献综述
1.2垂直搜索引擎原理及信息抽取的应用
1.3本文所做的主要工作
1.4本文组织安排
1.5 小结
第2章 Web信息抽取技术概述
2.1引言
2.2 Web信息抽取评价标准
2.3基于知识工程的方法
2.4基于自动训练的方法
2.4.1基于统计学习的方法
2.4.2基于模式分析的方法
2.4.3基于归纳学习的方法
2.5基于DOM树的Web信息抽取技术
2.6小结
第3章 Web信息抽取系统
3.1引言
3.2 Web信息抽取系统的分类
3.3主要Web信息抽取系统介绍
3.4垂直搜索引擎中信息抽取系统的构成
3.4.1模板检测
3.4.2模板生成
3.4.3数据抽取
3.5小结
第4章 基于页面布局的模板检测研究
4.1引言
4.2基于页面布局的网页聚类算法
4.2.1树编辑距离
4.2.2网页结构相似性计算
4.2.3基于页面布局的网页聚类算法
4.3实验及分析
4.4小结
第5章 模板生成与数据抽取算法研究
5.1引言
5.2模板生成
5.2.1网页模板表示
5.2.2 DOM树到扩展DOM树的转化
5.2.3基于聚类的模板混合生成算法
5.3数据抽取
5.3.1网页对象定义
5.3.2网页对象标注与抽取
5.4实验及分析
5.5小结
第6章 垂直搜索引擎中网页对象抽取系统实现
6.1引言
6.2商业搜索引擎的特殊性
6.3基于商业考虑的系统优化
6.3.1 URL模式分析
6.3.2搜集路径优化
6.3.3实验及分析
6.4系统设计
6.5系统实现
6.5.1数据格式
6.5.2系统界面
6.6小结
结论
参考文献
致谢
附录