文摘
英文文摘
声明
第1章 绪论
1.1问题的提出及意义
1.2研究内容
1.3论文结构
第2章 相关知识
2.1信息抽取
2.1.1数据的组织形式
2.1.2信息抽取概述
2.1.3 Web信息抽取概述
2.2 HTML
2.2.1 HTML的历史
2.2.2 HTML基本语法
2.2.3 HTML的特点
2.3 DOM
2.3.1 DOM的定义及特点
2.3.2 DOM的一些操作
2.4网页正文的定义
2.5本章小结
第3章 研究现状
3.1基于统计的方法
3.2基于DOM的方法
3.3基于网页分块的方法
3.4基于标签窗的方法
3.5基于模板的方法
3.6本章小结
第4章 网页正文抽取
4.1网页预处理
4.1.1字符编码问题
4.1.2网页规范化
4.1.3噪音信息过滤
4.2 DTE算法与模板生成
4.2.1节点类型定义
4.2.2节点比较算法
4.2.3 DOM树匹配算法
4.2.4候选子树中评论信息发现
4.3处理节点内容
4.3.1构造正文特征向量T
4.3.2抽取网页标题
4.3.3内容块中图片、表格等信息的处理
4.4使用模板抽取网页正文
4.5本章小结
第5章 原型系统的实现及实验
5.1工作环境
5.2原型系统的设计与实现
5.3实验与分析
5.3.1评价标准
5.3.2实验数据集
5.3.3实验结果及分析
5.4本章小结
第6章 结论与展望
6.1论文总结
6.2进一步的工作
致谢
参考文献
攻读学位期间的研究成果
南昌大学;