声明
摘要
1.绪论
1.1 课题背景与意义
1.2 国内外研究现状
1.2.1 网页信息形式化组织研究现状
1.2.2 信息抽取技术研究现状
1.3 论文研究思路及创新点
1.4 论文组织结构
2.网页信息抽取相关技术介绍
2.1 网页信息抽取概念
2.2 网页信息抽取关键技术
2.2.1 HTML
2.2.2 XML
2.2.3 DOM
2.2.4 正则表达式
2.3 网页信息抽取评价标准
2.4 本章小结
3.网页信息形式化描述模型
3.1 网页信息形式化描述概念及原理
3.1.1 网页信息形式化描述概念
3.1.2 网页信息形式化组织原理
3.2 网页信息粒度模型
3.3 网页形式化模型优点
3.4 本章小结
4.基于结构与视觉相结合的信息抽取算法改进
4.1 网页结构分析技术
4.1.1 利用DOM树分析页面结构
4.1.2 利用HTML标签特性分析
4.1.3 利用网页视觉特征
4.2 网页DOM结构预处理
4.2.1 HTML格式标准化
4.2.2 网页噪声信息清除
4.2.3 DOM树节点标记信息处理
4.3 基于DOM结构的HTML标签分析
4.3.1 HTML结构性标签分析
4.3.2 HTML可视性标签分析
4.4 文本视觉特征提取与处理
4.4.1 基于CSS样式的视觉特征处理
4.4.2 基于文本特征的视觉特征处理
4.5 基于提取特征的块聚类
4.6 阈值的分析与确定
4.6.1 标签阈值
4.6.2 文本阂值
4.7 本章小结
5.仿真及应用实验系统设计
5.1 传统网站移动化系统简介
5.2 实验环境
5.3 仿真实验系统架构设计
5.3.1 信息抽取模块
5.3.2 网页预处理模块
5.3.3 DOM结构处理模块
5.3.4 视觉信息处理模块
5.3.5 信息块处理模块
5.3.6 超链接处理模块
5.4 仿真实验结果及分析
5.4.1 网页抽取与组织实验
5.4.2 运行结果分析
5.5 应用系统实验结果及分析
5.5.1 应用及优势
5.5.2 运行效果演示
5.6 本章小结
6.总结与展望
6.1 主要工作
6.2 主要创新点
6.3 存在问题及未来方向
参考文献
个人简历
在校期间研究成果
致谢