文摘
英文文摘
声明
第一章绪论
1.1 Web页而区域划分研究的背景及意义
1.2国内外研究现状
1.3本文研究内容
1.4论文的组织
第二章相关技术研究
2.1当前Web页面结构分析及语言规范
2.1.1 HTML语言介绍
2.1.2 XML语言介绍
2.1.3 XHTML语言介绍
2.2 DOM树结构研究
2.2.1 DOM技术介绍
2.2.2 DOM树结构
2.2.3 DOM树的操作
2.3经典VIPS算法
2.4本章小结
第三章Web页面区域划分算法
3.1对VIPS算法的改进
3.1.1引入结构树深度阈值PDoT
3.1.2引入叶子节点数阈值PNoB
3.2改进算法流程与实现
3.2.1改进算法流程
3.2.2可视块提取
3.2.3分割线提取
3.2.4页面内容结构调整
3.3改进算法与原算法的对比实验
3.3.1爬取测试集
3.3.2对比实验
3.4本章小结
第四章基于改进VIPS算法的搜索引擎索引系统
4.1系统结构和模块划分
4.2语义预处理层
4.2.1中文分词技术概述
4.2.2存储中文词典的Trie树模块
4.2.3中文词典读入模块
4.2.4分词模块
4.2.5分词结果统计模块
4.3可视块分类层
4.3.1预处理模块
4.3.2构造分类器模块
4.3.3正文块分类模块
4.4改进的索引系统
4.5本章小结
第五章实验结果与分析
5.1实验数据介绍
5.2实验结果的评价方法
5.3实验结果与分析
5.4本章小结
第六章总结与展望
参考文献
发表论文和科研情况说明
致 谢