文摘
英文文摘
论文说明:图表目录
声明
第1章 绪论
1.1课题背景及意义
1.2本文主要工作
1.3本文结构
1.4本章小结
第2章 理论基础与相关工作
2.1 Web信息抽取
2.1.1 Web信息抽取的发展
2.1.2 Web信息抽取的主要方法
2.1.3 Web信息抽取效果的评估
2.1.4 Web模板抽取的方法与应用
2.2分类器技术
2.2.1朴素贝叶斯分类器
2.2.2支持向量机
2.2.3决策树归纳
2.3其他相关理论与技术
2.3.1分词技术
2.3.2词干提取
2.4本章小结
第3章 候选导航链接提取
3.1问题描述
3.2总体流程
3.3数据结构
3.3.1 DOM树
3.3.2重叠树
3.3.3分层的重叠树
3.4算法设计
3.4.1重叠树的生成
3.4.2分层的重叠树的生成
3.4.3重叠树中模板的提取
3.4.4模板中候选链接的提取
3.5本章小结
第4章 导航页面与导航链接的识别
4.1问题描述
4.2导航页面的识别
4.2.1导航页面概念
4.2.2导航页面分类的必要性
4.2.3导航网页特征
4.3面向盲人的导航链接分类
4.3.1链接分类的处理流程
4.3.2导航链接的特征
4.4页面与链接的分类算法
4.5本章小结
第5章 系统设计与效果评估
5.1系统设计与实现
5.1.1系统架构
5.1.2运行环境
5.2实验与结果评估
5.2.1基于重叠树的模板抽取效果评估
5.2.2导航型页面识别效果评估
5.2.3导航链接识别效果评估
5.2.4候选链接提取效果评估
5.3本章小结
第6章 总结与展望
6.1本文工作总结
6.2未来工作展望
参考文献
攻读硕士学位期间主要的研究成果
致谢