文摘
英文文摘
论文说明:插图索引、附表索引
湖南大学学位论文原创性声明及版权使用授权书
第1章绪论
1.1概述
1.2主题爬取技术的研究现状
1.3现有主题爬取技术存在的问题和不足
1.4选题背景及意义
1.5本文的主要工作和创新点
1.5.1本文的主要工作
1.5.2本文的创新点
1.6本文的组织结构
1.7小结
第2章主题爬取的相关技术基础
2.1 Web页面爬取原理
2.1.1操作表示
2.1.2爬取机理
2.1.3 Web页面爬取
2.2网络机器人关键技术
2.2.1分析HTTP协议
2.2.2网络机器人排斥机制
2.3小结
第3章基于概念树的主题爬取方法
3.1概念及概念树
3.2基于概念树的主题搜索机器人的工作原理
3.2.1系统结构
3.2.2算法步骤
3.3基于概念树的主题爬取方法的关键技术
3.3.1主题层次的构造
3.3.2 HTML的解析
3.3.3基于主题层次的Web文档的自动分类
3.3.4 URL链接的分类与排序
3.3.5地址格式的分析
3.4小结
第4章基于概念树的主题搜索机器人原型实现
4.1模型简化
4.2系统设计与实现
4.2.1程序结构
4.2.2系统结构
4.2.3主要类的属性与方法描述
4.3小结
第5章 实验
5.1实验目的与意义
5.2实验环境
5.3实验比较条件
5.4实验数据
5.5采集率分析
5.6模拟比较实验分析
5.7小结
结论
参考文献
致谢
附录A 攻读学位期间所发表的学术论文目录