文摘
英文文摘
第1章绪论
1.1研究背景及意义
1.2问题的定义
1.2.1主题的定义
1.2.2基本假设和符号
1.3国内外相关研究综述
1.4网络信息处理基础
1.4.1网络信息描述语言
1.4.2网页的信息提取
1.5本文的主要内容及结构
第2章网络爬行器
2.1已访问链接列表
2.2下载页面的存储
2.3获取网页
2.4解析网页
2.5链接地址的绝对化
2.6本章小结
第3章限定主题的智能网络爬行器爬行策略
3.1基于内容的爬行策略
3.1.1中文的分词处理
3.1.2文本向量模型简介
3.1.3文本相似度计算
3.1.4基于网页内容的爬行策略
3.2基于网络拓扑结构的爬行策略
3.2.1利用反向链接数指导爬行
3.2.2利用PageRank值指导爬行
3.3本章小结
附图
第4章实验及结果
4.1实验平台的搭建
4.1.1数据集的准备
4.1.2网页净化
4.1.3用文本分类的方法标注出主题页面
4.2实验结果及分析
4.2.1在“网球”主题上的性能
4.2.2在“田径”主题上的性能
4.2.3结果分析
结论
参考文献
附录一所采集到的新浪体育的数据集(部分)
附录二从训练语料中得到的主题词表(部分)
攻读学位期间发表的学术论文
哈尔滨工业大学硕士学位论文原创性声明和使用授权书
致谢