首页> 中文学位 >限定主题的智能网络爬行器研究
【6h】

限定主题的智能网络爬行器研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1研究背景及意义

1.2问题的定义

1.2.1主题的定义

1.2.2基本假设和符号

1.3国内外相关研究综述

1.4网络信息处理基础

1.4.1网络信息描述语言

1.4.2网页的信息提取

1.5本文的主要内容及结构

第2章网络爬行器

2.1已访问链接列表

2.2下载页面的存储

2.3获取网页

2.4解析网页

2.5链接地址的绝对化

2.6本章小结

第3章限定主题的智能网络爬行器爬行策略

3.1基于内容的爬行策略

3.1.1中文的分词处理

3.1.2文本向量模型简介

3.1.3文本相似度计算

3.1.4基于网页内容的爬行策略

3.2基于网络拓扑结构的爬行策略

3.2.1利用反向链接数指导爬行

3.2.2利用PageRank值指导爬行

3.3本章小结

附图

第4章实验及结果

4.1实验平台的搭建

4.1.1数据集的准备

4.1.2网页净化

4.1.3用文本分类的方法标注出主题页面

4.2实验结果及分析

4.2.1在“网球”主题上的性能

4.2.2在“田径”主题上的性能

4.2.3结果分析

结论

参考文献

附录一所采集到的新浪体育的数据集(部分)

附录二从训练语料中得到的主题词表(部分)

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明和使用授权书

致谢

展开▼

摘要

本文讨论限定主题的网络爬行问题.本文中给出了一个一般的网络爬行器的结构,介绍并实现了两种类型的网络爬行策略:基于内容的限定主题的爬行和基于网络拓扑结构的限定主题的爬行.本文中提出的方法综合使用了页面内容信息与链接文本来指导网络爬行器的爬行,实验结果显示这是一种寻找主题相关页面的很有效的方法.本文中提出了一种新颖的评价方法.我们首先采集了大量的页面并建立了一个数据集,然后将这个数据集中的页面用一个SVM分类器分成三个不同的领域(网球、田径、其它),我们把这些分类结果看成是正确答案.然后,我们在这个数据集上用不同的爬行算法来运行虚拟的爬行来评价这些爬行算法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号