基于SVM的主题爬虫系统研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网规模的不断发展扩大，网络数据呈现出了爆发式的增长，改变了人们的生活，逐渐影响各行各业原有的生产经营模式。网络信息资源主要以网页文本为载体，通过内部链接指向，组成结构复杂的信息网络。通用搜索引擎面向全网络进行网页抓取，信息的急速增长使得其在时效性和覆盖面上都很难得到保证。应运而生的垂直搜索引擎以主题爬虫为核心，专注于单一领域信息，灵活性强，很好的满足了人们对于特定主题信息的查找需求。
　　本论文基于原有的主题爬虫算法框架，针对主题爬虫运行过程中的爬行策略进行研究，采用支持向量机分类模型对网页主题相关性和链接锚文本主题进行分类预测，共同决定待爬取链接的优先级。同时改变链接队列的形式，设置四段式分级链接队列，以提高主题爬虫的工作效率和主题收获率。具体工作内容主要包括：
　　1）对下载的搜狗实验室网页文本语料集进行数据预处理，如利用ICTCLAS进行中文分词、使用卡方检验选取特征列表、通过计算TF-IDF值来设置特征权重。训练支持向量机分类模型，通过特征维数选择、参数寻优得到表现较好的网页文本主题分类器。
　　2）将训练得到的网页文本主题分类器嵌入到通用爬虫系统中，在提取网页内部链接的同时保存对应的锚文本信息，抓取到对应网页后进行主题分类，然后对保存的锚文本进行标注，生成锚文本语料集。基于锚文本语料集进行分类模型训练，得到锚文本主题分类器。
　　3）结合训练得到的两个分类器，嵌入到设计的主题爬虫系统框架中，将URL队列划分为四段链式结构。通过当前网页主题和链接锚文本主题相关性一起决定链接的抓取优先级，压入不同的链中，从而使得主题爬虫能够较快的发现主题相关页面，提高抓取效率。
　　4）以爬虫的抓取速度和主题收获率作为评价指标，对本文中设计的主题爬虫系统进行测试对比，页面抓取速度达到298/min，主题收获率基本稳定在80％以上，通过对比，论证系统的实际可行性及其相对优势。
　　最后利用设计实现的主题爬虫以各大门户网站为入口，进行页面抓取，得到体育类网页集，建立索引库，实现信息检索，完成对抓取数据集的简单应用。

著录项

作者
徐军;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科信息与通信工程
授予学位硕士
导师姓名杨杰;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
支持向量机; 主题爬虫; 搜索引擎; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于SVM主题爬虫的航天情报采集应用研究 [J] . 郭颂 ,边伟 ,刘洋 . 电子设计工程 . 2016,第017期
2. 基于SVM的主题爬虫技术研究 [J] . 李璐 ,张国印 ,李正文 . 计算机科学 . 2015,第002期
3. 网络舆情监控系统中主题网络爬虫的研究与实现 [J] . 方星星 ,鲁磊纪 ,徐洋 . 舰船电子工程 . 2014,第009期
4. 分布式多主题网络爬虫系统的研究与实现 [J] . 白鹤 ,汤迪斌 ,王劲林 . 计算机工程 . 2009,第019期
5. 基于主题网络爬虫的创业政策信息采集研究与实现 [J] . 郑正 ,赵飞 ,周昕旸 . 电脑知识与技术 . 2017,第014期
6. 一种基于URL分类的移动应用商店主题爬虫的研究与实现 [C] . Dong Qiao ,董巧 . 中国移动通信信息安全管理与运行中心第七届信息安全专家论坛 . 2017
7. 基于主题网络爬虫的科研信息管理系统的研究与实现 [A] . 赵庆爱 . 2016

基于SVM的主题爬虫系统研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅