摘要
第一章 绪论
第一节 课题研究背景
第二节 国内外研究现状
一、聚焦爬虫研究现状
二、网页分类研究现状
三、网页关键信息抽取研究现状
四、网页抓取策略研究现状
第三节 VC6.0平台
第四节 本文所做的工作
第二章 相关关键技术
第一节 聚焦爬虫相关技术
一、通用爬虫
二、聚焦爬虫
第二节 网页分类
一、支持向量机
二、贝叶斯分类算法
三、KNN分类算法
第三节 网页关键信息提取
第四节 网页抓取策略
一、广度优先策略
二、最佳优先策略
第三章 基于向量空间模型的算法设计
第一节 向量空间模型
第二节 与算法有关的相关定义
第三节 算法的体系结构
第四节 算法的模块化实现
一、百度搜索模块
二、聚焦爬虫模块
第四章 相关算法的实现
第一节 实现百度搜索中提取相关URL
一、通过关键词对单页源码中URL提取的实现
二、对单个关键词进行URL提取
三、对多个关键词进行URL无重复提取
第二节 聚焦搜索准备
第三节 聚焦搜索实现
第四节 对抓取结果的统计分析
第五章 总结与展望
参考文献
攻读学位期间发表的学术论文目录
致谢
声明