首页> 中文学位 >基于生物医学文献数据的分布式爬虫项目设计与实现
【6h】

基于生物医学文献数据的分布式爬虫项目设计与实现

代理获取

目录

声明

摘要

第一章 绪论

1.1 论文背景及研究意义

1.2 研究问题

1.2.1 常用的中外生物医学数据库

1.2.2 研究目标

1.3 本文工作

1.4 本文结构

1.5 本章小结

第二章 网络爬虫研究

2.1 网络爬虫基础

2.1.1 基本原理

2.1.2 通用网络爬虫策略

2.1.3 网页爬虫的分类

2.1.4 网页分析算法

2.2 聚焦网络爬虫

2.3 反爬虫

2.3.1 反爬虫的三种方式

2.4 分布式爬虫

2.4.1 分布式爬虫架构

2.4.2 开源的爬虫框架

2.5 Scrapy框架

2.5.1 Scrapy框架结构

2.6 Scrapy-Redis原理

2.6.1 Redis简述

2.6.2 Scrapy-Redis流程及其组件

2.6 动态网页抓取技术

2.6.1 Ajax动态加载技术

2.6.2 动态脚本解析

2.6.3 PhantomJS和WebDriver

2.8 Qt开发框架

2.8.1 Qt简述

2.8.2 Qt的优势

2.9 本章小结

第三章 分布式爬虫设计方案

3.1 系统需求分析

3.1.1 需求分析

3.1.2 系统目标

3.2 系统概要设计

3.2.1 总体架构设计

3.2.2 爬虫策略设计

3.2.3 抓取字段设计

3.2.4 动态网页抓取方法的设计

3.2.5 爬虫分布式设计

3.2.6 反爬虫

3.2.7 存储设计

3.2.8 桌面程序设计

3.3 本章小结

第四章 分布式爬虫系统的实现及系统测试

4.1 爬虫的实现

4.1.1 数据定义的实现

4.1.2 数据抓取的实现

4.1.3 数据处理的实现

4.2 动态网页抓取的实现

4.3 反爬虫的实现

4.4 分布式爬虫实现

4.4.1 爬虫调度

4.4.2 队列管理

4.5 数据存储的实现

4.6 爬虫桌面程序的实现

4.6.2 信号/槽实现

4.7 系统测试

4.7.1 测试环境

4.7.2 系统运行展示

4.7 本章小结

第五章 总结与展望

5.1 总结

5.2 未来展望

参考文献

致谢

展开▼

摘要

随着互联网的快速发展,人们对于海量数据的发掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。国际数据公司的研究结果统计,2011年全球产生的数据量高达1.82 ZB。与此同时,由于蛋白质测序技术、基因测序技术的突破更一步促进了生命科学领域数据的飞速增长。生命科学领域的数据已经达到了惊人的地步,相关医学文献的数据资源也随之暴涨。但是,医学研究者和医疗工作者对于医疗文献的利用有缺陷,无法发挥文献最大价值,因此,对于医疗文献数据的爬虫和分析具有非常重要的价值。
  本文先研究了网络爬虫的基本原理,网络爬虫的分类和网页分析算法。对于反爬虫,分布式爬虫框架Scrapy和动态网页抓取技术进行了介绍,由此提出了Scrapy-Redis-Selenium+PhantomJS的分布式爬虫框架来实现对于PubMeb网站的爬虫系统。系统主要实现相关主题文献的标题和摘要的数据提取。最后为了方便于用户使用,提出用Qt开发框架来实现爬虫系统的UI界面,使得用户能够更加方便的操作使用爬虫。最后,对本文进行了总结,提出了进一步优化的方向。
  总之,本文的主要在于设计实现基于生物医学数据的分布式爬虫,该系统开发过程容易,扩展方便。系统设计和实现解决了以往爬虫对动态网页支持的问题,同时信息采集速度得到了提高。为PubMeb网页的分布式爬虫提供了技术手段,能够更好的获取相关医学文献数据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号