基于生物医学文献数据的分布式爬虫项目设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速发展，人们对于海量数据的发掘和应用，预示着新一波生产率增长和消费者盈余浪潮的到来。国际数据公司的研究结果统计，2011年全球产生的数据量高达1.82 ZB。与此同时，由于蛋白质测序技术、基因测序技术的突破更一步促进了生命科学领域数据的飞速增长。生命科学领域的数据已经达到了惊人的地步，相关医学文献的数据资源也随之暴涨。但是，医学研究者和医疗工作者对于医疗文献的利用有缺陷，无法发挥文献最大价值，因此，对于医疗文献数据的爬虫和分析具有非常重要的价值。
　　本文先研究了网络爬虫的基本原理，网络爬虫的分类和网页分析算法。对于反爬虫，分布式爬虫框架Scrapy和动态网页抓取技术进行了介绍，由此提出了Scrapy-Redis-Selenium+PhantomJS的分布式爬虫框架来实现对于PubMeb网站的爬虫系统。系统主要实现相关主题文献的标题和摘要的数据提取。最后为了方便于用户使用，提出用Qt开发框架来实现爬虫系统的UI界面，使得用户能够更加方便的操作使用爬虫。最后，对本文进行了总结，提出了进一步优化的方向。
　　总之，本文的主要在于设计实现基于生物医学数据的分布式爬虫，该系统开发过程容易，扩展方便。系统设计和实现解决了以往爬虫对动态网页支持的问题，同时信息采集速度得到了提高。为PubMeb网页的分布式爬虫提供了技术手段，能够更好的获取相关医学文献数据。

著录项

作者
高扬;
展开▼
作者单位

宁夏大学;

展开▼
授予单位宁夏大学;
学科计算机技术
授予学位硕士
导师姓名杜方;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类专用应用软件;
关键词
分布式爬虫系统; 数据提取; 动态网页; 采集速度; 生物医学数据;

相似文献

中文文献
外文文献
专利

1. 基于API服务器的爬虫项目设计与实现 [J] . 王予诺 . 电子技术与软件工程 . 2020,第002期
2. 外文生物医学期刊文献服务系统和NSTL外文生物医学文献数据库比较分析 [J] . 杨久英 . 医学信息学杂志 . 2008,第008期
3. 基于中国生物医学文献数据库的宫颈癌治疗相关文献可视化分析 [J] . 杨小娟 ,王东亮 ,李亚婷 . 西北国防医学杂志 . 2021,第002期
4. 基于中国生物医学文献数据库的ICU谵妄护理文献计量学分析 [J] . 井杰 ,郭海凌 ,孙建华 . 护理管理杂志 . 2017,第007期
5. 基于1995—2009年中国生物医学期刊文献数据库温病学文献计量分析 [J] . 于琦 ,崔蒙 ,李园白 . 北京中医药 . 2010,第9期
6. 基于MeSH的生物医学文献智能检索系统设计与实现 [C] . Xia Guanghui ,夏光辉 ,Li Junlian . 中国医学科学院/北京协和医学院医学信息研究所/图书馆2010年学术年会 . 2011
7. 基于生物医学文献数据的命名实体识别并行算法研究 [A] . 江林刚 . 2015

基于生物医学文献数据的分布式爬虫项目设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅