基于Hadoop的RSS内容抓取与排版系统的开发

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

在过去的几年里，互联网技术和云计算技术由于分布式存储与可伸缩的弹性服务等优点，极大推动了社会各方面的发展。对传统内容提供商和出版行业造成了冲击也带来了机遇。传统的出版物：新闻报纸、杂志、书籍的生成过程大部分是一个手动过程，成本较高，速度慢，样式死板，选择少。在此背景下，本文开发了一个RSS内容抓取与排版系统，利用Hadoop实现自动地分布式抓取RSS源内容并且解析网页内容，根据客户订阅的内容按模板自动生成出版物，并将其传送到与网络连接的打印机。
　　首先，本文分析了基于Hadoop的RSS内容抓取与排版系统的功能需求与非功能需求，并进行了架构设计。系统采用分布式架构，分为五大子系统:
　　①Portal子系统，是开放式的服务提供的公共门户，负责发布内容、注册出版物、并订阅出版物；
　　②Job Server子系统，负责任务调度，将Portal服务进行任务拆分、分发和协调；
　　③Webkit Cluster子系统，负责互联网上的网页抓取；
　　④Algorithm Cluster子系统，基于map reduce框架实现网页内容的快速提取；
　　⑤Layout Engine Cluster子系统，实现自动排版及出版物生成。
　　接着，本文对Job Server和Layout Engine Cluster这两个子系统进行了详细设计和实现，设计了核心流程和多层结构，研究和实现了以下关键技术：基于高效动态并发框架上的任务调度；采用ActiveMQ、Redis、MongoDB和HDFS提供灵活高效的数据存储和访问服务；通过自动排版算法，生成高质量的出版物。
　　最后，本文对本系统进行了配置测试、故障测试、功能测试和性能测试，测试结果表明，系统能同时支持10000个在线用户数，达到了预期的目标。目前本系统已在惠普公司个人打印服务事业部进行了成功实施，既实现了出版商的运营成本的降低，又以选定的模板快速地将输出物，提供给客户，平均成本非常小，省去了人工成本，而且生成PDF的时间从2个小时下降到2分钟。上线近10个月后，平均生成一个出版物的成本从12.50美元降到了4.31美元。

著录项

作者
李磊;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科软件工程
授予学位硕士
导师姓名沈备军;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
Hadoop平台; 简易信息聚合; 内容提取; 排版系统; 架构设计;

相似文献

中文文献
外文文献
专利

1. 基于内容管理软件的RSS聚合实现——以TRS WCM内容协作平台为例 [J] . 李悦 . 软件导刊 . 2015,第001期
2. 基于与X-steel连接的板材排版系统开发 [J] . 李挺前 ,符秀全 ,张世亮 . 广东化工 . 2012,第001期
3. 基于RSS信息服务联盟的内容聚合技术研究 [J] . 陈峰 ,熊励 . 计算机技术与发展 . 2009,第001期
4. 基于P2P的RSS内容分发系统研究与实现 [J] . 卢良进 ,万健 ,徐向华 . 杭州电子科技大学学报 . 2008,第002期
5. 基于自适应用户模型的RSS内容过滤 [J] . 曾丽敏 ,章勇 . 江南大学学报（自然科学版） . 2007,第006期
6. 基于RSS的媒体内容聚合器的研究与实现 [C] . 曹三省 . 第九届全国互联网与音视频广播发展研讨会 . 2009
7. 基于RSS的自适应抓取服务的研究与实现 [A] . 陈杰 . 2010

基于Hadoop的RSS内容抓取与排版系统的开发

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅