首页> 中文学位 >基于Hadoop的RSS内容抓取与排版系统的开发
【6h】

基于Hadoop的RSS内容抓取与排版系统的开发

代理获取

目录

封面

中文摘要

英文摘要

目录

1绪 论

1.1 研究背景

1.2 研究目的和意义

1.3 研究目标和内容

1.4 论文结构

2相关技术

2.1 J2EE

2.2 数据存储技术

2.3 Hadoop

2.4 其他技术

2.5 本章小结

3系统需求分析及架构设计

3.1 系统定位

3.2 系统功能需求分析

3.3 系统非功能性需求分析

3.4 系统逻辑架构

3.5 Hadoop在系统中的应用

3.6 系统部署图

3.7 本章小结

4Job Server子系统的详细设计与实现

4.1 子系统的上下文图

4.2 子系统的服务

4.3 子系统的多层结构设计

4.4 接口定义

4.5 任务调度的详细设计与实现

4.6 数据文件存储的详细设计与实现

4.7 数据文件读取的详细设计与实现

4.8 本章小结

5Layout Engine Cluster子系统的详细设计与实现

5.1 子系统的上下文图

5.2 子系统的多层结构设计

5.3 接口定义

5.4 自动排版的详细设计与实现

5.5 本章小结

6系统测试与应用

6.1 系统测试

6.2 系统的应用情况

6.3 本章小结

7总结与展望

7.1 本文工作小结

7.2 展望

参考文献

致谢

攻读学位期间发表的学术论文

声明

答辩决议书

展开▼

摘要

在过去的几年里,互联网技术和云计算技术由于分布式存储与可伸缩的弹性服务等优点,极大推动了社会各方面的发展。对传统内容提供商和出版行业造成了冲击也带来了机遇。传统的出版物:新闻报纸、杂志、书籍的生成过程大部分是一个手动过程,成本较高,速度慢,样式死板,选择少。在此背景下,本文开发了一个RSS内容抓取与排版系统,利用Hadoop实现自动地分布式抓取RSS源内容并且解析网页内容,根据客户订阅的内容按模板自动生成出版物,并将其传送到与网络连接的打印机。
  首先,本文分析了基于Hadoop的RSS内容抓取与排版系统的功能需求与非功能需求,并进行了架构设计。系统采用分布式架构,分为五大子系统:
  ①Portal子系统,是开放式的服务提供的公共门户,负责发布内容、注册出版物、并订阅出版物;
  ②Job Server子系统,负责任务调度,将Portal服务进行任务拆分、分发和协调;
  ③Webkit Cluster子系统,负责互联网上的网页抓取;
  ④Algorithm Cluster子系统,基于map reduce框架实现网页内容的快速提取;
  ⑤Layout Engine Cluster子系统,实现自动排版及出版物生成。
  接着,本文对Job Server和Layout Engine Cluster这两个子系统进行了详细设计和实现,设计了核心流程和多层结构,研究和实现了以下关键技术:基于高效动态并发框架上的任务调度;采用ActiveMQ、Redis、MongoDB和HDFS提供灵活高效的数据存储和访问服务;通过自动排版算法,生成高质量的出版物。
  最后,本文对本系统进行了配置测试、故障测试、功能测试和性能测试,测试结果表明,系统能同时支持10000个在线用户数,达到了预期的目标。目前本系统已在惠普公司个人打印服务事业部进行了成功实施,既实现了出版商的运营成本的降低,又以选定的模板快速地将输出物,提供给客户,平均成本非常小,省去了人工成本,而且生成PDF的时间从2个小时下降到2分钟。上线近10个月后,平均生成一个出版物的成本从12.50美元降到了4.31美元。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号