首页> 中文学位 >基于大数据处理的商业信息搜索优化方案的设计与实现
【6h】

基于大数据处理的商业信息搜索优化方案的设计与实现

代理获取

目录

声明

致谢

摘要

1绪论

1.1 研究背景及意义

1.2 国内外相关研究现状

1.3 问题发现与解决思路

1.4 论文主要工作

1.5 论文结构

1.6 本章小结

2相关理论与技术

2.1 开源大数据框架

2.1.1 分布式处理框架-Hadoop

2.1.3 分布式存储系统-Hbase

2.1.4 分布式全文搜索引擎-ElasticSearch

2.2.1 数据仓库技术-ETL

2.2.2 物化视图

2.2.3 二级索引

2.3 数据序列化的系统-Apache Avro

2.4 Web开发框架-JFinal

2.5 状态机

2.6 本章小结

3系统需求分析

3.1 系统业务范围及业务需求分析

3.2 系统功能性需求分析

3.2.1 数据管理模块需求分析

3.2.2 规则转化模块需求分析

3.2.3 数据处理模块需求分析

3.2.4 任务调度模块需求分析

3.3 系统非功能性需求分析

3.4 本章小结

4系统概要设计

4.1 架构设计

4.2 功能模块概要设计

4.2.1 数据管理模块概要设计

4.2.2 数据处理模块概要设计

4.2.3 规则转化模块概要设计

4.2.4 任务调度模块概要设计

4.3 数据库的设计

4.3.1 数据库概念模型设计

4.3.2 数据库逻辑模型设计

4.3.3 数据库物理模型设计

4.4 本章小结

5系统详细设计与实现

5.1 数据管理模块的详细设计与实现

5.2 数据处理模块的详细设计与实现

5.3 规则转化模块的详细设计与实现

5.4 任务调度模块的详细设计与实现

5.5 重点难点部分设计

5.5.1 TypeExtract

5.5.2 DataNormalize

5.5.3 InternalIndex

5.5.4 Enrichment

5.5.5 过载保护

5.6 本章小结

6系统测试与实现效果

6.1 系统环境测试

6.2 系统功能测试

6.2.1 数据处理模块测试

6.2.2 规则转化模块测试

6.2.3 任务调度模块测试

6.3 非功能性测试

6.4 实现效果展示

6.5 本章小结

7总结与展望

7.1 工作总结

7.2 工作展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

随着经济的发展,商业数据信息已经成为个人和企业规划的一个重要参考因素。而大数据技术的发展,提高了人们处理数据的能力,使人们可以更有效地利用数据。Eikon是汤森路透最重要金融信息服务平台。它为全球想从交易与投资机会中获利的金融专业人士提供强大的商业市场信息、分析和独家新闻组合。但是,由于目前需要处理的数据量过大,且预计还会继续增大,导致Eikon在执行数据更新、搜索、维护方面效率低下。且当前数据集扩展性不高,扩容和维护成本巨大。
  本人希望对Eikon数据集进行重构,这样既能提高数据搜索、维护的性能,又能降低数据集的扩展和维护的成本,从而提高整个Eikon的易用性。基于以上目标,本方案的基本思想是利用空间换取时间。利用大数据处理技术,对数据按照一定的逻辑进行关联,形成数据视图。当逻辑视图建立起来后,它将被作为SQL的查询语句的结果生成出来,并存储在Hbase中。当用户请求数据查询时,现有复杂的SQL查询语句会被一个更快的更简单的数据库数据获取、扫描所代替。这样,不仅有助于用户高效的使用数据,也有助于系统高效的维护、更新数据。该解决方案会以系统项目的形式进行实现。在整个项目方案的设计与研发过程中,本人主要负责数据管理模块、数据处理模块、规则转化模块、任务调度模块的设计与开发工作。整个项目基于Linux平台,选择Spark+Hadoop+Hbase开源大数据架构,使用Scala+Python语言,保证了本方案具有较强的可扩展性。
  本文以构建新型结构的数据集为研究目标,对商业信息的分析和树形数据结构的构建等关键技术进行了研究。目前,该方案第一版本系统的开发工作已经结束,目前正处于试运行阶段。运行效果符合方案的设计目标。运行期间积极接收用户和数据的反馈,用于将来的更新与改进。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号