公开/公告号CN102073706A
专利类型发明专利
公开/公告日2011-05-25
原文格式PDF
申请/专利权人 北京锐安科技有限公司;
申请/专利号CN201010616483.X
申请日2010-12-30
分类号G06F17/30(20060101);
代理机构北京君尚知识产权代理事务所(普通合伙);
代理人余功勋
地址 100044 北京市海淀区中关村南大街乙56号方圆大厦9层
入库时间 2023-12-18 02:39:01
法律状态公告日
法律状态信息
法律状态
2018-07-20
专利权质押合同登记的生效 IPC(主分类):G06F17/30 登记号:2018110000015 登记生效日:20180627 出质人:北京锐安科技有限公司 质权人:中国建设银行股份有限公司北京中关村分行 发明名称:分布式文件存储系统和关系数据库的结合应用方法 授权公告日:20130213 申请日:20101230
专利权质押合同登记的生效、变更及注销
2018-04-20
专利权质押合同登记的注销 IPC(主分类):G06F17/30 授权公告日:20130213 登记号:2014990000497 出质人:北京锐安科技有限公司 质权人:中国建设银行股份有限公司北京中关村分行 解除日:20180327 申请日:20101230
专利权质押合同登记的生效、变更及注销
2014-08-27
专利权质押合同登记的生效 IPC(主分类):G06F17/30 登记号:2014990000497 登记生效日:20140623 出质人:北京锐安科技有限公司 质权人:中国建设银行股份有限公司北京中关村分行 发明名称:分布式文件存储系统和关系数据库的结合应用方法 授权公告日:20130213 申请日:20101230
专利权质押合同登记的生效、变更及注销
2013-02-13
授权
授权
2011-07-06
实质审查的生效 IPC(主分类):G06F17/30 申请日:20101230
实质审查的生效
2011-05-25
公开
公开
查看全部
技术领域
本发明涉及数据挖掘领域,具体涉及分布式文件存储系统和关系数据库(RDBMS)的结合应用方法。
背景技术
当前的关系型数据库应用分为两种方式:
对数据进行实时的查询,及时响应用户的请求,对数据分析做到及时反馈。
在已有的数据的基础上进行数据挖掘的工作,也就是针对历史数据进行分析从而从中提炼出有用的数据结果集合。
以上两种数据库的应用模式,在数据量不大的情况下,对数据的读写操作是相当有优势的。但是对于数据呈数量级的增长之后,数据的频繁录入和频繁读取,将直接导致I/O(输入/输出接口)的操作出现瓶颈,数据查询效率低下。因为所有的数据都在实时的录入和读取,同时,一些常规的数据挖掘工作也在进行,所以写入和读出的操作同时进行将导致数据查询速度缓慢,严重影响用户体验和数据库使用的效果。
发明内容
本发明的目的是提供一种技术方案来解决关系数据库因频繁录入和读取导致的查询速度降低的问题,本发明的申请人通过分析得知,一部分数据内容并非是需要实时的反馈结果,而是需要更进一步挖掘和分析的数据;但有些数据确实是需要实时的结果反馈。所以基于此,对数据的实时性要求就可以做出区分。通过区分数据的实时性要求,可设计出数据库压力缓解的方法。因此,本发明的技术方案———分布式文件存储系统和关系型数据库的结合应用方法,就解决了关系型数据库在应用中I/O瓶颈导致的查询效率低下的问题。
本发明的内容如下:
1、将待录入数据库的数据区分为高实时性数据和低实时性数据;
2、将高实时性数据输入关系型数据库,用以配合高实时的查询请求,给用户带来更为人性化的体验和感受。
3、将低实时性数据输入分布式文件系统,进行数据后续处理;
4、将数据后续处理的结果输入关系型数据库,提供用户进行查询或是提供给数据库做二次分析的依据。
所述高实时性数据是查询响应时间低于阈值的数据;低实时性数据是查询响应时间高于阈值的数据。
所述关系数据库在线响应数据查询请求。
所述分布式文件存储系统线下进行数据后续处理。
所述数据后续处理包括线下数据挖掘和分析。
所述查询响应时间的阈值为8-10秒。
所述数据后续处理的结果转换为符合关系型数据库的数据格式后输入关系型数据库。
本发明的优点和积极效果如下:
在现实数据分析领域,尤其是近年来电子商务的兴起,数据量成指数级增长,单纯的关系数据库已无法应付这样大级别的数据查询和分析,而本发明将数据查询和分析分开进行,达到了解决这个问题的目的。,本发明的方法降低了关系数据库的查询压力,提高了查询的响应速度。
其具体的优点如下:
1、可带来良好的用户体验,对数据后续处理提供有力的基础保障。
2、数据的分类带来良好的数据结构和关系。
3、挖掘分析工作是实时查询工作的剥离,将直接提升数据的提炼效果。
4、缓解了当前关系型数据库的压力,同时对数据的分析更加完善。
附图说明
图1是本发明的框架结构图
具体实施方式
下面详细说明本发明的方法的步骤。
a)制定数据拆分的实时性原则,响应的阈值时间要求是8-10秒以内为高实时性数据,否则为低实时性数据。具体阈值时间可以结合实际应用的具体业务进行确定。
b)对数据源的数据进行拆分,主要是2个部分的内容,高实时性数据集合和低实时性数据集合。
c)将划分完成的数据内容进行存放。高实时性数据存放在关系型数据库,低实时性数据存放在分布式文件存储系统中。
d)分布式文件存储系统安装,并接收低实时性的数据结果集合
e)对接收的数据结果集合进行存放。
f)进行数据结果的线下挖掘和分析工作,并产出数据结果集合。
挖掘的结果集合的输出:
1.对挖掘的数据结果集合进行格式转换,转换为符合关系型数据库要求的数据格式。
2.将转换后的数据的结果集合存放到关系型数据库。
关系型数据库的数据存放:
1、对关系型数据库的内容进行数据存放。
2、存放的数据类型主要是高实时性的数据以及分布式文件系统挖掘分析后的数据结果集合。
关系数据库中的数据可供用户进行在线的实时查询。具有比常规技术中的关系数据库更快的查询响应速度。本发明的框架结构参见图1。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
机译: 结合信息生命周期管理和分布式全局文件系统的网络存储系统
机译: 支持关系数据库记录和可用于分布式文件系统的链接外部文件的客户端-服务器过滤器计算系统
机译: HDFS中的分布式文件存储系统(HADOOP分布式文件系统)及其提供方法