首页> 外文期刊>電子情報通信学会技術研究報告. デ-タ工学. Data Engineering >Cassandraによる局所性を考慮した分散並列処理の提案
【24h】

Cassandraによる局所性を考慮した分散並列処理の提案

机译:考虑到局部性的分布式并行处理的建议

获取原文
获取原文并翻译 | 示例
           

摘要

近年,大量のデータを高速に処理することが必要な場面が増え,分散KVS(Key Value Store)と呼ばれるNoSQL型データベース管理システムが注目され始めた.分散KVSに格納された大容量データを効率よく活用するには,データの並列処理が必要となるが,分散KVSから対象データを取り出した後,再度データを分散させて並列処理を行うと,処理効率が悪くなってしまう.そこで本研究では,大規模データを扱う分散KVSであるApache Cassandraに着目し,大規模データをより高速に処理するための手法を提案する.Cassandraに保存された値に対して任意の処理を行うには,値を取得し,その後処理を行うのが通常である.しかし,Cassandraの読み出し性能があまり高くない上に,取得する値のデータ量が大きくなると通信量が多くなり処理が遅くなることが予想される.そこで本研究では,Cassandraに保存された値に対し任意の処理を効率よく行えるようにするために,まず,UDFと類似した機能をCassandraに追加する.この機能を利用し,各データノード上でユーザが指定した処理を行い結果のみをクライアントに返す手法を提案する.これにより通信データ量を抑えることができ,また,異なる複数の値に対して並列に処理を実行可能になり,より高速化できる.本稿では提案手法の実装の第一段階として,1つの値に対し,任意の処理を行い結果のみを取得する機能を実装し,その特性を評価した.その結果,本提案手法は処理対象の値のサイズが比較的大きい場合には有効であることが示せたと同時に,その一貫性レベルを調整することで処理の高速化が可能であることを確認した.
机译:近年来,需要高速处理大量数据的情况越来越多,一种称为分布式KVS(键值存储)的NoSQL类型数据库管理系统已开始引起人们的注意。为了有效地利用存储在分布式KVS中的大量数据,需要对数据进行并行处理。它变得效率低下。因此,在这项研究中,我们重点研究Apache Cassandra,这是一种处理大型数据的分布式KVS,并提出了一种以更高速度处理大型数据的方法。为了对存储在Cassandra中的值执行任意处理,通常先获取该值然后执行处理。但是,Cassandra的读取性能不是很高,并且可以预期,如果要获取的数据量增加,则通信量将增加并且处理速度将减慢。因此,在这项研究中,为了有效地对Cassandra中存储的值执行任意处理,首先,向Cassandra添加了类似于UDF的功能。我们提出一种使用此功能的方法,以执行用户在每个数据节点上指定的处理,并将结果仅返回给客户端。结果,可以抑制通信数据量,并且可以针对多个不同值并行执行处理,从而提高了速度。在本文中,作为实现该方法的第一步,我们实现了一个函数,可以对一个值进行任意处理,仅获取结果,并评估其特性。结果表明,当要处理的值的大小相对较大时,提出的方法是有效的,并且同时,证实了可以通过调整一致性级别来加快处理。 ..

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号