...
首页> 外文期刊>電子情報通信学会技術研究報告. コンピュ-タシステム. Computer Systems >パラメータサーバを用いた並列機械学習システムにおける耐故障性のシミュレーション
【24h】

パラメータサーバを用いた並列機械学習システムにおける耐故障性のシミュレーション

机译:使用参数服务器模拟并联机器学习系统中的容错

获取原文
获取原文并翻译 | 示例
           

摘要

大規模なデータを対象とする機械学習システムの高速化には並列化が必須である。パラメータサーバと多数のワーカ計算機を用いるデータ並列機械学習システムにおいては、一般の大規模システムと同様に耐故障性が問題になるが、並列機械学習システムにおける耐故障性の議論は進hでいない。本稿ではパラメータサーバを用いた並列機械学習システムにおける耐故障性に関して議論し、シミュレーションを用いて大規模なシステムにおける定量的な評価を行う。その結果、パラメータサーノヂ上の情報を用いることでチェックポイントのコストを大幅に低減することができること、さらには、収束への悪影響を許容すれば、チェックポイントからのリカバリコストも低減できることを明らかにした。
机译:并行化对于加速机器学习系统以获得大规模数据至关重要。 在使用参数服务器和大量工人计算机的数据并行机器学习系统中,容错是一个问题以及一般大规模系统,但并联机器学习系统中的容错参数不是渐进的。 在本文中,我们讨论了使用参数服务器并行机器学习系统的容错,并使用模拟来评估大型系统中的定量评估。 因此,使用关于参数舒加的信息可以显着降低检查点的成本,即使它允许对收敛的不利影响,很明显来自检查点的恢复成本也可以减少底部。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号