状態遷移確率と報酬確率の転移による強化学習のサンプル量削減

小國晃太; 成澤和志; 篠原歩

首页> 外文期刊>電子情報通信学会技術研究報告. 情報論的学習理論と機械学習 >状態遷移確率と報酬確率の転移による強化学習のサンプル量削減

【24h】

状態遷移確率と報酬確率の転移による強化学習のサンプル量削減

机译：通过转移状态转移概率和奖励概率来减少强化学习的样本量

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

強化学習は非常に多くの試行を必要とするため実環境に適用することが難しいが，転移学習を用いることで効率的な強化学習を実現することができる．本稿では，転移学習を強化学習に応用したTR-MAXを提案する．TR-MAXは，状態遷移確率と報酬確率を元問題から目標問題に転移させる強化学習アルゴリズムである．強化学習の効率を測る指標であるサンプル量について，TR-MAXが既存手法よりも優れていることを証明し，実験的にも優れていることを示す．

机译：由于需要大量的试验，因此很难将强化学习应用于实际环境，但是可以通过使用转移学习来实现有效的强化学习。在本文中，我们提出了TR-MAX，它将转移学习应用于强化学习。 TR-MAX是一种增强型学习算法，可将状态转换概率和奖励概率从原始问题转移到目标问题。我们证明了TR-MAX在样本量方面是优于现有方法的，它是衡量强化学习效率的指标，并且在实验上也证明了它的优越性。

著录项

来源
《電子情報通信学会技術研究報告. 情報論的学習理論と機械学習》 |2013年第286期|共8页
作者
小國晃太; 成澤和志; 篠原歩;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类机械学（机械设计基础理论）;信息理论;
关键词
強化学習; 転移学習; サンプル量; PAC-MDP;

机译：强化学习;转移学习;样本量;PAC-MDP;

相似文献

外文文献
中文文献
专利

1. 状態遷移確率と報酬確率の転移による強化学習のサンプル量削減 [J] . 小國晃太, 成澤和志, 篠原歩電子情報通信学会技術研究報告. 情報論的学習理論と機械学習 . 2013,第286期

机译：通过转移状态转移概率和奖励概率来减少强化学习的样本量
2. モード遷移確率が時変パラメータに依存するマルコフジャンプ系のゲインスケジュールド状態フィードバック設計 [J] . 柳楽　勇士, 松崎　弘樹, 細江　陽平, システム/制御/情報 . 2019,第11期

机译：马尔可夫跳跃系统的增益调度状态反馈设计，其模式转变概率取决于时变参数
3. 遷移した状態の集約によつて適切なShaping報酬を提示する強化学習 [J] . 岡　晋之介, 村越　一支電子情報通信学会技術研究報告 . 2012,第345期

机译：通过汇总过渡状态来提供适当的成形奖励的强化学习
4. ドライバのディストラクション低減効果評価モデルの構築一状態遷移確率モデルによる評価 [C] . 伊藤祥雄, 山田喜一, 鈴木桂輔自動車技術会大会 . 2011

机译：一态转换概率模型驾驶员分布模型评估的分心性评价模型
5. モデルベース深層強化学習におけるタスク依存の中間表現を用いた環境遷移モデルの学習利用統計を見る [D] . 水谷陽太 2019

机译：在基于模型的深度强化学习中查看使用任务相关中间表示的环境过渡模型的学习使用情况统计信息
6. 環境問題と関係する確率的状態遷移現象のコアモデル－人間的問題としての状態の安定性、変化の急激性、歴史の不可逆性－ [O] . 梅村界渡 2013

机译：与环境问题相关的随机状态转变现象的核心模型-状态稳定性，变化的速度以及人类历史的不可逆转性-

状態遷移確率と報酬確率の転移による強化学習のサンプル量削減

摘要

著录项

相似文献

相关主题

期刊订阅