首页> 中文学位 >逆向增强学习和示教学习算法研究及其在智能机器人中的应用
【6h】

逆向增强学习和示教学习算法研究及其在智能机器人中的应用

代理获取

摘要

近几十年来,示教学习一直是机器人研究领域中极富挑战性的研究课题之一。在示教学习中,直接估计状态-动作映射往往无法考虑长期性影响。因此,研究者倾向于将示教学习过程分为估计环境参数和求解最优控制器两个步骤,间接地逼近示教策略。在若干环境参数表达方法中,回报函数具有泛化能力强、迁移性好和所需调节参数少等优点。目前,基于回报函数估计的示教学习正成为示教学习中应用最广泛的方法之一。回报函数的估计,又称为逆向增强学习,是指给定智能体行为、状态和环境动态模型,在马尔可夫决策过程模型中求解回报函数的问题。但是,基于回报函数估计的示教学习当前还存在几个需要解决的问题:(1)回报函数的估计过程无法序贯进行。(2)回报函数的学习结果只能提供点估计信息。(3)回报函数估计的性能对示教噪声敏感。针对上述问题,本文尝试在序贯估计和贝叶斯框架下对逆向增强学习问题进行了理论研究。
   首先,本文从最大边际原则和约束一致性原则两个方面研究了序贯化逆向增强学习算法,从而为逆向增强学习的序贯算法研究提供了理论支持。基于最大边际原则,本文提出了增量式逆向增强学习方法。该方法将学习建模为二项分类问题,然后通过拟可加序贯学习框架的思想进行回报函数的序贯重估计。算法以序列化的方式处理依次到来的观察数据。基于约束一致性原则,本文提出了松弛投影逆向增强学习方法。本方法将回报函数的学习问题建模为具有非线性约束的可行区域问题。其主要思想是通过松弛投影算法序列化地将回报函数估计值对特定约束平面进行松弛投影。本方法避免了在回报函数估计过程中调用耗时的增强学习子过程。为了减少计算量,本文还讨论了约束约减方法。另外本文分别对上述两种方法进行了收敛性质的分析。
   其次,为了解决当前算法中对回报函数仅进行点估计的局限性,本文在贝叶斯框架下将回报函数扩展到连续空间的分布形式并对回报函数进行分布估计。首先,本文基于贝叶斯框架引入了核方法,提出了基于高斯过程的回报函数建模方法。通过回报函数的高斯过程建模,本文将已有的逆向增强学习方法进行了扩展,提出了基于高斯过程的逆向增强学习算法。该算法不仅给出了回报函数估计值的置信度信息,还通过核方法定义了学习特征。这些性质提高了基于逆向增强学习的示教学习在应用中的实用性。
   然后,针对基于逆向增强学习的示教学习中示教策略存在噪声的问题,本文提出了基于贝叶斯logistic回归和变分近似方法的逆向增强学习算法。其主要思想是通过示教轨迹构造示教样本集将逆向增强学习的分类问题建模为贝叶斯logistic回归问题。变分贝叶斯方法被用来对后验分布进行近似求解。贝叶斯logistic回归方法对数据的抗噪特点为本算法带来了良好的对示教数据的鲁棒性。
   最后,本文讨论了逆向增强学习方法在智能机器人行为样本评测问题中的应用。针对地面自主机器人评测系统中评测标准难以定义的问题,本文提出了一种基于倾向性分析的智能系统评测方法。该方法首先采用了基于主元分析法的特征提取方法对地面自主机器人行为样本数据进行了预处理,然后利用逆向增强学习算法、策略不变条件下的回报函数变形定理和线性子空间距离定义得到地面自主机器人行为的性能测度,从而定量地比较了示教样本与评测样本之间的差异。评测结果证明了该方法有效解决了地面自主机器人行为样本与示教样本之间难于定量比较的难题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号