基于动态优先级的奖励优化模型

赵沛尧; 黄蔚

首页> 中文期刊>郑州大学学报（理学版） >基于动态优先级的奖励优化模型

基于动态优先级的奖励优化模型

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境.为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning,RL)算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数.然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数.模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束.在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束.

著录项

来源
《郑州大学学报（理学版）》|2022年第1期|62-68|共7页
作者
赵沛尧; 黄蔚;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州 215006;

苏州大学江苏省计算机信息处理技术重点实验室江苏苏州 215006;

苏州大学东吴学院江苏苏州 215006;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
强化学习; 深度学习; 受限马尔可夫模型; 动态优先级; 机器人环境;
入库时间 2023-07-25 21:57:33

相似文献

中文文献
外文文献
专利

1. 基于动态优先级策略的多AGV无冲突路径规划 [J] . 张中伟 ,张博晖 ,代争争 . 计算机应用研究 . 2021,第007期
2. 基于动态优先级设备低能耗调度算法 [J] . 张忆文 ,林铭炜 . 计算机科学 . 2021,第0z2期
3. 基于多特征动态优先级的网络实时调度算法 [J] . 苏洵 ,李艳芳 ,宗宁 . 通信学报 . 2020,第005期
4. 基于SDN的数据中心动态优先级多路径调度算法 [J] . 肖军弼 ,程鹏 ,谭立状 . 计算机与现代化 . 2020,第007期
5. 基于动态优先级的空间信息需求响应过程建模与仿真 [J] . 鲁赢 ,赵云 ,李翼鹏 . 火力与指挥控制 . 2019,第003期
6. 基于动态优先级分配的CAN混合调度算法 [C] . 刘啸然 . 第七届仪表、自动化与先进集成技术大会暨第六届测控技术与仪器仪表学术大会 . 2012
7. 旅游虚拟社区物质奖励方式对知识再分享意愿影响——基于现金类与捐赠类奖励的分析 [A] . 周健 . 2018

基于动态优先级的奖励优化模型

摘要

著录项

相似文献

相关主题

期刊订阅