声明
致谢
1 引言
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 作业车间调度问题的研究现状
1.2.2 机器学习算法在组合优化领域的研究现状
1.3 主要研究内容
1.4 论文组织框架
2 深度强化学习理论基础与研究现状
2.1 强化学习的理论知识
2.1.1 马尔科夫决策过程
2.1.2 基于值函数的强化学习算法
2.1.3 基于策略的强化学习算法
2.2 深度学习的研究现状
2.2.1 深度学习的基本概念
2.2.2 深度学习的研究现状
2.3 深度强化学习的研究现状
3 求解同顺序流水作业调度问题的行动者-评论家算法
3.1 问题描述及模型表示
3.2 指针网络
3.2.1 Seq2Seq模型
3.2.2 结合注意力机制的Seq2Seq模型
3.2.3 指针网络
3.2.4 指向机制
3.3 注意力网络
3.3.1 注意力机制
3.3.2 注意力网络
3.4 行动者-评论家算法
3.5 小结
4 基于异质网络的行动者-评论家算法
4.1 异质网络的行动者-评论家算法
4.2 行动者网络
4.2.1 网络结构
4.2.2 探索方法
4.3 评论家模型
4.4 2-opt算法
4.5 实验
4.5.1 实验数据
4.5.2 实验参数设置
4.5.3 实验结果分析
4.6 小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
独创性声明
学位论文数据集
北京交通大学;