摘要:在解决离散变量结构优化问题时通常引入映射函数将其转换成连续化问题进行求解,而映射函数的作用是对设计变量取离散点之间值时进行惩罚.然而,在连续化过程中,映射函数中惩罚系数的选取比较困难,选取不当时会使得优化结果不合理.针对该问题,该文提出了一种新的自适应连续化阶梯函数离散变量优化方法,构造了一个综合考虑目标函数与惩罚程度的函数作为强化学习中的评价标准,利用该评价标准建立强化学习的立即奖赏值,迭代过程不同形状的阶梯函数的选择会产生不同的立即奖赏值,通过这些奖赏值而不断地学习,累积经验,使得每一步迭代产生合适的立即奖赏值,从而保证迭代过程中评价标准的值比较理想,得到在每一次迭代中最优的惩罚系数值,实现了在每个迭代步中可以自动地选择惩罚系数,把不变连续化阶梯函数转换成了一个可自动改变的连续化阶梯函数.最后通过十二杆桁架结构和二十七杆桁架结构两个算例验证了该方法的有效性.