法律状态公告日
法律状态信息
法律状态
2022-06-28
公开
发明专利申请公布
技术领域
本发明涉及双有源全桥变换器技术领域,具体为一种基于深度强化学习及反步控制的双有源全桥变换器的非线性控制方法。
背景技术
要构建清洁低碳安全高效的能源体系,控制化石能源总量,实施可再生能源替代行动,构建以新能源为主体的新型电力系统。新能源以直流微电网形式接入电力系统将是其利用的重要途径。
双有源全桥变换器是新能源、储能装置、直流负荷等直流源荷设备接入直流微电网的关键设备,对维持直流母线电压稳定和微电网稳定运行起着重要作用。同时为了适应分布式可再生能源和各种负荷接入电网,双有源全桥变换器作为电网中关键的变换器设备,对于维持电网母线电压稳定,保证电网的正常运行起着非常重要的作用。
对于双有源全桥变换器的控制,现阶段有文献通过分析变换器的小信号数学模型,推导得到变换器的传递函数,提出了PI策略使得输出电压保持稳定。但此方法无法处理大信号扰动和非线性问题,不能保证全局稳定;为提升变换器的大信号稳定性,有文献提出了模型预测方法,但此控制方法增加了计算量。同时有学者提出非线性电压电流控制策略来改善系统的大新号稳定性,但是该控制方法跟踪精度有待提高。有文献提出了滑膜控制方法来提高大信号稳定性,然而其跟踪精度及动态性能改善需要改善,没有学习能力,其自适应性有待提高。因此,现阶段的双有源全桥变换器的控制方法有诸多的缺点。
发明内容
本发明为了解决传统双有源全桥变换器控制方法大信号稳定性,动态性能及自适应性有待改善的问题,针对现有控制策略的缺陷,提出了一种基于深度强化学习及反步控制的双有源全桥变换器的非线性控制方法。
本发明是采用如下技术方案实现的:
双有源全桥变换器包括逆变全桥和整流全桥,两桥臂通过辅助电感L和变压器组成的磁性网络相连接,变压器变比为k:1;直流侧通过并联滤波电容C
本发明是一种基于深度强化学习及反步控制的双有源全桥变换器的非线性控制方法,首先采用反步控制来提高双有源全桥变换器的大信号稳定性,在此基础上加入深度强化学习子控制器来改善双有源全桥变换器的动态性能、跟踪精度及自适应性。
具体包括如下步骤:
步骤一、反步控制中,首先将双有源全桥变换器进行大信号模型推导,以总能量及其变化率为状态变量得到如式(1)所示的Brunovsky 标准形状态方程:
其中,
其中,U
设置x
其中,U
e
e
之后根据李雅普诺夫稳定性判据,设置x
其中,k
最后经过反步计算得到控制量u
其中,k
由u得到双有源全桥变换器的控制移相比D如式(11):
步骤二、基于深度强化学习的子控制器,采用深度强化学习中的 DDPG算法产生双有源全桥变换器的控制信号。
首先输入状态量S{U
之后通过判断网络判断动作的奖励r大小,进而调整动作网络的动作值,最终使得输出电压误差最小化得到期望的奖励分数;其奖励函数设置为
然后将输出值D
本发明所述的基于深度强化学习及反步控制的双有源全桥变换器的非线性控制方法,采用反步控制来保证双有源全桥变换器大信号稳定性,之后采用深度强化学习中的DDPG算法,根据其判断网络给出的分值来调整动作网络的输出控制信号,进而产生双有源全桥变换器的控制信号,与反步控制信号叠加得到最终的控制信号,改善了双有源全桥变换器的跟踪精度、动态性能及自适应性。
与现有技术相比,本发明方法所具有的优点与积极效果在于:
1、有效的改善了双有源全桥变换器的动态性能和跟踪精度,提高了双有源全桥变换器的效率。
2、由于使用的深度强化学习算法具有学习能力,提高了双有源全桥变换器的自适应性和可靠性。
3、使用反步非线性控制方法,提高了双有源全桥变换器的大信号稳定性。
本发明设计合理,适用于双有源全桥变换器,具有良好的技术经济性,具有很好的实际应用价值。
附图说明
图1表示本发明所涉及DDPG算法的结构图。
图2表示本发明所涉及基于深度强化学习及反步控制的双有源全桥变换器的非线性控制框图。
图3表示本发明所涉及DDPG算法的神经网络结构图。
图4表示本发明所涉及双有源全桥变换器结构图。
具体实施方式
下面结合附图对本发明的具体实施例进行详细说明。
本发明控制方法为了提高双有源全桥变换器在大信号干扰下的稳定性,提出了一种基反步控制的非线性控制的方法。同时,加入基于深度强化学习的DDPG子控制器,智能地提高双有源全桥变换器的动态性能及跟踪精度,使输出电压跟踪误差最小化。并且由于DDPG 的学习能力,提高了变换器的自适应性。
一种基于深度强化学习及反步控制的双有源全桥变换器的非线性控制方法,如图2所示,首先通过反步控制输出控制信号D来保证双有源全桥变换器的大信号稳定性,然后加入深度强化学习子控制器,来改善双有源全桥变换器的跟踪精度、动态性能以及自适应性。其通过动作网络产生动作值A(D
步骤一、反步控制
首先将双有源全桥变换器进行大信号模型推导,以总能量及其变化率为状态变量得到如式(1)所示的Brunovsky标准形状态方程:
其中,
其中,U
设置x
其中,U
e
e
之后根据李雅普诺夫稳定性判据,设置x
其中,k
最后经过反步计算得到控制量u
其中,k
由u得到双有源全桥变换器的控制移相比D如式(11):
将双有源全桥变换器的状态量x
步骤二、深度强化学习子控制
采用深度强化学习中的DDPG算法产生双有源全桥变换器的控制信号。首先输入状态量S{U
具体实施时,如图4所示,双有源全桥变换器包括逆变全桥H1 和整流全桥H2,两桥臂通过辅助电感L和变压器组成的磁性网络相连接,即T为高频变压器,变压器变比为k:1,其原、副边分别与全桥电路H1、H2连接。C
如图1所示,DDPG算法包括动作网络和判断网络,首先状态量 S通过动作网络产生动作值A,之后通过判断网络判断动作的奖励大小r,进而调节动作网络的动作值,最终最小化误差得到期望的奖励分数。
如图2所示,将状态量x
本发明采用的DDPG算法建立了两个四层神经网络。它们分别是动作网络和判断网络,结构相似,功能却不相同,如图3所示,左边是动作的神经网络架构,参与者评估网络的输入层有三个神经元,对应于三个输入节点,即输出电压U
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照本发明实施例进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明的技术方案的精神和范围,其均应涵盖本发明的权利要求保护范围中。