学位专题

<
DOI:10.7666/d.Y3389586

一类非线性系统的强化学习自抗扰控制研究

王伟
北京化工大学
引用
未知非线性系统的控制一直以来都是控制领域内的重要课题,由于系统动态未知,许多需要机理模型的控制算法都难以实施,而强化学习方法由于能够在未知的环境中通过与环境的交互自主学习,找到近似最优控制策略且不需要系统结构信息等先验知识,使其成为未知非线性系统控制的理想算法。近些年来,强化学习已在这一领域取得诸多成果,然而,现实中的非线性系统往往受到各种扰动的影响,而强化学习的抗扰能力却不够强大,在大扰动下系统输出往往会大幅偏离设定值,系统性能严重衰退。针对这一问题,本文研究了如何在具有强非仿射特性的未知非线性纯反馈系统控制中提高强化学习的控制精度和抗扰能力。  由于传统强化学习算法的动作和状态都是在有限集中,因而在非线性系统控制中应用最多的是的连续强化学习算法,也就是动作-评价网络结构的强化学习。在应用中,该类算法存在这样的一些问题:  1.对扰动的抑制能力十分有限。随着扰动逐渐增大,控制效果急剧衰退,直至发散。  2.当参考轨迹连续变化时,尤其是变化轨迹的弯曲程度较大时,追踪误差会变得很大。  针对强化学习在未知非线性系统控制中存在的问题,本文首先建立了一套动作-评价网络结构的连续强化学习算法,它采用了一个特别的性能指标函数以避免使用系统动态函数,然后做了如下的改进:  1.为了提高控制系统追踪连续轨迹的能力,尤其是在参考轨迹曲度较大时的控制效果。我们设计了一个与参考轨迹有关的因子,利用它动态地调整执行器网络的权重更新速率,使得系统在参考轨迹曲度变大时能更加及时地调整控制策略。  2.为了提高控制系统的抗扰能力,利用扩张状态观测器将未知的外部扰动和内部参数摄动等效为一个总扰动,将其应用在控制律中,抵消内外扰动的影响,削弱系统的不确定性,帮助强化学习提高其抑制扰动能力。  3.最后,我们将强化学习算法与线性自抗扰相结合,用自抗扰控制器代替传统的神经网络执行器,调整了控制器的权值更新方式,大幅提高了系统的抗扰能力和控制精度。同时,待调参数数目减少,大大调高了算法的训练速度。  为了验证改进强化学习算法的有效性,将它们应用在未知非线性纯反馈系统的追踪控制上,并给出基于扩张状态观测器的强化学习算法(reinforcement learning-extended state observer,RL-ESO,基于改进1和2)和基于线性自抗扰的强化学习算法(reinforcement learning-active disturbance rejection control,RL-ADRC,基于改进3)的原理与设计流程。在纯反馈系统追踪控制的实验中,控制器仅获得系统的输出和控制输入等信息,而无需其他结构信息。结果表明,与原算法相比,RL-ESO和RL-ADRC都有更强的抗扰能力和控制精度,后者还具有更快的训练速度。

未知非线性纯反馈系统;控制精度;抗扰能力;改进强化学习算法

北京化工大学

硕士

控制科学与工程

李大字

2018

中文

TP271.9

67

2018-09-10(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅