基于模仿与强化协作学习的列车智能驾驶研究

刘清山

重庆交通大学

下载全文

在线阅读

引用

摘要：

近年来，城市轨道交通行业迎来飞跃发展，随之而来的困难和挑战与日俱增，传统人工驾驶列车已经难以满足日常需求，提高列车运行自动化、智能化水平势在必行。由于列车系统非线性、多变量等特性，传统控制方法面对复杂的环境变化无法进行实时调整，深度学习方法在泛化性方面存在缺陷，普通强化学习（Reinforcement Learning，RL）则存在盲目探索、收敛速度慢的缺点。因此，本文融合多种新兴人工智能技术，研究基于模仿与强化协作学习的智能驾驶方法，其主要内容如下：　　（1）建立基于强化学习的列车驾驶模型。首先将列车的位置、速度、加速度和剩余计划运行时间作为状态空间，然后把牵引/制动等级作为动作空间，最后以能耗、停车精度、准时和舒适度等指标为基础，设计引导性的多维奖励函数。　　（2）针对分级控制方式的列车，提出一种生成对抗模仿与强化协作学习的列车智能驾驶方法。采取近端策略优化算法（ Proximal Policy Optimization ， PPO ）作为强化学习基础框架，引入生成对抗模仿学习算法（ Generative Adversarial Imitation Learning，GAIL），将判别器输出与原始奖励函数相结合，把训练分为引导与探索两个阶段，并设计自适应系数实现从模仿到强化的平稳过渡，从而减少PPO算法前期的盲目探索，加快学习效率，提升收敛效果。最后，以北京地铁亦庄线旧宫站-亦庄桥站为仿真算例进行实验，结果表明，本文提出的算法加快了PPO算法学习效率，在满足准点、安全、舒适和精准停车的情况下，节能性更好，同时面对不同的道路限速与计划运行时间也有较好的鲁棒性。　　（3）针对无级变速控制方式的列车，提出一种行为克隆与强化协作学习的列车智能驾驶方法。首先采取哈里斯鹰算法（Harris Hawks Optimizer，HHO）对速度曲线进行优化，获得初步解集，将其视为专家数据。然后以行为克隆方式对柔性演员评论家算法（Soft Actor-Critic，SAC）中的Actor网络进行预训练，为网络装入初值。根据柔性Q值模仿学习算法（Soft Q imitation learning，SQIL），将专家数据放入SAC算法经验池，并设计更新策略，保证算法在提升效率的同时能够进一步探索更为优秀的解集。最后，以北京地铁亦庄线小红门站-旧宫站为仿真算例进行实验，结果表明，相较于SAC算法，本文所提算法不仅在学习速度上更快，同时在列车自动驾驶系统（Automatic Train Operation System，ATO）性能指标上表现更佳。

关键词：列车智能驾驶;生成对抗模仿学习;强化学习;行为克隆

授予单位：重庆交通大学

授予学位：硕士

学科专业：计算机科学与技术

导师姓名：徐凯

学位年度：2023

语种：中文

分类号：U284.48

在线出版日期：2023-09-14（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于模仿与强化协作学习的列车智能驾驶研究