基于Q学习算法和遗传算法的动态环境路径规划

引用

摘要：

针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性.

关键词：动态环境、连续环境、路径规划、Q学习算法

所属期刊栏目：43

分类号：TP242(自动化技术及设备)

资助基金：国家自然科学基金资助项目61573029;北京市自然科学基金资助项目4162012;北京工业大学"智能制造领域大科研推进计划"资助项目

在线出版日期：2017-08-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：1009-1016

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

基于Q学习算法和遗传算法的动态环境路径规划