10.3969/j.issn.2095-2783.2010.02.007
异质Agent间的知识迁移强化学习
针对现有知识迁移方法仅适用于同质强化学Agent问题,提出一种能够在具有不同状态动作空间的异质Agent间迁移知识的Q学习算法.该算法的主要思想是通过新旧Agent共同学习过的任务,利用神经网络离线学习两Agent间的Q值函数映射关系,利用构造的Q值函数映射器把旧Agent学过而新Agent没有学过的任务的Q值映射到新Agent上,从而可以减少新Agem的学习尝试次数,提高学习速度.10×10格子世界仿真结果验证了所提知识迁移Q学习算法的有效性.
强化学习、知识迁移、异质Agent、Q值
5
TP18(自动化基础理论)
2010-04-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
120-123