基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略
针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题,以守门员为例,首先利用CMAC神经网络对连续状态空间泛化,然后在泛化后的状态上,采用Sarsa(λ)学习算法获取守门员的最优策略.通过在RoboCup仿真平台上进行仿真,实验结果表明,采用基于CMAC的Sarsa(λ)学习算法的守门员,经过一定时间的学习后,防守时间显著增长,防守效果明显优于其他算法,验证了本文所提方案的有效性.
RoboCup仿真组足球比赛、CMAC神经网络、泛化、Sarsa(λ)学习算法、最优策略
38
TP181(自动化基础理论)
福建省自然科学基金资助项目2010.105140;高等学校博士学科点专项科研基金资助项目20100121120022
2012-10-24(万方平台首次上网日期,不代表论文的发表时间)
共5页
1348-1352