基于CMAC网络Sarsa（λ）学习的RoboCup守门员策略

引用

摘要：

针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题，以守门员为例，首先利用CMAC神经网络对连续状态空间泛化，然后在泛化后的状态上，采用Sarsa（λ）学习算法获取守门员的最优策略．通过在RoboCup仿真平台上进行仿真，实验结果表明，采用基于CMAC的Sarsa（λ）学习算法的守门员，经过一定时间的学习后，防守时间显著增长，防守效果明显优于其他算法，验证了本文所提方案的有效性．

关键词：RoboCup仿真组足球比赛、CMAC神经网络、泛化、Sarsa(λ)学习算法、最优策略

所属期刊栏目：38

分类号：TP181(自动化基础理论)

资助基金：福建省自然科学基金资助项目2010.105140;高等学校博士学科点专项科研基金资助项目20100121120022

在线出版日期：2012-10-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1348-1352

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

基于CMAC网络Sarsa（λ）学习的RoboCup守门员策略