期刊专题

10.3321/j.issn:0372-2112.2006.07.035

不确定性环境下基于进化算法的强化学习

引用
不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Qlearning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用Memetic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchmark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.

部分可观察马尔可夫决策过程、Q学习、Memetic算法、信度状态、隐状态

34

TP319(计算技术、计算机技术)

国家高技术研究发展计划863计划2002AA735041

2006-08-24(万方平台首次上网日期,不代表论文的发表时间)

共5页

1356-1360

相关文献
评论
暂无封面信息
查看本期封面目录

电子学报

0372-2112

11-2087/TN

34

2006,34(7)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn

打开万方数据APP,体验更流畅