10.19665/j.issn1001-2400.2020.02.011
飞行器强化学习多模在轨控制
为了提高飞行器控制系统长期在轨飞行的可靠性,提出了一种基于强化学习的多模式控制系统方案.该系统包括传感器模块、控制模块和执行模块.其中,传感器模块用于向控制模块实时输入飞行器敏感的飞行数据,该数据分为可供飞行器控制直接使用的具有历史相关性的多维结构化浮点数据以及某特定传感器独有的物理表征量;控制模块使用实时并行化决策机制,分为输入层、特征抽取层和全连接层;执行模块用于接收控制模块实时输出的驱动数据,包括用于决策的状态最优值和用于评价的动作输出值.系统根据用于决策的回报最优值决定使用哪些具体的执行模块,而某个被选定的具体执行模块的输出值取决于用于评价的动作输出值.该系统使飞行器在多模式输入输出状态下具备15ms快响应,5.23GOPs/sec/W(性能功耗比单位)性能功耗比的能力.
飞行器、控制系统、多模式、强化学习
47
TN 911.22
国家自然科学基金51877008
2020-04-27(万方平台首次上网日期,不代表论文的发表时间)
共8页
75-82