学位专题

目录>
<

基于解耦多智能体深度强化学习的机械臂装配研究

王晶
武汉纺织大学
引用
轴孔装配是工业生产中的重要环节,工业生产中常用机械臂来实现自动化装配。近年来,随着人工智能的深入研究,深度强化学习(DeepReinforcementLearning,DRL)在机械臂装配中取得了较成功的应用。由于应用场景的复杂多变,以及装配需求的提升,单智能体算法难以很好的实现机械臂装配任务目标,会出现算法收敛困难,装配效果差等问题。多智能体算法的应用为机械臂装配提供了新的研究方向,更适合于复杂动态的环境,智能体之间的信息交互可以有效的提高对环境的感知能力,但如何协调智能体之间的关系用于促进目标的达成是多智能体算法应用的关键。  为此,开展了以方轴孔装配为主要研究对象,将多智能体强化学习算法应用于单个机械臂进行轴孔装配的研究。结合Pieper准则的六自由度机械臂关节构型,提出了位置和姿态分开控制的方案,将机械臂的前三个关节和后三个关节构造成多智能体系统。分开独立控制,以降低耦合性。因此,选择具有解耦功能的解耦多智能体深度确定性策略梯度(DecouplingMulti-AgentDeepDeterministicPolicyGradient,DE-MADDPG)算法对机械臂进行了方轴孔装配的仿真实验研究。主要工作如下:  (1)研究了轴孔之间的关系,分别对轴孔装配过程中寻孔、对准和插入阶段工序过程进行分析。主要是对准阶段的位置和姿态的匹配函数定义,对于方轴孔而言,其姿态的匹配要求更为苛刻。为了避免在对准和插入阶段发生卡阻,定义了力传感器检测碰撞并反馈奖励函数。位置偏差采用欧式距离表示,姿态偏差采用四元数表示。该工序过程任务分析为下一步算法设计奖励函数提供了基础。  (2)通过对装配任务过程分析,结合DE-MADDPG算法设计了奖励函数。主要由全局奖励函数和局部奖励函数构成。全局奖励函数包括主线奖励函数、碰撞惩罚函数和过程惩罚函数;局部奖励包括位置奖励函数和姿态奖励函数。为了提高装配效率,设计了以装配孔为中心的虚拟空间,在进入该空间内才会累积局部奖励。其奖励累积过程分为接近虚拟空间、位姿对准和插入三阶段。位置奖励在对准阶段以轴孔接触面为基准,将轴线距离和水平距离赋予不同的系数,以达到先姿态匹配后位置对齐的作用;在插入阶段以插入深度为基准,促进轴向的装配运动。姿态奖励在对准和插入阶段都以轴孔姿态四元数之间的夹角为基准累积奖励。通过测试验证了奖励函数设计的有效性和可靠性。  (3)在Gazebo中搭建仿真装配环境,以圆轴孔和方轴孔为装配实验对象,以DE-MADDPG算法模拟了机械臂轴孔装配仿真试验。仿真结果表明利用该算法将机械臂前三个关节和后三个关节构造成多智能体具有很好的适应性。同时仿真分析了DDPG、MADDPG与DE-MADDPG三种算法在装配任务中差异性。结果表明DE-MADDPG相对于另外两种算法能更快更稳定的收敛;在方轴孔的装配测试中,DE-MADDPG比DDPG提高了13.2%的装配效率,也比MADDPG的装配过程更加的稳定。  (4)根据仿真结果以川崎BA006N为实验主体,并配置力/力矩传感器用于感知碰撞,搭建了方轴孔实验训练台架。训练结果与DE-MADDPG仿真结果的收敛状态一致。为了验证DE-MADDPG算法装配成功率,通过改变装配孔的位置和姿态进行了装配测试,只改变位置时,能达到80%以上的装配成功率,而在位置和姿态都改变时,仍能维持70%左右的成功率。表明了算法在面对不同任务中具有一定的泛化能力。

深度强化学习;机械臂;轴孔装配;DE-MADDPG

武汉纺织大学

硕士

机械工程

苏工兵

2023

中文

TP241

2023-08-28(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅