(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210936717.1
(22)申请日 2022.08.05
(71)申请人 广东工业大 学
地址 510000 广东省广州市越秀区东 风东
路729号
(72)发明人 程良伦 胡博 王涛
(74)专利代理 机构 佛山市君创知识产权代理事
务所(普通 合伙) 44675
专利代理师 张燕玲
(51)Int.Cl.
B25J 9/16(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于最大熵框架的深度强化学习机械
臂运动规划方法
(57)摘要
本发明公开了一种基于最大熵框架的深度
强化学习机械臂运动规划方法, 包括: 在机械臂
运动前采集一次环境信息, 所述的环 境信息包括
初始状态下的机械臂状态信息、 运动目标点和中
间障碍物信息, 得到规划空间; 建立机械臂运动
学模型, 将采集到的状态信息通过正运动学运算
得到机械臂末端点位置信息, 构造环境观察信
息; 将环境观察信息作为MDP 模型的状态量, 定义
机械臂的动作空间以及奖励函数; 基于深度强化
学习算法, 根据状态量得到机械臂速度增量, 通
过将返回分布 函数嵌入最大熵 来动态调整Q的范
围, 缓解传统强化学习的Q值的高估情况, 为机械
臂规划取得无碰策略; 同时利用重组轨迹的方
法, 充分探索受限空间, 提升 机械臂规划的速度。
权利要求书3页 说明书6页 附图3页
CN 115091469 A
2022.09.23
CN 115091469 A
1.一种基于最大熵框架的深度强化学习机 械臂运动规划方法, 其特 征在于, 包括:
在机器人的机械臂运动前采集一 次环境信 息, 所述的环境信 息包括初始状态下的机械
臂状态信息、 运动目标点和中间障碍物信息, 得到规划空间;
建立机械臂运动学模型, 根据采集到的机械臂状态信 息通过正运动学运算得到机械臂
末端点位置和与目标点的距离, 构造环境观察信息;
将环境观察信息作为MD P模型的状态量, 定义机 械臂的动作空间以及避障奖励函数;
利用基于深度强化学习算法的强化学习算法, 根据状态量通过得到机械臂速度增量,
在规划空间中为机械臂 规划运动策略并取得无碰运动策略, 使得机械臂能够在避开障碍物
的前提下 稳定的运动到目标位置 。
2.根据权利要求1所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特
征在于, 初始状态下的机械臂状态信息为机械臂关节位置q, 初始 为0; 运动目标点为人为设
定的焊接点, 包含坐标信息goal; 中间的障碍物信息采用包络盒生成, 包括机械臂本体和 场
景障碍, 构成初始规划空间Ω。
3.根据权利要求1所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特
征在于, 所述建立机械臂运动学模型, 根据采集到的机械臂状态信息通过正运动学运算得
到机械臂末端点 位置和与目标点的距离, 构造环境观察信息, 包括:
建立6轴机械臂运动学模型, 并构建DH参数表; 根据采集到的机械臂关节位置q, 利用齐
次变换矩阵求解出机械臂焊枪末端的空间位置grip, 求解与该位置目标点的距离 dis=||
grip‑goal||, 设置是否发生碰撞的碰撞标志位co lli, 从而构造环境观察信息 。
4.根据权利要求1所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特
征在于, 所述将环境观 察信息作为MDP模型的状态量, 定义机械臂的动作空间以及避障奖励
函数, 包括:
建立MDP模型, 由机械臂关节位置、 机械臂末端点位置、 目标点位置、 机械臂末端位置与
目标点距离以及碰撞标志位构成状态量st=[q,grip,goal,colli], 由机械臂关节速度构
成动作
其中关节速度
是关节角度q的导数, 关节角度的动作空间为Π=[ ‑π,+
π ], 以及定义奖励函数如下:
其中colli为1表示发生碰撞, 为0表示没有发生碰撞。
5.根据权利要求1所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特
征在于, 所述根据状态量通过得到机械臂速度增量, 在规划空间中为机械臂规划 运动策略
并取得无碰运动策略, 包括:
机械臂运动策略, 是基于最大熵策略的深度强化学习网络训练模型, 包括Actor网络的
构建和Critic网络的构建; Actor网络的输入为当前的状态st, 输出为机械臂6轴 各关节的
角速度, 经 过设定回合的训练, 网络最终的输出即为无碰运动策略;
设置Actor网络和Critic网络的网络结构为256 ×256×256, 隐藏层均使用ReLU作为激
活函数, Actor网络的输出层使用tanh作为激活函数, 其输出范围为[ ‑1,1], 对应了机械臂
关节的速度, Critic网络的输出层使用ReLU作为激活函数, 同时Actor网络和Critic网络输权 利 要 求 书 1/3 页
2
CN 115091469 A
2出对应的熵; 设置与Actor网络和Critic网络规模大小一样的目标网络: Actor_target网络
和Crtic_target网络, 其中Actor_target网络的输出作为最终的无碰规划决策, 设置最大
训练回合与每 个回合最大步数为T。
6.根据权利要求5所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特
征在于, 所述网络模型的训练过程包括:
步骤4.1, 初始化Actor网络、 Critic网络、 Actor_target网络和Crtic_target网络参数
θ、
θtarget;
步骤4.2, 在每一个训练回合开始时, 机械臂的六个关节复位到初始位置 q=[0,0,0,0,
0,0];
步骤4.3, 对于每一个回合, A ctor网络根据当前状态st输出机械臂的六轴关节 速度的动
作, 通过下式表示当前状态下输出的动作at:
其中t表示当前时刻,
表示Actor网络参数,
表示Actor网络训练的结果, 即无碰动作
策略, 由执行动作后的新位置向量转到t+1时刻的下一个状态 st+1, 获得即时奖励 值rt; 由每
回合的最大步数T, 每一步记录状态st, 将这些状态集合为运动 轨迹τ1=[s1,s2,…sT], 下一
个回合同样可以生成运动轨 迹 τ2=[s′1,s′2,…s′T];
步骤4.4, 在两条运动轨迹τ1和轨迹τ2中, 选择轨迹的最后一个状态最接近目标点的轨
迹记为τclosest, 并将所述最后一个状态作为新目标; 在另外一条轨迹中随机选择k个状态,
重新计算这k个状态与新目标的奖励函数rt, 并替换τclosest中相应的状态, 重组成采样轨
迹τ, 存入缓存区R作为训练样本, 更新Actor和Critic网络参数;
步骤4.5, Critic网络的输出服从高斯分布, 相应的Critic网络的损失函数如下:
其中Qtarget(st,at)是Crtic_target网络的输出值, Qθ(st,at)是Crtic网络的输出, q_r为
标准差,
πθ(at|st)表示当前状态下输出的动作, E( ·)表示期望; 基于标
准的反向传播方法, 可以求出Critic网络参数θ 的梯度;
步骤4.6, 当训练回合数等于预设的最大回合数时, 结束训练, 得到最终训练后的Actor
网络, 即得到规划空间下机 械臂的最优运动策略。
7.根据权利要求6所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特
征在于, 所述网络参数 更新步骤如下:
(1)初始化Actor的网络参数
和Critic的神经网络参数θ;
(2)将网络参数
网络参数θ 复制到对应的Actor_target网络
和Crtic_target网
络θtarget作为这两个网络的参数:
(3)初始化预设内存缓存区R;
(4)从1到每回合 最大步数T 进行循环:
根据Actor网络输出一个动作at, 发送给机械臂并执行; 环境执行at, 返回新的状态st+1,
将这个状态的转换 过程(st,at,st+1,rt)存入轨迹 τ1和轨迹 τ2中, 并存入内存缓冲区R中;
(5)达到回合最大步数T后, 从内存缓冲区R中随机选择两条轨迹, 通过随机剪切重组样
本轨迹, 并计算奖励, 作为网络的训练数据集, 用(st,at,st+1,rt)表示其中单个训练数据;权 利 要 求 书 2/3 页
3
CN 115091469 A
3
专利 一种基于最大熵框架的深度强化学习机械臂运动规划方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:06:44上传分享