公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210936717.1 (22)申请日 2022.08.05 (71)申请人 广东工业大 学 地址 510000 广东省广州市越秀区东 风东 路729号 (72)发明人 程良伦 胡博 王涛  (74)专利代理 机构 佛山市君创知识产权代理事 务所(普通 合伙) 44675 专利代理师 张燕玲 (51)Int.Cl. B25J 9/16(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于最大熵框架的深度强化学习机械 臂运动规划方法 (57)摘要 本发明公开了一种基于最大熵框架的深度 强化学习机械臂运动规划方法, 包括: 在机械臂 运动前采集一次环境信息, 所述的环 境信息包括 初始状态下的机械臂状态信息、 运动目标点和中 间障碍物信息, 得到规划空间; 建立机械臂运动 学模型, 将采集到的状态信息通过正运动学运算 得到机械臂末端点位置信息, 构造环境观察信 息; 将环境观察信息作为MDP 模型的状态量, 定义 机械臂的动作空间以及奖励函数; 基于深度强化 学习算法, 根据状态量得到机械臂速度增量, 通 过将返回分布 函数嵌入最大熵 来动态调整Q的范 围, 缓解传统强化学习的Q值的高估情况, 为机械 臂规划取得无碰策略; 同时利用重组轨迹的方 法, 充分探索受限空间, 提升 机械臂规划的速度。 权利要求书3页 说明书6页 附图3页 CN 115091469 A 2022.09.23 CN 115091469 A 1.一种基于最大熵框架的深度强化学习机 械臂运动规划方法, 其特 征在于, 包括: 在机器人的机械臂运动前采集一 次环境信 息, 所述的环境信 息包括初始状态下的机械 臂状态信息、 运动目标点和中间障碍物信息, 得到规划空间; 建立机械臂运动学模型, 根据采集到的机械臂状态信 息通过正运动学运算得到机械臂 末端点位置和与目标点的距离, 构造环境观察信息; 将环境观察信息作为MD P模型的状态量, 定义机 械臂的动作空间以及避障奖励函数; 利用基于深度强化学习算法的强化学习算法, 根据状态量通过得到机械臂速度增量, 在规划空间中为机械臂 规划运动策略并取得无碰运动策略, 使得机械臂能够在避开障碍物 的前提下 稳定的运动到目标位置 。 2.根据权利要求1所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特 征在于, 初始状态下的机械臂状态信息为机械臂关节位置q, 初始 为0; 运动目标点为人为设 定的焊接点, 包含坐标信息goal; 中间的障碍物信息采用包络盒生成, 包括机械臂本体和 场 景障碍, 构成初始规划空间Ω。 3.根据权利要求1所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特 征在于, 所述建立机械臂运动学模型, 根据采集到的机械臂状态信息通过正运动学运算得 到机械臂末端点 位置和与目标点的距离, 构造环境观察信息, 包括: 建立6轴机械臂运动学模型, 并构建DH参数表; 根据采集到的机械臂关节位置q, 利用齐 次变换矩阵求解出机械臂焊枪末端的空间位置grip, 求解与该位置目标点的距离 dis=|| grip‑goal||, 设置是否发生碰撞的碰撞标志位co lli, 从而构造环境观察信息 。 4.根据权利要求1所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特 征在于, 所述将环境观 察信息作为MDP模型的状态量, 定义机械臂的动作空间以及避障奖励 函数, 包括: 建立MDP模型, 由机械臂关节位置、 机械臂末端点位置、 目标点位置、 机械臂末端位置与 目标点距离以及碰撞标志位构成状态量st=[q,grip,goal,colli], 由机械臂关节速度构 成动作 其中关节速度 是关节角度q的导数, 关节角度的动作空间为Π=[ ‑π,+ π ], 以及定义奖励函数如下: 其中colli为1表示发生碰撞, 为0表示没有发生碰撞。 5.根据权利要求1所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特 征在于, 所述根据状态量通过得到机械臂速度增量, 在规划空间中为机械臂规划 运动策略 并取得无碰运动策略, 包括: 机械臂运动策略, 是基于最大熵策略的深度强化学习网络训练模型, 包括Actor网络的 构建和Critic网络的构建; Actor网络的输入为当前的状态st, 输出为机械臂6轴 各关节的 角速度, 经 过设定回合的训练, 网络最终的输出即为无碰运动策略; 设置Actor网络和Critic网络的网络结构为256 ×256×256, 隐藏层均使用ReLU作为激 活函数, Actor网络的输出层使用tanh作为激活函数, 其输出范围为[ ‑1,1], 对应了机械臂 关节的速度, Critic网络的输出层使用ReLU作为激活函数, 同时Actor网络和Critic网络输权 利 要 求 书 1/3 页 2 CN 115091469 A 2出对应的熵; 设置与Actor网络和Critic网络规模大小一样的目标网络: Actor_target网络 和Crtic_target网络, 其中Actor_target网络的输出作为最终的无碰规划决策, 设置最大 训练回合与每 个回合最大步数为T。 6.根据权利要求5所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特 征在于, 所述网络模型的训练过程包括: 步骤4.1, 初始化Actor网络、 Critic网络、 Actor_target网络和Crtic_target网络参数 θ、 θtarget; 步骤4.2, 在每一个训练回合开始时, 机械臂的六个关节复位到初始位置 q=[0,0,0,0, 0,0]; 步骤4.3, 对于每一个回合, A ctor网络根据当前状态st输出机械臂的六轴关节 速度的动 作, 通过下式表示当前状态下输出的动作at: 其中t表示当前时刻, 表示Actor网络参数, 表示Actor网络训练的结果, 即无碰动作 策略, 由执行动作后的新位置向量转到t+1时刻的下一个状态 st+1, 获得即时奖励 值rt; 由每 回合的最大步数T, 每一步记录状态st, 将这些状态集合为运动 轨迹τ1=[s1,s2,…sT], 下一 个回合同样可以生成运动轨 迹 τ2=[s′1,s′2,…s′T]; 步骤4.4, 在两条运动轨迹τ1和轨迹τ2中, 选择轨迹的最后一个状态最接近目标点的轨 迹记为τclosest, 并将所述最后一个状态作为新目标; 在另外一条轨迹中随机选择k个状态, 重新计算这k个状态与新目标的奖励函数rt, 并替换τclosest中相应的状态, 重组成采样轨 迹τ, 存入缓存区R作为训练样本, 更新Actor和Critic网络参数; 步骤4.5, Critic网络的输出服从高斯分布, 相应的Critic网络的损失函数如下: 其中Qtarget(st,at)是Crtic_target网络的输出值, Qθ(st,at)是Crtic网络的输出, q_r为 标准差, πθ(at|st)表示当前状态下输出的动作, E( ·)表示期望; 基于标 准的反向传播方法, 可以求出Critic网络参数θ 的梯度; 步骤4.6, 当训练回合数等于预设的最大回合数时, 结束训练, 得到最终训练后的Actor 网络, 即得到规划空间下机 械臂的最优运动策略。 7.根据权利要求6所述的基于最大熵框架的深度强化学习机械臂运动规划方法, 其特 征在于, 所述网络参数 更新步骤如下: (1)初始化Actor的网络参数 和Critic的神经网络参数θ; (2)将网络参数 网络参数θ 复制到对应的Actor_target网络 和Crtic_target网 络θtarget作为这两个网络的参数: (3)初始化预设内存缓存区R; (4)从1到每回合 最大步数T 进行循环: 根据Actor网络输出一个动作at, 发送给机械臂并执行; 环境执行at, 返回新的状态st+1, 将这个状态的转换 过程(st,at,st+1,rt)存入轨迹 τ1和轨迹 τ2中, 并存入内存缓冲区R中; (5)达到回合最大步数T后, 从内存缓冲区R中随机选择两条轨迹, 通过随机剪切重组样 本轨迹, 并计算奖励, 作为网络的训练数据集, 用(st,at,st+1,rt)表示其中单个训练数据;权 利 要 求 书 2/3 页 3 CN 115091469 A 3

.PDF文档 专利 一种基于最大熵框架的深度强化学习机械臂运动规划方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于最大熵框架的深度强化学习机械臂运动规划方法 第 1 页 专利 一种基于最大熵框架的深度强化学习机械臂运动规划方法 第 2 页 专利 一种基于最大熵框架的深度强化学习机械臂运动规划方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:06:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。