专利 一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211218404.9 (22)申请日 2022.10.05 (71)申请人哈尔滨理工大学地址 150080 黑龙江省哈尔滨市南岗区学府路52号 (72)发明人尤波　武江博　李佳钰　 (51)Int.Cl. B25J 9/16(2006.01) B25J 9/00(2006.01) (54)发明名称一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法 (57)摘要本发明公开了一种基于视觉信息的深度强化学习DDPG算法的机器臂抓取控制方法，旨在解决现有技术中机械臂工作场景灵活性差，场景变动后，人工示教调试慢，效率低等技术问题。该方法首先采用卷积神经网络并融合卡尔曼滤波，对待抓取的物体进行实时检测与跟踪，并提取待抓取物体的平面3D位姿信息。设计一种基于末端执行器速度平滑约束的示教机制，解决经典DDPG网络在初始化训练初由于动作随机导致的有效数据少，算法效率低的问题；并设计基于能量约束归一化非线性奖励函数，把输入到深度强化学习网络的数据解算至相同的区间，并且对变量进行非线性的函数映射，使得网络梯度下降的时候速率更快，提高训练效率和机械臂在靠近目标物体附近时产生的抖动问题；基于仿真环境对强化学习网络进行预训练，并对待抓取物体位姿进行显示表达，使得该算法在新对象和环境中具有更强的泛化能力，将快速迁移到真实世界的机械臂上面。权利要求书2页说明书6页附图3页 CN 115464659 A 2022.12.13 CN 115464659 A 1.一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法，该算法包括以下步骤：步骤1：基于YOLOv4网络融合卡尔曼滤波实现待抓取目标的检测与跟踪，获得目标平面上的3D(x,y, θz)信息。步骤2：设计一种能量约束的归一化非线性奖励函数Reward，在Ros+Gazebo中搭建U R3e 仿真环境，通过在仿真中训练网络，使模型快速收敛，进而对模型迁移训练控制现实中机械臂实现抓取。步骤3：提出一种末端执行器速度平滑约束的示教机制，解决经典DDPG网络在初始化训练初由于动作随机导致的有效数据少，算法效率低的问题。 2.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法，步骤1具体步骤如下： (1)使用coco数据集对深度学习网络进行预训练，收集待抓取物体照片，并按照voc数据集格式制作自己的数据集。在预训练模型基础上，根据制作的数据集继续训练网络模型使网络收敛。 (2)对目标检测的结果，融合卡尔曼滤波算法，实现目标检测与跟踪。 (3)根据目标检测框和待检测对象的颜色、形状等特征，计算待测物体的最小外接矩形，然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角 θz，得到目标的3D(x,y, θz)信息。 3.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂控制抓取方法，步骤2具体步骤如下： (1)在步骤1中获得目标物体的3D位姿基础上，令绕x， y轴的转角 θx＝θy＝0，测量获取摄像头到机械臂底座的垂直距离补全z轴坐标，根据坐标变换关系，得到目标物体基于机械臂底座坐标系的6D(x,y,z, θx, θy, θz)位姿信息。 (2)定义状态空间包括目标的位姿(6 维)和微分变量，机械臂关节转角(6维)和微分变量，末端执行器的位姿(6维)和微分变量。 (3)为了解决(多关节)机械臂因多解导致的机械臂抖动问题，设计基于能量约束的归一化非线性奖励函数，计算在最小转角约束下机械臂的抓取控制的最优解。 Reward＝ ‑( α1RT+α2Rθ) 其中α 是权重因子； RT是距离奖励，其中d是机械臂末端执行器到目标位置的距离， ds是机械臂工作空间的距离大小， δ是一个人为的阈值； Rθ是控制机械臂花费的能量奖励， θ是机械臂各个关节的转角， θs是关节的转动范围。权　利　要　求　书 1/2 页 2 CN 115464659 A 2通过对距离状态和机械臂转角状态进行归一化处理，把输入到深度强化学习网络的数据解算至相同的区间，统一输入到神经网络中数据的运算范围，并且对变量进行二次函数关系的非线性的函数映射，使得网络梯度下降的时候速率更快，从而加快训练。并且，通过设计能量约束函数，对机械臂的转角进行约束，改善机械臂因多解问题而抖动的缺点，计算在最小转角约束下机械臂的抓取控制的最优解。 4.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法，步骤3具体步骤如下： (1)使用ROS的moveit机械臂功能包，并设置末端执行器以恒定速度移动为约束条件，实现UR3e臂的运动控制。 (2)在机械臂的运动过程中，订阅UR3e过程中的action消息，获得机械臂T时刻的位置、速度等状态信息。使用距离奖励对所有获得的T时刻状态计算奖励。 (3)把基于机械臂模型控制产生的稳定的原始数据序列，打包为{St， At， Rt， St+1}格式，保存到经验库中，经验库的容量为M。 (4)在强化学习最初训练的阶段，使用基于示教方式保存的数据作为初始数据，解决 DDPG网络在最初训练时，因为随机动作导致的有效数据少、训练效率低等问题。权　利　要　求　书 2/2 页 3 CN 115464659 A 3

专利 一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法

专利一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法