公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211218404.9 (22)申请日 2022.10.05 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 尤波 武江博 李佳钰  (51)Int.Cl. B25J 9/16(2006.01) B25J 9/00(2006.01) (54)发明名称 一种基于视觉信息的深度强化学习DDPG算 法的机械臂抓取控制方法 (57)摘要 本发明公开了一种基于视觉信息的深度强 化学习DDPG算法的机器臂抓取控制方法, 旨在解 决现有技术中机械臂工作场景灵活性差, 场景变 动后, 人工示 教调试慢, 效率低等技术问题。 该方 法首先采用卷积神经网络并融合卡尔曼滤波, 对 待抓取的物体进行实时检测与跟踪, 并提取待抓 取物体的平面3D位姿信息。 设计一种基于末端执 行器速度平滑约束的示教机制, 解决经典DDPG网 络在初始化训练初由于动作 随机导致的有效数 据少, 算法效率低的问题; 并设计基于能量约束 归一化非线性奖励函数, 把输入到深度强化学习 网络的数据解算至相同的区间, 并且对变量进行 非线性的函数映射, 使 得网络梯度下降的时候速 率更快, 提高训练效率和机械臂在靠近目标物体 附近时产生的抖动问题; 基于仿真环 境对强化学 习网络进行预训练, 并对待抓取物体位姿进行显 示表达, 使得该算法在新对象和环 境中具有更强的泛化能力, 将快速迁移到真实世界的机械臂上 面。 权利要求书2页 说明书6页 附图3页 CN 115464659 A 2022.12.13 CN 115464659 A 1.一种基于视觉信 息的深度强化学习DDPG算法的机械臂抓取控制方法, 该算法包括以 下步骤: 步骤1: 基于YOLOv4网络融合卡尔曼滤波实现待抓取目标的检测与跟踪, 获得目标平面 上的3D(x,y, θz)信息。 步骤2: 设计一种能量约束的归一化非线性奖励函数Reward, 在Ros+Gazebo中搭建U R3e 仿真环境, 通过在仿 真中训练网络, 使模型快速收敛, 进而对模型迁移训练控制现实中机械 臂实现抓取。 步骤3: 提出一种末端执行器速度平滑约束的示教机制, 解决经典DDPG网络在初始化训 练初由于动作随机导 致的有效数据少, 算法效率低的问题。 2.如权利要求1所述的一种基于视觉信 息的深度强化学习DDPG算法的机械臂抓取控制 方法, 步骤1具体步骤如下: (1)使用coco数据集对深度学习网络进行预训练, 收集待抓取物体照片, 并按照voc数 据集格式制作自己的数据集。 在预训练模型基础上, 根据制作的数据集继续训练网络模型 使网络收敛。 (2)对目标检测的结果, 融合 卡尔曼滤波算法, 实现目标检测与跟踪。 (3)根据目标检测框和待检测对象的颜色、 形状等特征, 计算待测物体的最小外接矩 形, 然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角 θz, 得到目标的3D(x,y, θz)信 息。 3.如权利要求1所述的一种基于视觉信 息的深度强化学习DDPG算法的机械臂控制抓取 方法, 步骤2具体步骤如下: (1)在步骤1中获得目标物体的3D位姿基础上, 令绕x, y轴的转角 θx=θy=0, 测量获取摄 像头到机械臂底座的垂 直距离补 全z轴坐标, 根据坐标变换关系, 得到目标物体基于机械臂 底座坐标系的6D(x,y,z, θx, θy, θz)位姿信息 。 (2)定义状态空间 包括目标的位姿(6 维)和微分变量, 机 械臂关节转角(6维)和微分变量, 末端执 行器的位姿(6维)和微分变量。 (3)为了解决(多关节)机械臂因多解导致的机械臂抖动问题, 设计基于能量约束 的归 一化非线性奖励函数, 计算在最小转角约束下机 械臂的抓取控制的最优解。 Reward= ‑( α1RT+α2Rθ) 其中α 是权重因子; RT是距离奖励, 其中d是机械臂末端执行器到目标位置的距离, ds是 机械臂工作空间的距离大小, δ是一个人为的阈值; Rθ是控制机械臂花费的能量奖励, θ是机 械臂各个关节的转角, θs是关节的转动范围。权 利 要 求 书 1/2 页 2 CN 115464659 A 2通过对距离状态和机械臂转角状态进行归一化处理, 把输入到深度强化学习网络的数 据解算至相同的区间, 统一输入到神经网络中数据的运算范围, 并且对变量进行二次函数 关系的非线性的函数映射, 使得网络梯度下降的时候速率更快, 从而加快训练。 并且, 通过 设计能量约束函数, 对机械臂的转角进 行约束, 改善机械臂因多解问题而抖动的缺点, 计算 在最小转角约束下机 械臂的抓取控制的最优解。 4.如权利要求1所述的一种基于视觉信 息的深度强化学习DDPG算法的机械臂抓取控制 方法, 步骤3具体步骤如下: (1)使用ROS的moveit机械臂功能包, 并设置末端执行器以恒定速度移动为约束条件, 实现UR3e臂的运动控制。 (2)在机械臂的运动过程 中, 订阅UR3e过程 中的action消息, 获得机械臂T时刻的位置、 速度等状态信息。 使用距 离奖励 对所有获 得的T时刻状态计算奖励。 (3)把基于机械臂模型控制产生 的稳定的原始数据序列, 打包为{St, At, Rt, St+1}格式, 保存到经验库中, 经验库的容 量为M。 (4)在强化学习最初训练的阶段, 使用基于示教方式保存的数据作为初始数据, 解决 DDPG网络在最初训练时, 因为随机动作导 致的有效数据少、 训练效率低等问题。权 利 要 求 书 2/2 页 3 CN 115464659 A 3

.PDF文档 专利 一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法 第 1 页 专利 一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法 第 2 页 专利 一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:07:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。