(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211218404.9
(22)申请日 2022.10.05
(71)申请人 哈尔滨理工大 学
地址 150080 黑龙江省哈尔滨市南岗区学
府路52号
(72)发明人 尤波 武江博 李佳钰
(51)Int.Cl.
B25J 9/16(2006.01)
B25J 9/00(2006.01)
(54)发明名称
一种基于视觉信息的深度强化学习DDPG算
法的机械臂抓取控制方法
(57)摘要
本发明公开了一种基于视觉信息的深度强
化学习DDPG算法的机器臂抓取控制方法, 旨在解
决现有技术中机械臂工作场景灵活性差, 场景变
动后, 人工示 教调试慢, 效率低等技术问题。 该方
法首先采用卷积神经网络并融合卡尔曼滤波, 对
待抓取的物体进行实时检测与跟踪, 并提取待抓
取物体的平面3D位姿信息。 设计一种基于末端执
行器速度平滑约束的示教机制, 解决经典DDPG网
络在初始化训练初由于动作 随机导致的有效数
据少, 算法效率低的问题; 并设计基于能量约束
归一化非线性奖励函数, 把输入到深度强化学习
网络的数据解算至相同的区间, 并且对变量进行
非线性的函数映射, 使 得网络梯度下降的时候速
率更快, 提高训练效率和机械臂在靠近目标物体
附近时产生的抖动问题; 基于仿真环 境对强化学
习网络进行预训练, 并对待抓取物体位姿进行显
示表达, 使得该算法在新对象和环 境中具有更强的泛化能力, 将快速迁移到真实世界的机械臂上
面。
权利要求书2页 说明书6页 附图3页
CN 115464659 A
2022.12.13
CN 115464659 A
1.一种基于视觉信 息的深度强化学习DDPG算法的机械臂抓取控制方法, 该算法包括以
下步骤:
步骤1: 基于YOLOv4网络融合卡尔曼滤波实现待抓取目标的检测与跟踪, 获得目标平面
上的3D(x,y, θz)信息。
步骤2: 设计一种能量约束的归一化非线性奖励函数Reward, 在Ros+Gazebo中搭建U R3e
仿真环境, 通过在仿 真中训练网络, 使模型快速收敛, 进而对模型迁移训练控制现实中机械
臂实现抓取。
步骤3: 提出一种末端执行器速度平滑约束的示教机制, 解决经典DDPG网络在初始化训
练初由于动作随机导 致的有效数据少, 算法效率低的问题。
2.如权利要求1所述的一种基于视觉信 息的深度强化学习DDPG算法的机械臂抓取控制
方法, 步骤1具体步骤如下:
(1)使用coco数据集对深度学习网络进行预训练, 收集待抓取物体照片, 并按照voc数
据集格式制作自己的数据集。 在预训练模型基础上, 根据制作的数据集继续训练网络模型
使网络收敛。
(2)对目标检测的结果, 融合 卡尔曼滤波算法, 实现目标检测与跟踪。
(3)根据目标检测框和待检测对象的颜色、 形状等特征, 计算待测物体的最小外接矩
形, 然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角 θz, 得到目标的3D(x,y, θz)信
息。
3.如权利要求1所述的一种基于视觉信 息的深度强化学习DDPG算法的机械臂控制抓取
方法, 步骤2具体步骤如下:
(1)在步骤1中获得目标物体的3D位姿基础上, 令绕x, y轴的转角 θx=θy=0, 测量获取摄
像头到机械臂底座的垂 直距离补 全z轴坐标, 根据坐标变换关系, 得到目标物体基于机械臂
底座坐标系的6D(x,y,z, θx, θy, θz)位姿信息 。
(2)定义状态空间
包括目标的位姿(6
维)和微分变量, 机 械臂关节转角(6维)和微分变量, 末端执 行器的位姿(6维)和微分变量。
(3)为了解决(多关节)机械臂因多解导致的机械臂抖动问题, 设计基于能量约束 的归
一化非线性奖励函数, 计算在最小转角约束下机 械臂的抓取控制的最优解。
Reward= ‑( α1RT+α2Rθ)
其中α 是权重因子; RT是距离奖励, 其中d是机械臂末端执行器到目标位置的距离, ds是
机械臂工作空间的距离大小, δ是一个人为的阈值; Rθ是控制机械臂花费的能量奖励, θ是机
械臂各个关节的转角, θs是关节的转动范围。权 利 要 求 书 1/2 页
2
CN 115464659 A
2通过对距离状态和机械臂转角状态进行归一化处理, 把输入到深度强化学习网络的数
据解算至相同的区间, 统一输入到神经网络中数据的运算范围, 并且对变量进行二次函数
关系的非线性的函数映射, 使得网络梯度下降的时候速率更快, 从而加快训练。 并且, 通过
设计能量约束函数, 对机械臂的转角进 行约束, 改善机械臂因多解问题而抖动的缺点, 计算
在最小转角约束下机 械臂的抓取控制的最优解。
4.如权利要求1所述的一种基于视觉信 息的深度强化学习DDPG算法的机械臂抓取控制
方法, 步骤3具体步骤如下:
(1)使用ROS的moveit机械臂功能包, 并设置末端执行器以恒定速度移动为约束条件,
实现UR3e臂的运动控制。
(2)在机械臂的运动过程 中, 订阅UR3e过程 中的action消息, 获得机械臂T时刻的位置、
速度等状态信息。 使用距 离奖励
对所有获
得的T时刻状态计算奖励。
(3)把基于机械臂模型控制产生 的稳定的原始数据序列, 打包为{St, At, Rt, St+1}格式,
保存到经验库中, 经验库的容 量为M。
(4)在强化学习最初训练的阶段, 使用基于示教方式保存的数据作为初始数据, 解决
DDPG网络在最初训练时, 因为随机动作导 致的有效数据少、 训练效率低等问题。权 利 要 求 书 2/2 页
3
CN 115464659 A
3
专利 一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:07:08上传分享