专利 基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210722984.9 (22)申请日 2022.06.24 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人王建中　张晟　边少博　徐浩楠　 (74)专利代理机构北京理工大学专利中心 11120 专利代理师李爱英 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/73(2017.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法 (57)摘要本发明公开了一种基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，基于UE4 仿真引擎搭建虚拟仿真环境，生成一系列无人武器平台视觉主动跟踪瞄准任务组成训练集和测试集；利用深度强化学习近端策略优化算法构建深度元强化学习模型；设计跟踪瞄准任务的奖励函数，在训练集中训练深度元强化学习模型直到模型收敛；在测试集中测试收敛的模型；将模型部署在无人武器平台上，验证模型在现实环境中的性能，实现快速适应新任务，提高无人武器平台视觉主动跟踪瞄准系统的泛化能力和跟踪瞄准精度。权利要求书2页说明书4页附图3页 CN 115187631 A 2022.10.14 CN 115187631 A 1.基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于该方法的步骤包括：步骤S1，基于UE4仿真引擎搭建虚拟仿真环境，生成一系列无人武器平台视觉主动跟踪瞄准任务组成训练集和测试集；步骤S2，利用深度强化学习P PO算法和LSTM网络构建深度元强化学习模型；步骤S3，设计跟踪瞄准任务的奖励函数，在训练集中训练深度元强化学习模型直到模型收敛；步骤S4，在测试集中测试按照步骤S3训练至收敛的模型；步骤S5，将步骤S4测试后的模型部署在无人武器平台上，实现无人武器平台视觉主动跟踪瞄准。 2.根据权利要求1所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：所述的步骤S1中，基于UE4仿真引擎搭建虚拟仿真环境时随机改变环境参数、随机改变无人武器平台参数以及随机改变目标参数。 3.根据权利要求2所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：所述的环境参数包括光照、地形、障碍物、颜色和纹理；所述的无人武器平台参数包括摩擦系数、质量、质心位置、惯性矩阵和形状尺寸；所述的目标参数为目标种类、初始位置、初始速度、颜色和纹理。 4.根据权利要求1 ‑3任一所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：所述的步骤S1中，测试集中的任务不包括在训练集中，目标包括地面目标和空中目标。 5.根据权利要求1所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：所述的步骤S2中，深度强化学习PPO算法包括评价网络和策略网络，评价网络和策略网络都是由LSTM网络组成。 6.根据权利要求5所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：深度强化学习PPO算法的详细步骤为：以当前时刻堆叠的视频序列、前一时刻的动作和当前时刻的奖励值作为输入，经过卷积神经网络和全连接网络提取特征，将所提取的特征输入到策略网络和评价网络中，策略网络输出无人武器平台的动作，评价网络输出状态动作价值。 7.根据权利要求1所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：所述的步骤S3中，深度元强化学习模型是通过最大化最终奖励来实现跟踪瞄准任务，设计跟踪瞄准任务的奖励函数，在训练集中训练深度元强化学习模型直到模型收敛。 8.根据权利要求7所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：跟踪瞄准任务的奖励函数分为无人平台奖励ragent和武器云台奖励rweapon两部分：权　利　要　求　书 1/2 页 2 CN 115187631 A 2r＝ragent+ μrweapon,(if wagent_yaw<wprecision: μ＝1else: μ＝0) 其中， Δx和Δy表示无人武器平台与目标之间在世界坐标系下的x轴和y轴的偏移量； wagent_yaw为无人平台中心线对准目标所需的偏航角； wprecision为无人平台的运动控制分辨率； wweapon_yaw和wweapon_pitch为武器云台上武器中心线瞄准目标中心点所需的偏航角和俯仰角。 9.根据权利要求1所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：所述的步骤S4中，在测试集中测试训练至收敛的模型的方法为：将武器云台上的武器替换为相机进行测试，当模型在测试集的所有任务中满足以下指标则判定模型能够稳定精确地跟踪目标； dtarget‑dsafe≤Δd taim≥Δt 其中， dtarget表示无人武器平台和目标之间的距离； dsafe表示无人武器平台和目标之间需要保持的安全距离； Δd表示允许的距离误差； Δxtarget和Δytarget表示武器云台上相机的图像的中心点到目标中心点在像素坐标系下x轴和y轴偏移量； Δσ 表示允许的瞄准精度误差， taim表示连续满足前两条指标时的跟踪瞄准时长； Δt 表示最小跟踪瞄准时长。 10.根据权利要求1所述的基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法，其特征在于：将步骤S4测试后的模型部署在军用无人武器平台上进行应用，并执行跟踪任务、侦查任务和瞄准攻击任务，输入当前时刻相机采集的视频序列、当前时刻的奖励和前一时刻的动作，输出无人武器平台的动作指令，自主跟踪、瞄准和攻击目标或是将步骤S4测试后的模型部署在采集虹膜或人脸信息系统上。权　利　要　求　书 2/2 页 3 CN 115187631 A 3

专利 基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法

专利基于深度元强化学习的无人武器平台视觉主动跟踪瞄准方法