公共安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211138480.9 (22)申请日 2022.09.19 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 吴贺丰 陈伟峰 陈志广 林倞 (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 郑堪泳 (51)Int.Cl. G06F 16/583(2019.01) G06N 3/08(2006.01) G06V 10/42(2022.01) G06V 10/44(2022.01) G06V 10/74(2022.01) (54)发明名称 一种文本描述驱动的行 人搜索方法 (57)摘要 本发明公开了一种文本描述驱动 的行人搜 索方法, 如下: 构建基于对称 Transformer的双流 模 型 ,所 述 的 双 流 模 型 包 括 一 个 视 觉 Transformer编码器和 一个文本Transformer编 码器; 对于图片, 先将图片进行均分切分, 将每个 图片块进行图像块的线性映射后与位置编码相 加作为输入视觉Tran sformer编码器的第一编码 向量; 对于文本, 将每个词语先进行向量化编码, 再经过词的线性映射并加上位置编码后作为输 入文本Transformer编码器的第二编码向量; 将 视觉Transformer编码器输出的 图像全局特征和 文本Transformer编码器输出的文本全局特征逐 一进行余弦相似度计算, 找到和对应文本余弦相 似度最高的图像, 即可实现基于文本的行人搜 索。 权利要求书2页 说明书7页 附图2页 CN 115455226 A 2022.12.09 CN 115455226 A 1.一种文本描述驱动的行 人搜索方法, 其特 征在于: 所述的方法包括 步骤如下: 构建基于对称Transformer的双流模型, 所述的双流模型包括一个视觉Transformer编 码器和一个文本Transformer编码器; 对于图片, 先将图片进行均分切分, 将每个图片块进行图像块的线性映射后与位置编 码相加作为输入视觉Transformer编码器的第一编码向量; 所述的第一编码向量为N1个D维 向量; 其中, N1表示图像块数量; 对于文本, 将每个词语先进行向量化编码, 再经过词的线性映射并加上位置编码后作 为输入文本Tr ansformer编码器的第二编码向量; 所述的第二编码向量为N2个D维向量, 其 中, N2表示单词数量; 将视觉Transformer编码器输出的图像全局 特征和文本Transformer编码器输出的文 本全局特征逐一进行余弦相似度计算, 找到和对应文本余弦相似度最高的图像, 即可实现 基于文本的行 人搜索。 2.根据权利要求1所述的文本描述驱动的行人搜索方法, 其特征在于: 为了提取不同特 征的全局特征, 在第一编码向量输入视觉Transformer编码器的同时, 额外添加一个向量作 为一个全局特 征输出, 用于后续的余弦相似度判断; 同理, 在第二编码向量输入文本Transformer编码器的同时, 也额外添加一个向量作为 一个全局特 征输出, 用于后续的余弦相似度判断。 3.根据权利要求1所述的文本描述驱动的行人搜索方法, 其特征在于: 所述的余弦相似 度的计算公式表达为: 其中, fT表示文本全局特 征, fI表示图像全局特 征, ‖ ‖表示 L2范数。 4.根据权利要求1所述的文本描述驱动的行人搜索方法, 其特征在于: 在利用双流模型 识别之前, 采用跨模态对比学习方法对双流模型进行训练。 5.根据权利要求4所述的文本描述驱动的行人搜索方法, 其特征在于: 所述的跨模态对 比学习方法, 具体如下: 训练双流模型时, 在一个批次中, 给定N条图像 ‑文本对, 每个对的文本全局特征fT作为 查询, 图像全局特征fI作为关键字, 则训练时希望相互匹配的文本全局特征和图像全局特 征相似度高, 而与fT不相似的图像全局特征作为负样本, 由此构建文本搜索图像 的第一损 失函数; 同理, 采用图片特征作为查询, 文本全局特征作为关键字, 用图像去搜文本依次训练双 流模型, 由此构建图像搜索文本的第二损失函数; 将第一损失函数和第二损失函数两者之和构建双流模型的最终损失函数。 6.根据权利要求5所述的文本描述驱动的行人搜索方法, 其特征在于: 所述的第 一损失 函数的表达式如下: 所述的第二损失函数的表达式如下:权 利 要 求 书 1/2 页 2 CN 115455226 A 2所述的最终损失函数的表达式如下: 其中, 表示第j个文本全局特 征、 表示第j个图像全局特 征、 τ表示温度系数。 7.根据权利要求5所述的文本描述驱动的行人搜索方法, 其特征在于: 为了防止双流模 型过拟合, 采用近似数据生成方法构建用于训练的多模态混合样本; 采用包括随机连续多单词删除、 随机单词删除、 随机同义词替换几种方法中的一种或 多种生成近似文本; 将生成的近似文本与对应的一张图片输入双流模型进行训练; 将两张不同的图片通过插值后得到新的图片, 将两个不同的句子通过拼接后得到新的 句子, 将新的图片和新的句子作为多模态混合样本作为训练样本 输入双流模型进行训练。 8.根据权利要求5所述的文本描述驱动的行人搜索方法, 其特征在于: 使用锐度感知优 化器SAM来代 替传统的Adam优化器对双流模 型训练, 所述的锐度感知优化器SAM采用二阶梯 度优化方法。 9.根据权利要求8所述的文本描述驱动的行人搜索方法, 其特征在于: 所述的二阶梯度 优化方法, 具体如下: 基于python和PyTorch深度学习框架, 采用锐度感知优化器SAM, 初始学习率为0.001, 前10个轮次采用慢启动策 略, 之后每20个轮次学习 率衰减为原来的1/10; 训练直到双流模 型收敛。 10.一种计算机系统, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至9 任一项所述文本描述驱动的行 人搜索方法的步骤。权 利 要 求 书 2/2 页 3 CN 115455226 A 3
专利 一种文本描述驱动的行人搜索方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:30:51
上传分享
举报
下载
原文档
(673.1 KB)
分享
友情链接
GB-T 13448-2019 彩色涂层钢板及钢带试验方法.pdf
众城智库 信创产业发展报告 2021.pdf
DB32-T 4659.2-2024 医院公共卫生工作规范 第2部分:疾控机构医防融合工作指南 江苏省.pdf
法律法规 重庆市行政事业性收费管理条例.pdf
民航 MH-T 6123.4-2023 行李处理系统 第4部分:托盘式分拣机.pdf
GM-T 0013-2012 可信计算 可信密码模块符合性检测规范.pdf
GB-T 3979-2008 物体色的测量方法.pdf
DB35-T 1777-2018 政务数据汇聚 数据集的规范化描述 福建省.pdf
T-CESA 1254—2023 智慧博物馆建设总体要求.pdf
GB-T 32169.4-2015 政务服务中心运行规范 第4部分:窗口服务评价要求.pdf
YD-T 面向云计算的安全运营中心能力要求 送审稿.pdf
安全培训教育管理制度.pdf
DB31-T 1356.2-2022 公共数据资源目录 第2部分:元数据规范 上海市.pdf
T-CCTAS 24—2021 互联网货运平台安全运营规范.pdf
TB-T 1842.3-2016 受电弓滑板 第3部分:碳滑板.pdf
GB-T 27000-2023 合格评定 词汇和通用原则.pdf
GB-T 42048-2022 载人航天空间科学与应用项目遴选要求.pdf
GB-T 25068.3-2022 信息技术 安全技术 网络安全 第3部分:面向网络接入场景的威胁、设计技术和控制.pdf
GB-T 9126.1-2023 管法兰用非金属平垫片 第1部分:PN系列.pdf
GB-T 25810-2019 染料 产品标志、标签、包装、运输和贮存通则.pdf
1
/
12
评价文档
赞助2元 点击下载(673.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。