(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211007329.1
(22)申请日 2022.08.22
(71)申请人 华中农业大 学
地址 430070 湖北省武汉市洪山区狮子山
街1号
(72)发明人 向金海 蔡汶宏 张子强 朱焰新
肖书尧 章英
(74)专利代理 机构 湖北武汉 永嘉专利代理有限
公司 42102
专利代理师 樊凡
(51)Int.Cl.
G06V 30/41(2022.01)
G06V 30/19(2022.01)
G06F 40/126(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种跨模态语义 生成图像模型和方法
(57)摘要
本发明提供了一种跨模态语义生成图像模
型和方法, 采用了深度学习领域的生成对抗网络
技术, 结合自然语言处理领域的Bert模型提取文
本描述的特征向量作为图像生 成的条件, 从而生
成符合文本描述的图像, 实现了由文本描述产生
图像的功能。 本发明提出了自适应语义特征融合
模块, 通过跨模态的方式调整生成图像, 将语义
特征更好地融合到图像生 成的过程中, 更加有效
地构建文本与图像 之间的映射关系, 使得生成图
像更加贴合语义描述。 本发明将对比学习的方法
应用到跨模态语义图像生 成研究中, 提出基于对
比学习的损失函数, 通过其约束文本特征与图像
特征之间的相关性增强最终生成图像与语义的
一致性, 极大提升 了模型性能。
权利要求书4页 说明书7页 附图5页
CN 115512368 A
2022.12.23
CN 115512368 A
1.一种跨模态语义生成图像模型, 其特征在于: 包括依次连接的文本编码器、 生成网络
模块和鉴别网络模块;
文本编码器采用预训练的Bert 网络模型, 用于获取目标图像文本描述的句子向量esent
和词向量eword;
生成网络模块包括依次连接的全连接层、 连续多个UpBlock块和伪图像生成模块Conv_
img;
每个UpBlock块包括残差块ResBl ock和上采样层UpSample;
残差块ResBl ock包括主干结构和捷径Shor tcut;
残差块ResBlock的主干结构包括第一融合模块和第二 融合模块; 第一融合模块用于进
行词级语义的融合; 第二融合模块用于进行句子级语义的融合;
第一融合模块和第二融合模块的结构相同, 均包括自适应语义图像特征融合模块As ‑
if Module、 卷积核为3 ×3且步长为1的卷积层Conv和激活函数层LeakyRelu, 表示为As ‑if
module+Leakyrelu+Conv, 用于加强自适应语义图像特征融合模块As ‑if Module对特征映
射的效果;
第一融合模块包括第一单隐层MLP用于从句子向量esent中预测语言条件的通道尺度参
数γ和移动参数β:
γ=MLPs(esent), β =MLPs(esent),
第二融合模块包括第二单隐层MLP用于从词向量eword中得到参数:
γ′=MLPs(eword), β′=MLPs(eword),
设B、 C、 H、 W分别代表特征 向量的批 次、 通道数、 高度、 宽度, 对前一层输入的特征 向量hi
∈RB×C×H×W先利用通道尺度参数γ进行特征通道尺度 变化, 然后利用移动参数β 进行偏移操
作, 表示为:
As(hi|e)=γi·hi+βi;
鉴别网络模块包括依次连接的一个FC全连接层和连续多个DownBlock块构成的下采样
模块, 具有图像编码器的功能。
2.根据权利要求1所述的一种跨模态语义生成图像模型, 其特征在于: 生成网络模块
中:
全连接层用于进行变形操作;
捷径Shortcut包括自适应语义图像特征融合模块As ‑if Module、 卷积核为3 ×3且步长
为1的卷积层Co nv和激活函数层LeakyRelu, 表示 为As‑if module+Leakyrelu+Co nv;
伪图像生成模块Conv_img包括激活函数层Leaky Relu、 卷积核为3 ×3的卷积层Conv和
激活函数层Tanh 。
3.根据权利要求1所述的一种跨模态语义生成图像模型, 其特征在于: 鉴别网络模块
中:
每个DownBlock块包括卷积层Conv和激活函数层LeakyRelu, 表示为Conv ‑LeakyRelu ‑
Conv‑LeakyRelu, 其中前一个卷积块采用尺寸为4 ×4、 步长为2的卷积核用于进行卷积操
作, 后一个卷积块采用3 ×3、 步长为1的卷积核用于进行 卷积操作。
4.根据权利要求1所述的一种跨模态语义 生成图像模型, 其特 征在于:
Bert网络模型用于通过语义编码将编码后的词向量和句子向量从全局到局部逐步加权 利 要 求 书 1/4 页
2
CN 115512368 A
2入到生成网络模块中, 使得在生成图像的不同阶段有相应的语义信息监 督模型;
设Preal是真实图像的分布, Pfake是生成图像的分布, 生成网络模块为G(z), 鉴别网络模
块为D(x); 则鉴别网络模块的对抗损失函数为:
最终模型训练过程中生成网络模块的对抗损失函数为:
5.根据权利要求 4所述的一种跨模态语义 生成图像模型, 其特 征在于:
采用对比学习的思想定义具有对应关系的两对样本对: (图像, 文本描述)、 (生成图像,
真实图像), 通过学习损失函数获得所述的样 本对的更好的特征向量表示, 运用两类对比损
失函数InfoNCE loss最大化样 本对之间的互信息, 分别用于对生 成网络模块和鉴别网络模
块进行学习更新, 使得网络模型收敛生成更加真实的高分辨 率图像;
设一系列样本特征表示为x1,i, p(x)是样本特征的分布函数, 对匹配的正样本x2,i~p(x2
|x1,i)的评分高于其他M ‑1个负样本x2,j~p(x2), 使InfoNCE loss最小化; 设S( ·,·)是计
算评分的函数, 则:
定义互信息为:
I(x1; x2)≥log(M)‑LNCE;
采用余弦相似度作为评分函数, 余弦相似度的计算公式为:
设图像为x, 对应的文本描述为s, τ是超参数, 鉴别网络模块用作图像编码器fimg(·),
则样本对(图像, 文本描述)为:
Sdes(x,s)=cos(fimg(x),fsent(s))/ τ;
设采用BERT网络的文本编码器为fsent(·), 得到的图像特征表示和 文本特征表示的向
量大小为batchsize ×256; 结合InfoNCE loss的形式按归一化尺度交叉熵损失NT ‑Xent定
义样本对(图像, 文本描述)的对比损失为:
设样本对(真实图像, 生成图像)中真实图像为x, 生成图像为G(z,s), z是服从高斯分布
的随机噪声向量, s是对应的文本描述, 定义评分函数为:
Simg(x,G(z,s) )=cos(fimg(x),fimg(G(z,s)))/ τ;
则样本对(真实图像, 生成图像)的对比损失为:
权 利 要 求 书 2/4 页
3
CN 115512368 A
3
专利 一种跨模态语义生成图像模型和方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:06上传分享