(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211056316.3
(22)申请日 2022.08.31
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 郭军军 杜连成
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/30(2020.01)
G06F 40/211(2020.01)
G06F 16/583(2019.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于图文特征双级融合的多模态神经机器
翻译方法
(57)摘要
本发明涉及基于图文特征双级融合的多模
态神经机器翻译方法, 属于自然语 言处理技术领
域。 本发明包括: 编码端使用对齐输入的文本特
征和图像特征, 然后通过自注 意力机制从不同的
模 态中 生 成 文 本的 上 下 文 表 示 , 并 使 用
Attention+Gating形式的机制对图像语义表征
进行筛选; 最后我们使用一个双 级融合机制实现
对图像和文本的融合与对齐, 并将第四层(最后
一层)的输出作为编码器的隐藏层输出,然后使
用一个Tran sformer译码器实现对句子的逐词翻
译。 本方法采用Multi30K数据集来训练模型。 实
验结果表明, 在两个语言对三个测试集上, 我们
的方法实验结果达 到了当前的最 好值。
权利要求书3页 说明书11页 附图2页
CN 115545050 A
2022.12.30
CN 115545050 A
1.基于图文特征双级融合的多模态神经机器翻译方法, 其特征在于: 所述基于图文特
征双级融合的多模态神经机器翻译方法的具体步骤如下:
Step1、 准备 数据集, 对公共数据集Multi3 0K数据进行 预处理;
Step2、 将处理好的数据进行源句子和视觉表征; 使用注意力机制对图像和文本进行编
码; 对图像和文本进行跨模态对齐、 进行图文跨模态语义融合、 基于门控的双级图 ‑文双级
融合;
Step3、 编码器的最后一层输出到传统的解码器进行解码。
2.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法, 其特征
在于: 所述Step1的具体步骤如下:
通过国际翻译大赛WMT2018:mltimodel ‑task1下载Multi30K数据集, 其中训练、 验证和
测试集分别包含29k、 1014和1000个文本图像对; 额外的还使用包含1000个文本 ‑图像对的
WMT17测试集和包含461个文本图像对的模糊MSCOCO测试集来评估模型; 然后通过字节对编
码分割和10 000次合并操作直接使用预处 理后的句子对。
3.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法, 其特征
在于: 所述Step2中, 将处 理好的数据进行源句子和视 觉表征包括:
对于文本输入, 用带有位置 嵌入的嵌入层对源语句文本特征向量Xk进行嵌入得到Xkemd;
对于视觉信息, 使用预训练的ResNet ‑101和Faster R‑CNN获得图像的网格和区域特征Zg,
Zr, 经过嵌入层后分别生 成与文本特征向量相同维度的特征向量Xgemd与Xremd; 具体的嵌入细
节如下所示:
Xkemd=Embed(Xk)
Xgemd=Embed(Zg)
Xremd=Embed(Zr)。
4.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法, 其特征
在于: 所述Step2中, 使用注意力机制 对图像和文本进行编码具体包括: 使用多头自注意力
机制对经过嵌入层输出的特征向量Xkemd,Xgemd与Xremd进行自注意力编码, 分别生 成隐藏状态
Ht,Hg,Hr:
Ht=MultiHead(Xkemd,Xkemd,Xkemd)
Hg=MultiHead(Xgemd,Xgemd,Xgemd)
Hr=MultiHead(Xremd,Xremd,Xremd)
其中, Xkemd为用带有位置嵌入的嵌入层对源语句文本特征向量Xk进行嵌入得到的特征
向量; Xgemd与Xremd分别为对 于视觉信息, 使用预训练的ResNet ‑101和Faster R‑CNN获得图像
的网格和区域特 征向量。
5.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法, 其特征
在于: 所述Step2中, 对图像和文本进行跨模态对齐具体包括:
设计一个文本指导的视觉门控单元来选择与句子最相关的图像目标, 并将句子对齐到
图像中的物体上; 使用文本指导的视觉门控门单元考虑图像局部特征的同时使用注意力机
制关注图像的网格特 征, 实现句子与整个图片的对齐; 具体细节如下:
Gt,r=ρ⊙Ht+WtHr
ρ =Sigmo id(Wr,tHr)权 利 要 求 书 1/3 页
2
CN 115545050 A
2其中, Wt,Wr,t是门控单元的模型参数, ρ 表示图文之间的相关性, 数值为0~1之间, 当为1
时表明最相关, 0时不相关; 然后, 将生成的Gt,r送入到交叉注意力机制, 获取图像空间语义
表征的同时实现句子与整张图片的对齐; 其中K, V是Hg, Q是Gt,r;
Ht,r,g=MultiHead(Gt,r,Hg,Hg)
其中, Ht,Hg,Hr分别表示使用多头自注意力机制对经过嵌入层输出的特征向量Xkemd,
Xgemd与Xremd进行自注意力编码生成的隐藏状态; Xkemd为用带有位置嵌入的嵌入层对源语句
文本特征向量Xk进行嵌入得到的特征向量; Xgemd与Xremd分别为对于视觉信息, 使用预训练的
ResNet‑101和Faster R‑CNN获得图像的网格和区域特 征向量;
经过上述处理, 获得附有空间位置关系的实体对象的语义表征Ht,r,g, 接下来将这个语
义表征输入下一个处 理单元。
6.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法, 其特征
在于: 所述Step2中, 对图像和文本进行图文跨模态语义融合具体包括:
使用注意力机制对图像 特征向量与文本 特征向量相融合, 有效的消除干扰信息; 将Ht设
置为Q,Ht,r,g设置为K和V;
Ct,r,g=MultiHead(Ht,Ht,r,g,Ht,r,g)
其中, Ht,r,g为附有空间位置关系的实体对象的语义表征, Ht表示使用多头自注意力机
制对经过嵌入层输出的特征向量Xkemd进行自注意力编码生成的隐藏状态; Xkemd为用带有位
置嵌入的嵌入层对 源语句文本特 征向量Xk进行嵌入得到的特 征向量。
7.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法, 其特征
在于: 所述Step2中, 对图像和文本进行基于门控的双级图 ‑文双级融合具体包括:
(1)、 视觉作为文本门控初始化变量;
对于融合了视觉信 息的文本特征向量, 将其作为一个初始向量融合到文本信 息语义的
编码中, 通过设计视觉初始化 门控单元来指导句 子内部语义关系的推理, 辅助句 子隐藏状
态的生成;
HFt=g(Ht)
这里的g(.)是一个线性变化函数,
均为视觉初始化
门控参数, γt, ζt是激活函数, γt作用是检查句子隐藏状态的生成是否需要视觉信息的补
充, 当其为0时, 表明句子上下文语义完整, 仅文本特征向量本身就能完成编码; 当为 1时, 表
明句子信息语义不足, 引入图像特征, 对句子信息语义进行补充和增强, ζt负责对文本特征
向量进行 更新;
其中, Ct,r,g=MultiHead(Ht,Ht,r,g,Ht,r,g), Ht,r,g为附有空间位置关系的实体对象的语
义表征, Ht表示使用多头自注意力 机制对经过嵌入层输出的特征向量Xkemd进行自注意力编
码生成的隐藏状态; Xkemd为用带有位置嵌入的嵌入层对源语句文本特征向量Xk进行嵌入得
到的特征向量;权 利 要 求 书 2/3 页
3
CN 115545050 A
3
专利 基于图文特征双级融合的多模态神经机器翻译方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:57上传分享