专利 基于图文特征双级融合的多模态神经机器翻译方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211056316.3 (22)申请日 2022.08.31 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人郭军军　杜连成　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 16/583(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于图文特征双级融合的多模态神经机器翻译方法 (57)摘要本发明涉及基于图文特征双级融合的多模态神经机器翻译方法，属于自然语言处理技术领域。本发明包括：编码端使用对齐输入的文本特征和图像特征，然后通过自注意力机制从不同的模态中生成文本的上下文表示，并使用 Attention+Gating形式的机制对图像语义表征进行筛选；最后我们使用一个双级融合机制实现对图像和文本的融合与对齐，并将第四层(最后一层)的输出作为编码器的隐藏层输出,然后使用一个Tran sformer译码器实现对句子的逐词翻译。本方法采用Multi30K数据集来训练模型。实验结果表明，在两个语言对三个测试集上，我们的方法实验结果达到了当前的最好值。权利要求书3页说明书11页附图2页 CN 115545050 A 2022.12.30 CN 115545050 A 1.基于图文特征双级融合的多模态神经机器翻译方法，其特征在于：所述基于图文特征双级融合的多模态神经机器翻译方法的具体步骤如下： Step1、准备数据集，对公共数据集Multi3 0K数据进行预处理； Step2、将处理好的数据进行源句子和视觉表征；使用注意力机制对图像和文本进行编码；对图像和文本进行跨模态对齐、进行图文跨模态语义融合、基于门控的双级图 ‑文双级融合； Step3、编码器的最后一层输出到传统的解码器进行解码。 2.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法，其特征在于：所述Step1的具体步骤如下：通过国际翻译大赛WMT2018:mltimodel ‑task1下载Multi30K数据集，其中训练、验证和测试集分别包含29k、 1014和1000个文本图像对；额外的还使用包含1000个文本 ‑图像对的 WMT17测试集和包含461个文本图像对的模糊MSCOCO测试集来评估模型；然后通过字节对编码分割和10 000次合并操作直接使用预处理后的句子对。 3.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法，其特征在于：所述Step2中，将处理好的数据进行源句子和视觉表征包括：对于文本输入，用带有位置嵌入的嵌入层对源语句文本特征向量Xk进行嵌入得到Xkemd；对于视觉信息，使用预训练的ResNet ‑101和Faster R‑CNN获得图像的网格和区域特征Zg， Zr，经过嵌入层后分别生成与文本特征向量相同维度的特征向量Xgemd与Xremd；具体的嵌入细节如下所示： Xkemd＝Embed(Xk) Xgemd＝Embed(Zg) Xremd＝Embed(Zr)。 4.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法，其特征在于：所述Step2中，使用注意力机制对图像和文本进行编码具体包括：使用多头自注意力机制对经过嵌入层输出的特征向量Xkemd,Xgemd与Xremd进行自注意力编码，分别生成隐藏状态 Ht,Hg,Hr： Ht＝MultiHead(Xkemd,Xkemd,Xkemd) Hg＝MultiHead(Xgemd,Xgemd,Xgemd) Hr＝MultiHead(Xremd,Xremd,Xremd) 其中， Xkemd为用带有位置嵌入的嵌入层对源语句文本特征向量Xk进行嵌入得到的特征向量； Xgemd与Xremd分别为对于视觉信息，使用预训练的ResNet ‑101和Faster R‑CNN获得图像的网格和区域特征向量。 5.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法，其特征在于：所述Step2中，对图像和文本进行跨模态对齐具体包括：设计一个文本指导的视觉门控单元来选择与句子最相关的图像目标，并将句子对齐到图像中的物体上；使用文本指导的视觉门控门单元考虑图像局部特征的同时使用注意力机制关注图像的网格特征，实现句子与整个图片的对齐；具体细节如下： Gt,r＝ρ⊙Ht+WtHr ρ ＝Sigmo id(Wr,tHr)权　利　要　求　书 1/3 页 2 CN 115545050 A 2其中， Wt,Wr,t是门控单元的模型参数， ρ 表示图文之间的相关性，数值为0～1之间，当为1 时表明最相关， 0时不相关；然后，将生成的Gt,r送入到交叉注意力机制，获取图像空间语义表征的同时实现句子与整张图片的对齐；其中K， V是Hg， Q是Gt,r； Ht,r,g＝MultiHead(Gt,r,Hg,Hg) 其中， Ht,Hg,Hr分别表示使用多头自注意力机制对经过嵌入层输出的特征向量Xkemd, Xgemd与Xremd进行自注意力编码生成的隐藏状态； Xkemd为用带有位置嵌入的嵌入层对源语句文本特征向量Xk进行嵌入得到的特征向量； Xgemd与Xremd分别为对于视觉信息，使用预训练的 ResNet‑101和Faster R‑CNN获得图像的网格和区域特征向量；经过上述处理，获得附有空间位置关系的实体对象的语义表征Ht,r,g，接下来将这个语义表征输入下一个处理单元。 6.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法，其特征在于：所述Step2中，对图像和文本进行图文跨模态语义融合具体包括：使用注意力机制对图像特征向量与文本特征向量相融合，有效的消除干扰信息；将Ht设置为Q,Ht,r,g设置为K和V； Ct,r,g＝MultiHead(Ht,Ht,r,g,Ht,r,g) 其中， Ht,r,g为附有空间位置关系的实体对象的语义表征， Ht表示使用多头自注意力机制对经过嵌入层输出的特征向量Xkemd进行自注意力编码生成的隐藏状态； Xkemd为用带有位置嵌入的嵌入层对源语句文本特征向量Xk进行嵌入得到的特征向量。 7.根据权利要求1所述的基于图文特征双级融合的多模态神经机器翻译方法，其特征在于：所述Step2中，对图像和文本进行基于门控的双级图 ‑文双级融合具体包括： (1)、视觉作为文本门控初始化变量；对于融合了视觉信息的文本特征向量，将其作为一个初始向量融合到文本信息语义的编码中，通过设计视觉初始化门控单元来指导句子内部语义关系的推理，辅助句子隐藏状态的生成； HFt＝g(Ht) 这里的g(.)是一个线性变化函数，均为视觉初始化门控参数， γt， ζt是激活函数， γt作用是检查句子隐藏状态的生成是否需要视觉信息的补充，当其为0时，表明句子上下文语义完整，仅文本特征向量本身就能完成编码；当为 1时，表明句子信息语义不足，引入图像特征，对句子信息语义进行补充和增强， ζt负责对文本特征向量进行更新；其中， Ct,r,g＝MultiHead(Ht,Ht,r,g,Ht,r,g)， Ht,r,g为附有空间位置关系的实体对象的语义表征， Ht表示使用多头自注意力机制对经过嵌入层输出的特征向量Xkemd进行自注意力编码生成的隐藏状态； Xkemd为用带有位置嵌入的嵌入层对源语句文本特征向量Xk进行嵌入得到的特征向量；权　利　要　求　书 2/3 页 3 CN 115545050 A 3

专利 基于图文特征双级融合的多模态神经机器翻译方法

专利基于图文特征双级融合的多模态神经机器翻译方法