专利 一种基于跨语言预训练模型的藏汉神经机器翻译方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210952474.0 (22)申请日 2022.08.09 (71)申请人拥措地址 850000 西藏自治区拉萨市城关区藏大东路10号 (72)发明人拥措　杨丹　尼玛扎西　 (74)专利代理机构成都鱼爪智云知识产权代理有限公司 513 08 专利代理师邓渠清 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/42(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称一种基于跨语言预训练模型的藏汉神经机器翻译方法 (57)摘要本发明提出了一种基于跨语言预训练模型的藏汉神经机器翻译方法，涉及语言翻译技术领域。包括将预设的藏汉平行数据进行预处理，得到待处理语料；采用数据增强的方式对所述语料进行同义词替换和回译；对所述语料中藏汉平行语料分词后使用subword ‑nmt算法进行切分，将所有单词切分成子词单元，并重新构建新词表，而后使用VOLT模型优化所述新词表；使用mRASP 模型中包含多个语言对的多语言预训练翻译模型，基于transformer ‑big神经网络机器翻译架构对所述藏汉平行语料进行训练，得到翻译模型；在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。其能够提升翻译效果以及弥补语言之间的表达差距。权利要求书2页说明书9页附图3页 CN 115329783 A 2022.11.11 CN 115329783 A 1.一种基于跨语言预训练模型的藏汉神经机器翻译方法，其特征在于，包括：将预设的藏汉平行数据进行预处理，得到待处理语料；采用数据增强的方式对所述语料进行同义词替换和回译；对所述语料中藏汉平行语料分词后使用subword ‑nmt算法进行切分，将所有单词切分成子词单元，并重新构建新词表，而后使用VOLT模型优化所述新词表；使用mRASP模型中包含多个语言对的多语言预训练翻译模型，基于transformer ‑big神经网络机器翻译架构对所述藏汉平行语料进行训练，得到翻译模型；在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。 2.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法，其特征在于，将预设的藏汉平行数据进行预处理的步骤包括：对预设的藏汉平行数据内的符号进行标准化；利用分词工具分别对汉语内容和藏语内容进行分词，采用subword ‑nmt算法训练BPE模型，并应用于语料中，而后分别生成藏语词表和汉语词表；对所有数据进行长度比过滤，过滤藏汉双语句对长度超过预设第一阈值的语句对，通过随机抽样方法从中随机抽取数据，并划分为验证集和测试集；将所述验证集和所述测试集中，与训练集重复的语句对进行删除。 3.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法，其特征在于，所述同义词替换的步骤包括：利用基于神经网络的词向量生成模型的skip ‑gram模型对藏语语料进行同义词替换；并对结果进行可视化展示。 4.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法，其特征在于，所述回译的步骤包括：训练一个藏汉或汉藏机器翻译模型，利用所述藏汉或汉藏机器翻译模型将藏语或汉语的语料分别翻译成汉语或藏语语料，得到一批新的伪平行语料。 5.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法，其特征在于，使用VOLT模型优化所述新词表的步骤包括：对词表内的标记词汇所有按频率从大到小排序，采用BPE模型生成的标记词汇作为候选标记词汇；使用所有所述候选标记词汇以及各自对应的概率初始化算法；设置超参数的大小；对于每一个时间步，基于转移矩阵使用最大熵得到新词表，同时删除频率低于预设第二阈值的标记词汇；枚举出所有时间步，选择出满足基于信息边际效用评估方法公式的词表作为最终词表，利用VOLT模型中的贪婪策略对文本进行编码，先将句子切分成字符级，然后合并连续的两个标记词汇，直到没有标记词汇可以被合并为止。 6.如权利要求5所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法，其特征在于，所述基于信息边际效用评估方法公式为：权　利　要　求　书 1/2 页 2 CN 115329783 A 2其中i是t ‑1词表和t词表大小的差值， Hv表示语料库的熵。 7.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法，其特征在于，使用mRASP模型中包含多个语言对的多语言预训练翻译模型，基于transformer ‑big 神经网络机器翻译架构对所述藏汉平行语料进行训练，得到翻译模型的步骤包括：采用Fairseq系统的transformer ‑big神经网络模型，使用Adam梯度优化算法来训练得到最终的模型参数，再把所有语料混合，通过数据采样平衡藏语和汉语词汇量，然后通过 BPE模型切分得到包含多种语言的联合词表，把其中的藏语词表和汉语词表合并到原有的词表中，扩大藏语和汉语的词表占比，由此得到最终的翻译模型。 8.一种基于跨语言预训练模型的藏汉神经机器翻译系统，其特征在于，包括：预处理模块，用于将预设的藏汉平行数据进行预处理，得到待处理语料；增强模块，用于采用数据增强的方式对所述语料进行同义词替换和回译；切分模块，用于对所述语料中藏汉平行语料分词后使用subword ‑nmt算法进行切分，将所有单词切分成子词单元，并重新构建新词表，而后使用VOLT模型优化所述新词表；训练模块，使用mRASP模型中包含多个语言对的多语言预训练翻译模型，基于 transformer ‑big神经网络机器翻译架构对所述藏汉平行语料进行训练，得到翻译模型；评估模块，用于在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。 9.一种电子设备，其特征在于，包括至少一个处理器、至少一个存储器和数据总线；其中：所述处理器与所述存储器通过所述数据总线完成相互间的通信；所述存储器存储有被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行如权利要求1 ‑7任一项所述的方法。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115329783 A 3

专利 一种基于跨语言预训练模型的藏汉神经机器翻译方法

专利一种基于跨语言预训练模型的藏汉神经机器翻译方法