公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210952474.0 (22)申请日 2022.08.09 (71)申请人 拥措 地址 850000 西藏自治区拉萨市城关区藏 大东路10号 (72)发明人 拥措 杨丹 尼玛扎西   (74)专利代理 机构 成都鱼爪智云知识产权代理 有限公司 513 08 专利代理师 邓渠清 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/42(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种基于跨语言预训练模型的藏汉神经机 器翻译方法 (57)摘要 本发明提出了一种基于跨语言预训练模型 的藏汉神经机器翻译 方法, 涉及语 言翻译技术领 域。 包括将预设的藏汉平行数据进行预处理, 得 到待处理语料; 采用数据增强的方式对所述语料 进行同义词替换和回译; 对所述语料中藏汉平行 语料分词后使用subword ‑nmt算法进行切分, 将 所有单词切分成子词单元, 并重新构建新词表, 而后使用VOLT模型优化所述新词表; 使用mRASP 模型中包含多个语言对的多语言预训练翻译模 型, 基于transformer ‑big神经网络机器翻译架 构对所述藏汉平行语料进行训练, 得到翻译模 型; 在解码时采用不同的长度惩罚因子对所述翻 译模型进行评估。 其能够提升翻译效果以及弥补 语言之间的表达 差距。 权利要求书2页 说明书9页 附图3页 CN 115329783 A 2022.11.11 CN 115329783 A 1.一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特 征在于, 包括: 将预设的藏汉平行 数据进行 预处理, 得到待处 理语料; 采用数据增强的方式对所述语料进行同义词替换和回译; 对所述语料中藏汉平行语料分词后使用subword ‑nmt算法进行切分, 将所有单词切分 成子词单 元, 并重新构建新词表, 而后使用VOLT模型优化所述 新词表; 使用mRASP模型中包含多个语言对的多语言预训练翻译模型, 基于transformer ‑big神 经网络机器翻译架构对所述 藏汉平行语料进行训练, 得到翻译模型; 在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。 2.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 将预设的藏汉平行 数据进行 预处理的步骤 包括: 对预设的藏汉平行 数据内的符号进行 标准化; 利用分词工具分别对汉语内容和藏语内容进行分词, 采用subword ‑nmt算法训练BPE模 型, 并应用于语料中, 而后分别生成藏语词表和汉语词表; 对所有数据进行长度比过滤, 过滤藏汉双语句对长度超过预设第一阈值的语句对, 通 过随机抽样方法从中随机抽取 数据, 并划分为验证集和 测试集; 将所述验证集和所述测试集中, 与训练集重复的语句对进行删除。 3.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 所述同义词替换的步骤 包括: 利用基于神经网络的词向量生成模型的skip ‑gram模型对藏语语料进行同义词替换; 并对结果进行 可视化展示。 4.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 所述回译的步骤 包括: 训练一个藏汉或汉藏机器翻译模型, 利用所述藏汉或汉藏机器翻译模型将藏语或汉语 的语料分别 翻译成汉语或藏语 语料, 得到一批新的伪平行语料。 5.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 使用VOLT模型优化所述 新词表的步骤 包括: 对词表内的标记词汇所有按频率从大到小排序, 采用BPE模型生成的标记词汇作为候 选标记词汇; 使用所有所述 候选标记词汇以及各自对应的概 率初始化 算法; 设置超参数的大小; 对于每一个时间步, 基于转移矩阵使用最大熵得到新词表, 同时删除频率低于预设第 二阈值的标记词汇; 枚举出所有时间步, 选择出满足基于信息边际效用评估方法公式的词表作为最终词 表, 利用VOLT模 型中的贪婪策略对文本进行编码, 先将句子切分成字 符级, 然后合并连续的 两个标记词汇, 直到没有标记词汇可以被合并为止 。 6.如权利要求5所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 所述基于信息边际效用评估方法公式为: 权 利 要 求 书 1/2 页 2 CN 115329783 A 2其中i是t ‑1词表和t词表大小的差值, Hv表示语料库的熵。 7.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 使用mRASP模型中包含多个语言对的多语言预训练翻译模型, 基于transformer ‑big 神经网络 机器翻译架构对所述 藏汉平行语料进行训练, 得到翻译模型的步骤 包括: 采用Fairseq系统的transformer ‑big神经网络模型, 使用Adam梯度优化算法来训练得 到最终的模型参数, 再把所有语料混合, 通过数据采样平衡藏语和汉语词汇量, 然后通过 BPE模型切分得到包含多种语言的联合词表, 把其中的藏语词表和汉语词表合并到原有的 词表中, 扩大藏语和汉语的词表占比, 由此 得到最终的翻译模型。 8.一种基于跨语言预训练模型的藏汉神经机器翻译系统, 其特 征在于, 包括: 预处理模块, 用于将预设的藏汉平行 数据进行 预处理, 得到待处 理语料; 增强模块, 用于采用数据增强的方式对所述语料进行同义词替换和回译; 切分模块, 用于对所述语料中藏汉平行语料分词后使用subword ‑nmt算法进行切分, 将 所有单词切分成子词单 元, 并重新构建新词表, 而后使用VOLT模型优化所述 新词表; 训练模块, 使用mRASP模型中包含多个语言对的多语言预训练翻译模型, 基于 transformer ‑big神经网络 机器翻译架构对所述 藏汉平行语料进行训练, 得到翻译模型; 评估模块, 用于在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。 9.一种电子设备, 其特征在于, 包括至少一个处理器、 至少一个存储器和数据总线; 其 中: 所述处理器与所述存储器通过所述数据总线完成相互间的通信; 所述存储器存储有被 所述处理器执行 的程序指令, 所述处理器调用所述程序指令以执行如权利要求1 ‑7任一项 所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115329783 A 3

PDF文档 专利 一种基于跨语言预训练模型的藏汉神经机器翻译方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于跨语言预训练模型的藏汉神经机器翻译方法 第 1 页 专利 一种基于跨语言预训练模型的藏汉神经机器翻译方法 第 2 页 专利 一种基于跨语言预训练模型的藏汉神经机器翻译方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。