公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210952474.0 (22)申请日 2022.08.09 (71)申请人 拥措 地址 850000 西藏自治区拉萨市城关区藏 大东路10号 (72)发明人 拥措 杨丹 尼玛扎西 (74)专利代理 机构 成都鱼爪智云知识产权代理 有限公司 513 08 专利代理师 邓渠清 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/42(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种基于跨语言预训练模型的藏汉神经机 器翻译方法 (57)摘要 本发明提出了一种基于跨语言预训练模型 的藏汉神经机器翻译 方法, 涉及语 言翻译技术领 域。 包括将预设的藏汉平行数据进行预处理, 得 到待处理语料; 采用数据增强的方式对所述语料 进行同义词替换和回译; 对所述语料中藏汉平行 语料分词后使用subword ‑nmt算法进行切分, 将 所有单词切分成子词单元, 并重新构建新词表, 而后使用VOLT模型优化所述新词表; 使用mRASP 模型中包含多个语言对的多语言预训练翻译模 型, 基于transformer ‑big神经网络机器翻译架 构对所述藏汉平行语料进行训练, 得到翻译模 型; 在解码时采用不同的长度惩罚因子对所述翻 译模型进行评估。 其能够提升翻译效果以及弥补 语言之间的表达 差距。 权利要求书2页 说明书9页 附图3页 CN 115329783 A 2022.11.11 CN 115329783 A 1.一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特 征在于, 包括: 将预设的藏汉平行 数据进行 预处理, 得到待处 理语料; 采用数据增强的方式对所述语料进行同义词替换和回译; 对所述语料中藏汉平行语料分词后使用subword ‑nmt算法进行切分, 将所有单词切分 成子词单 元, 并重新构建新词表, 而后使用VOLT模型优化所述 新词表; 使用mRASP模型中包含多个语言对的多语言预训练翻译模型, 基于transformer ‑big神 经网络机器翻译架构对所述 藏汉平行语料进行训练, 得到翻译模型; 在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。 2.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 将预设的藏汉平行 数据进行 预处理的步骤 包括: 对预设的藏汉平行 数据内的符号进行 标准化; 利用分词工具分别对汉语内容和藏语内容进行分词, 采用subword ‑nmt算法训练BPE模 型, 并应用于语料中, 而后分别生成藏语词表和汉语词表; 对所有数据进行长度比过滤, 过滤藏汉双语句对长度超过预设第一阈值的语句对, 通 过随机抽样方法从中随机抽取 数据, 并划分为验证集和 测试集; 将所述验证集和所述测试集中, 与训练集重复的语句对进行删除。 3.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 所述同义词替换的步骤 包括: 利用基于神经网络的词向量生成模型的skip ‑gram模型对藏语语料进行同义词替换; 并对结果进行 可视化展示。 4.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 所述回译的步骤 包括: 训练一个藏汉或汉藏机器翻译模型, 利用所述藏汉或汉藏机器翻译模型将藏语或汉语 的语料分别 翻译成汉语或藏语 语料, 得到一批新的伪平行语料。 5.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 使用VOLT模型优化所述 新词表的步骤 包括: 对词表内的标记词汇所有按频率从大到小排序, 采用BPE模型生成的标记词汇作为候 选标记词汇; 使用所有所述 候选标记词汇以及各自对应的概 率初始化 算法; 设置超参数的大小; 对于每一个时间步, 基于转移矩阵使用最大熵得到新词表, 同时删除频率低于预设第 二阈值的标记词汇; 枚举出所有时间步, 选择出满足基于信息边际效用评估方法公式的词表作为最终词 表, 利用VOLT模 型中的贪婪策略对文本进行编码, 先将句子切分成字 符级, 然后合并连续的 两个标记词汇, 直到没有标记词汇可以被合并为止 。 6.如权利要求5所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 所述基于信息边际效用评估方法公式为: 权 利 要 求 书 1/2 页 2 CN 115329783 A 2其中i是t ‑1词表和t词表大小的差值, Hv表示语料库的熵。 7.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法, 其特征 在于, 使用mRASP模型中包含多个语言对的多语言预训练翻译模型, 基于transformer ‑big 神经网络 机器翻译架构对所述 藏汉平行语料进行训练, 得到翻译模型的步骤 包括: 采用Fairseq系统的transformer ‑big神经网络模型, 使用Adam梯度优化算法来训练得 到最终的模型参数, 再把所有语料混合, 通过数据采样平衡藏语和汉语词汇量, 然后通过 BPE模型切分得到包含多种语言的联合词表, 把其中的藏语词表和汉语词表合并到原有的 词表中, 扩大藏语和汉语的词表占比, 由此 得到最终的翻译模型。 8.一种基于跨语言预训练模型的藏汉神经机器翻译系统, 其特 征在于, 包括: 预处理模块, 用于将预设的藏汉平行 数据进行 预处理, 得到待处 理语料; 增强模块, 用于采用数据增强的方式对所述语料进行同义词替换和回译; 切分模块, 用于对所述语料中藏汉平行语料分词后使用subword ‑nmt算法进行切分, 将 所有单词切分成子词单 元, 并重新构建新词表, 而后使用VOLT模型优化所述 新词表; 训练模块, 使用mRASP模型中包含多个语言对的多语言预训练翻译模型, 基于 transformer ‑big神经网络 机器翻译架构对所述 藏汉平行语料进行训练, 得到翻译模型; 评估模块, 用于在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。 9.一种电子设备, 其特征在于, 包括至少一个处理器、 至少一个存储器和数据总线; 其 中: 所述处理器与所述存储器通过所述数据总线完成相互间的通信; 所述存储器存储有被 所述处理器执行 的程序指令, 所述处理器调用所述程序指令以执行如权利要求1 ‑7任一项 所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115329783 A 3
专利 一种基于跨语言预训练模型的藏汉神经机器翻译方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:15
上传分享
举报
下载
原文档
(1003.9 KB)
分享
友情链接
T-CEC 729—2022 户用光伏发电系统运行规程.pdf
GB-T 23007-2022 信息化和工业化融合管理体系 评定分级指南.pdf
GB-T 42632-2023 海洋生态环境水下有缆在线监测系统技术要求.pdf
SN-T 3323.6-2013 氧化铁皮 第6部分:散装氧化铁皮手工取样方法.pdf
GB-T 4814-2013 原木材积表.pdf
GB-T 7113.6-2011 绝缘软管 第6部分:聚氨脂(PUR)玻璃纤维软管.pdf
信通院 数字时代治理现代化研究报告 2023年 ——大模型在政务领域....pdf
GB-T 36621-2018 智慧城市 信息技术运营指南.pdf
ISO IEC 38505-1 中文版.pdf
GB-T 21648-2023 金属丝编织密纹网.pdf
DB37-T 4074—2020 山东省美丽村居建设标准 山东省.pdf
T-WJDGC 0010—2022 生产自动化智能控制系统与高效节能技术.pdf
GB-T 41997.3-2022 机械电气安全 基于视觉的电敏保护设备 第3部分:采用立体视觉保护器件特殊要求.pdf
GB-T 13217.7-2023 油墨附着力检验方法.pdf
GB-T 38146.2-2019 中国汽车行驶工况 第2部分:重型商用车辆.pdf
GB-T 21063.2-2007 政务信息资源目录体系 第2部分 技术要求.pdf
安全培训教育管理制度.pdf
GB-T 34057-2017 电子商务信用 网络零售信用基本要求 消费品零售.pdf
GB-T 37956-2019 信息安全技术 网站安全云防护平台技术要求.pdf
DL-T 932-2019 凝汽器与真空系统运行维护导则.pdf
交流群
-->
1
/
15
评价文档
赞助2元 点击下载(1003.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。