公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211049973.5 (22)申请日 2022.08.30 (71)申请人 上海浦东发展银行股份有限公司 地址 200000 上海市黄浦区中山 东一路12 号 (72)发明人 胡岩 郭林海 张琛 万化  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 黄立伟 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/205(2020.01) G06F 40/284(2020.01)G06N 3/08(2006.01) (54)发明名称 一种对话语言模型的训练方法、 装置、 设备 及存储介质 (57)摘要 本发明实施例公开了一种对话语言模型的 训练方法、 装置、 设备及存储介质。 该方法包括: 获取对话语料作为训练样本, 从对话语料中提取 语义特征编码、 片段特征编码和位置特征编码, 将语义特征编码、 片段特征编码和位置特征编 码, 输入对话语言模型输出嵌入向量, 根据嵌入 向量, 基于非线性角色分类器, 输出至少一个文 本片段所属的预测角色, 根据对话语料中文本片 段所属的实际角色, 与预测角色计算角色损失关 系, 根据角色损失关系对对话语言模 型进行优化 训练。 本发明实施例的技术方案, 利用对话语料 中提取的角色特征和语义顺序特征等信息, 对对 话语言模型进行训练, 提升了训练对话语言模型 的效果。 权利要求书3页 说明书12页 附图3页 CN 115391512 A 2022.11.25 CN 115391512 A 1.一种对话语言模型的训练方法, 其特 征在于, 包括: 获取对话语料作为训练样本; 其中, 所述对话语料包括至少两个角色的至少一轮对话, 每个角色在一轮会话中的语言文本作为 一个文本片段; 从所述对话语料中提取语义特 征编码、 片段 特征编码和位置特 征编码; 将所述语义特征编码、 片段特征编码和位置特征编码, 输入对话语言模型输出嵌入向 量; 根据所述嵌入向量, 基于非线性角色 分类器, 输出至少一个文本片段 所属的预测角色; 根据所述对话语料中文本片段 所属的实际角色, 与所述预测角色计算角色损失关系; 根据所述角色损失关系对所述对话语言模型进行优化训练。 2.根据权利要求1所述的方法, 其特征在于, 从所述对话语料中提取语义特征编码之 前, 还包括: 按照设定掩码处理策略, 将所述对话语料中的至少一个设定领域词汇进行掩码处理, 以更新所述对话语料中的实际字符为掩码字符; 相应的, 将所述语义特征编码、 片段特征编码和位置特征编码, 输入对话语言模型输出 嵌入向量之后, 还 包括: 根据所述嵌入向量, 基于非线性字符分类器, 输出所述对话语料中各字符所对应的预 测字符; 根据所述对话语料中各字符所对应的实际字符, 与所述预测字符, 计算字符损失关系; 根据所述字符损失关系对所述对话语言模型进行优化训练。 3.根据权利要求2所述的方法, 其特征在于, 根据 所述角色损失关系对所述对话语言模 型进行优化训练, 以及根据所述字符损失关系对所述对话语言模型进行优化训练包括: 根据所述角色损失关系和所述字符损失关系, 计算总损失关系; 根据所述总损失关系对所述对话语言模型进行优化训练。 4.根据权利要求2所述的方法, 其特征在于, 按照设定掩码处理策略, 将所述对话语料 中的至少一个设定领域词汇进行掩码处 理包括: 从所述对话语料识别确定设定领域词汇; 按照设定掩码处理策略中的选择比例, 从所述对话语料中选择符合所述选择比例的词 汇, 作为待替换词汇, 其中, 所述设定领域词汇被选为待替换词汇的几率大于非设定领域词 汇被选为待替换词汇的几率; 若所述待替换词汇中包含所述设定领域词汇, 则将所述待替换词汇中的设定领域词汇 的一个或多个字符, 以符号或文本进行掩码处 理, 形成掩码字符。 5.根据权利要求1所述的方法, 其特征在于, 将所述语义特征编码、 片段特征编码和位 置特征编码, 输入 对话语言模型输出嵌入向量包括: 将所述语义特 征编码、 片段 特征编码和位置特 征编码, 拼接为输入向量; 将所述输入向量输入对话语言模型, 输出嵌入向量; 其中, 所述嵌入向量与所述输入向 量的字符位置相互对应。 6.根据权利要求1 ‑5任一所述的方法, 其特 征在于: 所述语义特征编码用于表征各字符的语义特征, 每个字符的语义特征编码记为权 利 要 求 书 1/3 页 2 CN 115391512 A 2将各字符的语义特 征编码添加入字符嵌入表, 记为Et∈RV×d; 其中, e表示 一个位置 的特征编码, i表 示所述对话语料的片段序号, j代表第i个片段中的字 符序号, 上标t表 示语 义特征编码, d代 表所述对话语料, R表示向量, V 表示词表大小; 所述片段特征编码用于表征各文本片段的片段顺序 特征, 每个文本片段的片段特征编 码记为 将各片段 特征编码添加入片段嵌入表, 记为Es∈RS×d; 其中, S表示所述对话 语料的总文本片段 数量; 上标s表示片段 特征编码; 所述位置特征编码用于表征各字符的位置特征, 每个字符的位置特征编码记为 将各位置特征编码添加入位置嵌入表, 记Ep∈RN×d; 其中, N表示特征编码的总 位置数量, 上 标p表示位置特征编码。 7.根据权利要求6所述的方法, 其特征在于, 根据 所述对话语料中文本片段所属的实际 角色, 与所述预测角色计算角色损失关系包括: 根据所述对话语料中文本片段所属的实 际角色, 与所述预测角色, 按照如下公式计算 角色损失关系: 其中: L2()为角色损失关系; Pi3为所述预测角色与 所述实际角色相同的概率, 为第i 个文本片段的预测角色; θ 为 所述对话语言模型的参 数; θ2为非线性角色分类器的参 数; θ2记 为[W3∈Rd×1, b3]; W3∈Rd×1, 为非线性角色分类器的矩阵参数, b3是非线性分类器的偏置参 数; S为所述对话语料的总片段 数量, i为片段序号; 为第i个片段的实际角色, 表示文本片段的实际角色的取值范围为两个不同值的实际角色; 且 Ei1为第i个片段的输入向量中第一个位置 的特征编码; sigmo id()非线性角色 分类器的函数。 8.根据权利要求6所述的方法, 其特征在于, 根据 所述对话语料中各字符所对应的实际 字符, 与所述预测字符计算字符损失关系包括: 根据所述对话语料中各字符所对应的实 际字符, 与所述预测字符, 按照如下公式计算 字符损失关系: 其中, L1()为字符损失关系; 为所述预测字符与所述实际字符相同的概率; 为第k 个掩码字符的预测字符值; θ为所述对话语言模型的参数; θ1为所述非线性字符分类器的参 数; M为输入序列中被掩码处理的字符数量; S为所述对话语料的总片段数量; 为第k个掩 码字符的实际字符值, 表示掩码字符的实际字符的位置的取值范围为词 表范围;权 利 要 求 书 2/3 页 3 CN 115391512 A 3

PDF文档 专利 一种对话语言模型的训练方法、装置、设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种对话语言模型的训练方法、装置、设备及存储介质 第 1 页 专利 一种对话语言模型的训练方法、装置、设备及存储介质 第 2 页 专利 一种对话语言模型的训练方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。