公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210985878.X (22)申请日 2022.08.16 (71)申请人 阳光保险集团股份有限公司 地址 518000 广东省深圳市福田区红荔西 路7002号第一世界广场A座17层 (72)发明人 张晗 杜新凯 吕超 谷姗姗  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 荣颖佳 (51)Int.Cl. G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称 意图识别模 型的训练方法、 意图识别方法及 装置 (57)摘要 本申请提供了一种意图识别模型的训练方 法、 意图识别方法及装置, 方法包括: 获取训练样 本集; 训练样本集中的样本包括: 标注有意图标 签的问句; 采用训练样本集中的样 本对预训练模 型进行训练; 获取样本对应的初始输出向量; 根 据初始输出向量确定预训练模型的初始反向传 播梯度; 基于初始反向传播梯度, 对初始输出向 量增加预设次数的扰动, 得到目标反向传播梯 度; 根据目标反向传播梯度更新预训练模型的模 型参数, 得到意图识别模型。 本申请利用预训练 模型中反向传播的梯度, 对模型样 本对应的输出 向量, 即词嵌入层向量进行对抗扰动, 这种对抗 训练方法可以提高模型鲁棒 性。 权利要求书2页 说明书9页 附图4页 CN 115270815 A 2022.11.01 CN 115270815 A 1.一种意图识别模型的训练方法, 其特 征在于, 所述方法包括: 获取训练样本集; 所述训练样本集中的样本包括: 标注有意图标签的问句; 采用所述训练样本集中的样本对预训练模型进行训练; 获取所述样本对应的初始输出向量; 根据所述初始输出向量确定所述预训练模型的初始反向传播梯度; 基于所述初始反向传播梯度, 对所述初始输出向量增加预设次数的扰动, 得到目标反 向传播梯度; 根据所述目标反向传播梯度更新所述预训练模型的模型参数, 得到意图识别模型。 2.根据权利要求1所述的方法, 其特征在于, 基于所述初始反向传播梯度, 对所述初始 输出向量增 加预设次数的扰动, 得到目标反向传播梯度的步骤, 包括: 以所述初始反向传播梯度作为当前梯度, 执 行以下扰动操作: 根据所述当前梯度计算当前扰动向量; 以所述当前扰动向量和所述初始输出向量之和作为目标输出向量; 根据所述目标输出向量及当前扰动次数确定当前梯度增量; 以所述当前梯度增量和所述当前梯度之和, 更新所述当前梯度, 继续执行所述扰动操 作, 直至所述当前扰动次数达到所述预设次数时, 将所述当前梯度增量和所述当前梯度之 和作为目标反向传播梯度。 3.根据权利要求2所述的方法, 其特征在于, 根据 所述当前梯度计算当前扰动向量的步 骤, 包括: 根据下式计算当前扰动向量: 其中, r0表示当前扰动向量; ∈表示预设正数, 很小的一个正数; sgn表示符号函数; 表示当前梯度; y0表示初始输出向量; L表示损失函数; θ,x,y分别表示模型参数、 模型输入 向量和模型输出向量。 4.根据权利要求2所述的方法, 其特征在于, 根据 所述目标输出向量及当前扰动次数确 定当前梯度增量的步骤, 包括: 根据所述目标输出向量和损失函数计算目标损失值; 基于所述目标损失值进行 前后向传播处 理, 得到目标梯度; 利用下式计算当前梯度增量: 其中, Δ0表示当前梯度增量, 表示目标梯度; y1表示目标输 出向量; d表示衰减因子; t表示当前扰动次数。 5.根据权利要求1所述的方法, 其特征在于, 根据 所述初始输出向量确定所述预训练模 型的初始反向传播梯度的步骤, 包括: 根据所述初始输出向量和损失函数, 计算所述样本对应的初始损失值; 根据所述初始损失值进行反向传播, 得到所述预训练模型的初始反向传播梯度。 6.根据权利要求1所述的方法, 其特 征在于, 获取训练样本集的步骤, 包括:权 利 要 求 书 1/2 页 2 CN 115270815 A 2从对话系统日志中获取多个用户输入文本; 对多个所述用户输入文本进行 预处理, 得到表达用户意图的多个目标文本; 对每个所述目标文本标注意图标签, 得到包含有多个标注有意图标签的问句的训练样 本集。 7.根据权利要求1所述的方法, 其特征在于, 根据 所述目标反 向传播梯度 更新所述预训 练模型的模型参数的步骤之后, 还 包括: 获取验证样本集; 通过所述验证样本集对参数 更新后的模型进行验证; 当验证结果满足指定条件时, 将参数 更新后的模型作为 意图识别模型。 8.一种意图识别方法, 其特 征在于, 所述方法包括: 获取待识别文本; 将所述待识别文本输入至预设的意图识别模型; 所述意图识别模型为采用如权利要求 1‑7任一项所述的方法训练得到的模型; 通过所述意图识别模型输出用于表征 所述待识别文本对应意图的输出向量。 9.一种意图识别模型的训练装置, 其特 征在于, 所述装置包括: 样本集获取模块, 用于获取训练样本集; 所述训练样本集中的样本包括: 标注有意图标 签的问句; 输出向量获取模块, 用于采用所述训练样本集中的样本对预训练模型进行训练, 获取 所述样本对应的初始输出向量; 梯度确定模块, 用于根据所述初始输出向量确定所述预训练模型的初始反向传播梯 度; 扰动模块, 用于基于所述初始反向传播梯度, 对所述初始输出向量增加预设次数的扰 动, 得到目标反向传播梯度; 参数更新模块, 用于根据所述目标反向传播梯度更新所述预训练模型的模型参数, 得 到意图识别模型。 10.一种意图识别装置, 其特 征在于, 所述装置包括: 文本获取模块, 用于获取待识别文本; 文本输入模块, 用于将所述待识别文本输入至预设的意图识别模型; 所述意图识别模 型为采用如权利要求1 ‑7任一项所述的方法训练得到的模型; 模型预测模块, 用于通过所述意图识别模型对所述待识别文本进行预测, 输出用于表 征所述待识别文本对应意图的输出向量。权 利 要 求 书 2/2 页 3 CN 115270815 A 3

PDF文档 专利 意图识别模型的训练方法、意图识别方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 意图识别模型的训练方法、意图识别方法及装置 第 1 页 专利 意图识别模型的训练方法、意图识别方法及装置 第 2 页 专利 意图识别模型的训练方法、意图识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:09上传分享
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。