(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111622743.9
(22)申请日 2021.12.28
(65)同一申请的已公布的文献号
申请公布号 CN 114357974 A
(43)申请公布日 2022.04.15
(73)专利权人 北京海泰方圆科技股份有限公司
地址 100094 北京市海淀区东北旺西路8号
中关村软件园9 号楼国际软件大厦E座
一层、 二层
(72)发明人 张阳 漆骏锋 胡伯良
(74)专利代理 机构 北京同达信恒知识产权代理
有限公司 1 1291
专利代理师 刘亚威
(51)Int.Cl.
G06F 40/211(2020.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 王环
(54)发明名称
相似样本语料的生成方法、 装置、 电子设备
及存储介质
(57)摘要
本申请涉及数据处理领域, 尤其涉及一种相
似样本语料的生成方法、 装置、 电子设备及存储
介质, 解决相似样本语料的生成过程复杂, 以及
难以生成有效相似样本语料的问题, 方法为: 获
取目标领域的一个第一种子语句, 以及其他领域
中的各个第二种子语句, 将第一种子语句输入添
加噪音扰动的各个预训练模型, 获得各个第一融
合结果, 以及获取根据各个第二种子语句确定的
各个第二融合结果, 再根据所述各个第一融合结
果, 生成各组相似正样本语料, 以及根据所述各
个第一融合结果和各个第二融合结果, 生成各组
相似负样本语料。 这样, 不仅简化了相似样本语
料的生成过程, 还提高了相似样 本语料的生成效
率, 而且能够生成有效的相似样本 语料。
权利要求书3页 说明书17页 附图2页
CN 114357974 B
2022.09.23
CN 114357974 B
1.一种相似样本语料的生成方法, 其特征在于, 应用于目标领域的相似样本语料生成
过程中, 包括:
获取目标领域的一个第一种子语句, 以及获取除所述目标领域外的, 其他领域中的各
个第二种子语句, 种子语句中包 含其归属的领域内的实体名词;
构建各个包括多层编码网络的预训练模型, 并将所述第 一种子语句输入添加噪音扰动
的各个预训练模型, 获得根据所述添加噪音扰动的各个预训练模型中, 归属于预设第一类
层级的编码网络的输出向量, 确定的各个第一融合结果;
在各个预训练模型中确定目标预训练模型, 并将所述各个第 二种子语句分别 输入所述
目标预训练模型, 分别获得根据所述 目标预训练模型中, 归属于预设第二类层级的编码网
络的输出向量, 确定的第二融合结果;
根据所述各个第一融合结果, 生成各组相似正样本语料, 以及根据所述各个第一融合
结果和各个第二融合结果, 生成各组相似负 样本语料;
所述获得根据 所述添加噪音扰动的各个预训练模型中, 归属于预设第 一类层级的编码
网络的输出向量, 确定的各个第一融合结果, 包括:
针对所述添加噪音扰动的各个预训练模型, 分别执 行以下操作:
确定一个添加噪音扰动的预训练模型中, 归属于预设第 一类层级的至少一个目标层级
编码网络, 并获得各个目标层级编码网络的输出向量; 将各个输出向量中各个相同位置的
元素进行加权求和, 得到对应的第一融合结果;
所述根据所述各个第一融合结果, 生成各组相似正样本语料, 以及根据所述各个第一
融合结果和各个第二融合结果, 生成各组相似负 样本语料, 包括:
在各个第一融合结果中确定一个目标第一融合结果, 并将所述目标第一融合结果, 分
别与所述各个第一融合结果中除所述目标第一融合结果外的, 各个其他第一融合结果进 行
组合, 得到各组相似正样本语料; 将所述目标第一融合结果, 分别与各个第二融合结果进 行
组合, 得到各组相似负 样本语料。
2.如权利要求1所述的方法, 其特征在于, 所述获取目标领域的第一种子语句, 以及获
取除所述目标 领域外的, 其 他领域中的各个第二种子语句, 包括:
获取目标领域的第一候选文本, 以及获取除所述目标领域外的, 其他领域中的第二候
选文本;
将所述第一候选文本和第 二候选文本处理为指定的编码格式, 并对指定的编码格 式的
所述第一 候选文本和第二 候选文本, 分别进行降噪处 理和非法字符清理 处理;
按照指定字符从处理后的第 一候选文本 中拆分得到一个第 一种子语句, 并按照所述指
定字符从处 理后的第二 候选文本中拆分得到各个第二种子语句。
3.如权利要求2所述的方法, 其特征在于, 所述获取目标领域的第一候选文本, 以及获
取除所述目标 领域外的, 其 他领域中的第二 候选文本, 包括:
获取已训练的文本领域分类模型, 其中, 所述文本领域分类模型是基于各个领域的文
本样本训练得到的;
将获取的各个候选文本分别 输入所述文本领域分类模型中, 获得所述各个所述候选文
本各自对应的分类结果, 并将归属于目标领域的候选文本作为第一候选文本, 以及将不归
属于所述目标 领域的候选文本作为第二 候选文本 。权 利 要 求 书 1/3 页
2
CN 114357974 B
24.如权利要求1所述的方法, 其特征在于, 所述构建各个包括多层编码网络的预训练模
型, 包括:
获取一个包含多层编码网络的参考模型, 确定所述参考模型中各层编码网络的注意力
头数, 以及各层编码网络中神经 元的失活概 率;
通过调整所述参考模型中编码网络的注意力头数, 以及神经元的失活概率, 构建各个
包括多层编码网络的预训练模型。
5.如权利要求1所述的方法, 其特征在于, 在各个预训练模型中添加噪音扰动 时, 针对
各个预训练模型, 分别执 行以下操作中的任意 一项或组合:
基于配置的各个第一扰动因子, 分别对各层编码网络的输入数据进行处 理;
基于配置的各个第二扰动因子, 分别对各层编码网络的模型参数进行处 理;
基于配置的第三扰动因子, 对反向传播时计算得到的梯度参数进行处 理;
采用预设的各个第一噪音函数, 分别对各层编码网络的输入数据进行处 理;
采用预设的各个第二噪音函数, 分别对各层编码网络的模型参数 行处理;
采用预设的第三噪音函数, 对反向传播时计算得到的梯度参数进行处 理。
6.一种相似样本语料的生成装置, 其特征在于, 应用于目标领域的相似样本语料生成
过程中, 包括:
获取单元, 用于获取目标领域的一个第一种子语句, 以及获取除所述目标领域外的, 其
他领域中的各个第二种子语句, 种子语句中包 含其归属的领域内的实体名词;
构建单元, 用于构建各个包括多层编码网络的预训练模型, 并将所述第一种子语句输
入添加噪音扰动的各个预训练模型, 获得根据所述添加噪音扰动的各个预训练模型中, 归
属于预设第一类层级的编码网络的输出向量, 确定的各个第一融合结果;
确定单元, 用于在各个预训练模型中确定目标预训练模型, 并将所述各个第二种子语
句分别输入所述目标预训练模型, 分别获得根据所述 目标预训练模型中, 归属于预设第二
类层级的编码网络的输出向量, 确定的第二融合结果;
生成单元, 用于根据 所述各个第 一融合结果, 生成各组相似正样本语料, 以及根据 所述
各个第一融合结果和各个第二融合结果, 生成各组相似负 样本语料;
其中, 所述获得根据所述添加噪音扰动的各个预训练模型中, 归属于预设第一类层级
的编码网络的输出向量, 确定的各个第一融合结果时, 所述构建单 元用于:
针对所述添加噪音扰动的各个预训练模型, 分别执 行以下操作:
确定一个添加噪音扰动的预训练模型中, 归属于预设第 一类层级的至少一个目标层级
编码网络, 并获得各个目标层级编码网络的输出向量; 将各个输出向量中各个相同位置的
元素进行加权求和, 得到对应的第一融合结果;
所述根据所述各个第一融合结果, 生成各组相似正样本语料, 以及根据所述各个第一
融合结果和各个第二融合结果, 生 成各组相似负样本语料时, 所述生成单元用于: 在各个第
一融合结果中确定一个目标第一融合结果, 并将所述 目标第一融合结果, 分别与所述各个
第一融合结果中除所述 目标第一融合结果外的, 各个其他第一融合结果进行组合, 得到各
组相似正样本语料; 将所述目标第一融合结果, 分别与各个第二融合结果进行 组合, 得到各
组相似负 样本语料。
7.如权利要求6所述的装置, 其特征在于, 所述获取目标领域的第一种子语句, 以及取权 利 要 求 书 2/3 页
3
CN 114357974 B
3
专利 相似样本语料的生成方法、装置、电子设备及存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:20:29上传分享