专利 相似样本语料的生成方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111622743.9 (22)申请日 2021.12.28 (65)同一申请的已公布的文献号申请公布号 CN 114357974 A (43)申请公布日 2022.04.15 (73)专利权人北京海泰方圆科技股份有限公司地址 100094 北京市海淀区东北旺西路8号中关村软件园9 号楼国际软件大厦E座一层、二层 (72)发明人张阳　漆骏锋　胡伯良　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 专利代理师刘亚威 (51)Int.Cl. G06F 40/211(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员王环 (54)发明名称相似样本语料的生成方法、装置、电子设备及存储介质 (57)摘要本申请涉及数据处理领域，尤其涉及一种相似样本语料的生成方法、装置、电子设备及存储介质，解决相似样本语料的生成过程复杂，以及难以生成有效相似样本语料的问题，方法为：获取目标领域的一个第一种子语句，以及其他领域中的各个第二种子语句，将第一种子语句输入添加噪音扰动的各个预训练模型，获得各个第一融合结果，以及获取根据各个第二种子语句确定的各个第二融合结果，再根据所述各个第一融合结果，生成各组相似正样本语料，以及根据所述各个第一融合结果和各个第二融合结果，生成各组相似负样本语料。这样，不仅简化了相似样本语料的生成过程，还提高了相似样本语料的生成效率，而且能够生成有效的相似样本语料。权利要求书3页说明书17页附图2页 CN 114357974 B 2022.09.23 CN 114357974 B 1.一种相似样本语料的生成方法，其特征在于，应用于目标领域的相似样本语料生成过程中，包括：获取目标领域的一个第一种子语句，以及获取除所述目标领域外的，其他领域中的各个第二种子语句，种子语句中包含其归属的领域内的实体名词；构建各个包括多层编码网络的预训练模型，并将所述第一种子语句输入添加噪音扰动的各个预训练模型，获得根据所述添加噪音扰动的各个预训练模型中，归属于预设第一类层级的编码网络的输出向量，确定的各个第一融合结果；在各个预训练模型中确定目标预训练模型，并将所述各个第二种子语句分别输入所述目标预训练模型，分别获得根据所述目标预训练模型中，归属于预设第二类层级的编码网络的输出向量，确定的第二融合结果；根据所述各个第一融合结果，生成各组相似正样本语料，以及根据所述各个第一融合结果和各个第二融合结果，生成各组相似负样本语料；所述获得根据所述添加噪音扰动的各个预训练模型中，归属于预设第一类层级的编码网络的输出向量，确定的各个第一融合结果，包括：针对所述添加噪音扰动的各个预训练模型，分别执行以下操作：确定一个添加噪音扰动的预训练模型中，归属于预设第一类层级的至少一个目标层级编码网络，并获得各个目标层级编码网络的输出向量；将各个输出向量中各个相同位置的元素进行加权求和，得到对应的第一融合结果；所述根据所述各个第一融合结果，生成各组相似正样本语料，以及根据所述各个第一融合结果和各个第二融合结果，生成各组相似负样本语料，包括：在各个第一融合结果中确定一个目标第一融合结果，并将所述目标第一融合结果，分别与所述各个第一融合结果中除所述目标第一融合结果外的，各个其他第一融合结果进行组合，得到各组相似正样本语料；将所述目标第一融合结果，分别与各个第二融合结果进行组合，得到各组相似负样本语料。 2.如权利要求1所述的方法，其特征在于，所述获取目标领域的第一种子语句，以及获取除所述目标领域外的，其他领域中的各个第二种子语句，包括：获取目标领域的第一候选文本，以及获取除所述目标领域外的，其他领域中的第二候选文本；将所述第一候选文本和第二候选文本处理为指定的编码格式，并对指定的编码格式的所述第一候选文本和第二候选文本，分别进行降噪处理和非法字符清理处理；按照指定字符从处理后的第一候选文本中拆分得到一个第一种子语句，并按照所述指定字符从处理后的第二候选文本中拆分得到各个第二种子语句。 3.如权利要求2所述的方法，其特征在于，所述获取目标领域的第一候选文本，以及获取除所述目标领域外的，其他领域中的第二候选文本，包括：获取已训练的文本领域分类模型，其中，所述文本领域分类模型是基于各个领域的文本样本训练得到的；将获取的各个候选文本分别输入所述文本领域分类模型中，获得所述各个所述候选文本各自对应的分类结果，并将归属于目标领域的候选文本作为第一候选文本，以及将不归属于所述目标领域的候选文本作为第二候选文本。权　利　要　求　书 1/3 页 2 CN 114357974 B 24.如权利要求1所述的方法，其特征在于，所述构建各个包括多层编码网络的预训练模型，包括：获取一个包含多层编码网络的参考模型，确定所述参考模型中各层编码网络的注意力头数，以及各层编码网络中神经元的失活概率；通过调整所述参考模型中编码网络的注意力头数，以及神经元的失活概率，构建各个包括多层编码网络的预训练模型。 5.如权利要求1所述的方法，其特征在于，在各个预训练模型中添加噪音扰动时，针对各个预训练模型，分别执行以下操作中的任意一项或组合：基于配置的各个第一扰动因子，分别对各层编码网络的输入数据进行处理；基于配置的各个第二扰动因子，分别对各层编码网络的模型参数进行处理；基于配置的第三扰动因子，对反向传播时计算得到的梯度参数进行处理；采用预设的各个第一噪音函数，分别对各层编码网络的输入数据进行处理；采用预设的各个第二噪音函数，分别对各层编码网络的模型参数行处理；采用预设的第三噪音函数，对反向传播时计算得到的梯度参数进行处理。 6.一种相似样本语料的生成装置，其特征在于，应用于目标领域的相似样本语料生成过程中，包括：获取单元，用于获取目标领域的一个第一种子语句，以及获取除所述目标领域外的，其他领域中的各个第二种子语句，种子语句中包含其归属的领域内的实体名词；构建单元，用于构建各个包括多层编码网络的预训练模型，并将所述第一种子语句输入添加噪音扰动的各个预训练模型，获得根据所述添加噪音扰动的各个预训练模型中，归属于预设第一类层级的编码网络的输出向量，确定的各个第一融合结果；确定单元，用于在各个预训练模型中确定目标预训练模型，并将所述各个第二种子语句分别输入所述目标预训练模型，分别获得根据所述目标预训练模型中，归属于预设第二类层级的编码网络的输出向量，确定的第二融合结果；生成单元，用于根据所述各个第一融合结果，生成各组相似正样本语料，以及根据所述各个第一融合结果和各个第二融合结果，生成各组相似负样本语料；其中，所述获得根据所述添加噪音扰动的各个预训练模型中，归属于预设第一类层级的编码网络的输出向量，确定的各个第一融合结果时，所述构建单元用于：针对所述添加噪音扰动的各个预训练模型，分别执行以下操作：确定一个添加噪音扰动的预训练模型中，归属于预设第一类层级的至少一个目标层级编码网络，并获得各个目标层级编码网络的输出向量；将各个输出向量中各个相同位置的元素进行加权求和，得到对应的第一融合结果；所述根据所述各个第一融合结果，生成各组相似正样本语料，以及根据所述各个第一融合结果和各个第二融合结果，生成各组相似负样本语料时，所述生成单元用于：在各个第一融合结果中确定一个目标第一融合结果，并将所述目标第一融合结果，分别与所述各个第一融合结果中除所述目标第一融合结果外的，各个其他第一融合结果进行组合，得到各组相似正样本语料；将所述目标第一融合结果，分别与各个第二融合结果进行组合，得到各组相似负样本语料。 7.如权利要求6所述的装置，其特征在于，所述获取目标领域的第一种子语句，以及取权　利　要　求　书 2/3 页 3 CN 114357974 B 3

专利 相似样本语料的生成方法、装置、电子设备及存储介质

专利相似样本语料的生成方法、装置、电子设备及存储介质