专利 一种基于自然语言的数据动态识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211359030.2 (22)申请日 2022.11.02 (71)申请人中孚安全技术有限公司地址 250000 山东省济南市高新区经十路 7000号汉峪金谷A1- 5号楼24层 (72)发明人杨介　崔昆俞　赵鸿　伍之洲　 (74)专利代理机构济南舜源专利事务所有限公司 37205 专利代理师孙玉营 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于自然语言的数据动态识别方法 (57)摘要本申请公开了一种基于自然语言的数据动态识别方法，主要涉及数据动态识别技术领域，用以解决现有的模型性能的泛用性、不确定性较大问题。包括：确定样本数据对应的语义标签数据；生成实验集合；并拆分成训练数据集合和验证数据集合；将训练数据集合中的样本数据导入预设编码器；拼接成样本拼接数据；将训练数据集合中的语义标签数据导入预设生成器，进而拼接成标签拼接数据；确定样本拼接数据和标签拼接数据之间的距离代价值，获得训练好的预设辨别器；获得训练好的预设编码器和预设生成器；获得验证样本拼接数据；获得验证标签拼接数据；完成数据的匹配。本申请通过上述方法实现了提高模型与数据的贴合程度，提示了准确性。权利要求书2页说明书6页附图1页 CN 115408498 A 2022.11.29 CN 115408498 A 1.一种基于自然语言的数据动态识别方法，其特征在于，所述方法包括：获取样本集合，确定所述样本集合中各个样本数据对应的语义标签数据；基于所述样本数据、所述语义标签数据和样本数据与语义标签数据之间的映射关系，生成实验集合；并将所述实验集合拆分成训练数据集合和验证数据集合；将训练数据集合中的样本数据导入预设编码器；基于预设样本拼接数据获取位置，从预设编码器的隐藏层中获取若干样本子拼接数据，进而拼接成样本拼接数据；将训练数据集合中的语义标签数据和预设参考维度数据导入预设生成器；基于预设标签拼接数据获取位置，从预设生成器的隐藏层中获取若干标签子拼接数据，进而拼接成标签拼接数据；基于预设分布间距离方程，确定所述样本拼接数据和所述标签拼接数据之间的距离代价值；将所述距离代价值、预设学习率、预设平滑常数、初始辨别器权重值导入预设优化器，完成预设辨别器的权重更新，以获得训练好的预设辨别器；将所述预设学习率、所述预设平滑常数、初始编码器权重值、训练好的预设辨别器导入所述预设优化器，完成预设编码器权重值的更新；将所述预设学习率、所述预设平滑常数、初始编码器权重值、训练好的预设辨别器导入所述预设优化器，完成预设生成器权重值的更新；以获得训练好的预设编码器和预设生成器；基于训练好的预设编码器，获得验证数据集合中的样本数据对应的验证样本拼接数据；基于训练好的预设生成器或标签拼接数据，获得验证标签拼接数据；基于训练好的预设辨别器或预设匹配度计算公式，完成验证样本拼接数据与验证标签拼接数据的匹配。 2.根据权利要求1所述的基于自然语言的数据动态识别方法，其特征在于，预设编码器的隐藏层和预设生成器的隐藏层都包括文本语义编码网络层和标签语义编码网络层。 3.根据权利要求1所述的基于自然语言的数据动态识别方法，其特征在于，确定所述样本集合中各个样本数据对应的语义标签数据，具体包括：通过预设语义标签界面，获取语义标签集合；其中，所述语义标签集合包含语义标签数据；或，通过预设关键字/主题词提取算法，获得各个样本数据对应的语义标签数据；或，通过预设样本词性分析算法对样本数据的词性进行分析，获得样本数据对应的预设属性词语，进而将预设属性词语拼接成语义标签数据；或，当获取到样本集合对应的预设关联数据集合时，通过关键字/主题词提取算法和预设样本词性分析算法，提取所述预设关联数据集合对应的关键字/主题词，以获得语义标签数据。 4.根据权利要求1所述的基于自然语言的数据动态识别方法，其特征在于，获取样本集合，具体包括：通过预设样本上传流程，获取真实业务数据或替代开源业务数据或人造样本数据作为样本集合。 5.根据权利要求1所述的基于自然语言的数据动态识别方法，其特征在于，在基于预设分布间距离方程，确定所述样本拼接数据和所述标签拼接数据之间的距离代价值之前，所述方法还包括：权　利　要　求　书 1/2 页 2 CN 115408498 A 2将Wasserstein ‑distance方法中的联合分布替换为编码器、边缘分布替换为生成器，采样替换为样本拼接数据和标签拼接数据；获得预设距离代价值计算公式：，其中， D （）为预设辨别器输出结果，为样本拼接数据，为标签拼接数据。 6.根据权利要求1所述的基于自然语言的数据动态识别方法，其特征在于，将所述距离代价值、预设学习率、预设平滑常数、初始辨别器权重值导入预设优化器，完成预设辨别器的权重更新，具体包括：通过预设辨别器权重更新公式：，更新预设辨别器的权重值；其中，为更新过程中产生的预设编码器的权重值，为距离代价值，为预设学习率，和为预设平滑常数；当权重值大于c或小于 ‑c，通过预设裁剪公式：，对预设辨别器权重值进行梯度裁剪；其中， c为裁剪阈值。 7.根据权利要求1所述的基于自然语言的数据动态识别方法，其特征在于，将所述预设学习率、所述预设平滑常数、初始编码器权重值、训练好的预设辨别器导入所述预设优化器，完成预设编码器权重值的更新，具体包括：通过预设编码器权重更新公式：，更新预设编码器的权重值；其中，为更新过程中产生的预设编码器的权重值，为样本拼接数据，为预设学习率，和为预设平滑常数。 8.根据权利要求1所述的基于自然语言的数据动态识别方法，其特征在于，将所述预设学习率、所述预设平滑常数、初始编码器权重值、训练好的预设辨别器导入所述预设优化器，完成预设生成器权重值的更新，具体包括：通过预设生成器权重更新公式：，为更新预设生成器的权重值；其中，为更新过程中产生的预设生成器的权重值，为标签拼接数据，为预设学习率，和为预设平滑常数。 9.根据权利要求1所述的基于自然语言的数据动态识别方法，其特征在于，在获得训练好的预设编码器和预设生成器之后，所述方法还包括：通过预设语义标签修改界面，修改语义标签数据。权　利　要　求　书 2/2 页 3 CN 115408498 A 3

专利 一种基于自然语言的数据动态识别方法

专利一种基于自然语言的数据动态识别方法