公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211359030.2 (22)申请日 2022.11.02 (71)申请人 中孚安全技 术有限公司 地址 250000 山东省济南市高新区经十路 7000号汉峪金谷A1- 5号楼24层 (72)发明人 杨介 崔昆俞 赵鸿 伍之洲  (74)专利代理 机构 济南舜源专利事务所有限公 司 37205 专利代理师 孙玉营 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于自然语言的数据动态 识别方法 (57)摘要 本申请公开了一种基于自然语言的数据动 态识别方法, 主要涉及数据动态识别技术领域, 用以解决现有的模型性能的泛用性、 不确定性较 大问题。 包括: 确定样本数据对应的语义标签数 据; 生成实验集合; 并拆分成训练数据集合和验 证数据集合; 将训练数据集合中的样本数据导入 预设编码器; 拼接成样本拼接数据; 将训练数据 集合中的语义标签数据导入预设生成器, 进而拼 接成标签拼接数据; 确定样本拼接数据和标签拼 接数据之间的距离代价值, 获得训练好的预设辨 别器; 获得训练好的预设编码器和预设生成器; 获得验证样本拼接数据; 获得验证标签拼接数 据; 完成数据的匹配。 本申请通过上述方法实现 了提高模型与数据的贴合 程度, 提示了准确性。 权利要求书2页 说明书6页 附图1页 CN 115408498 A 2022.11.29 CN 115408498 A 1.一种基于自然语言的数据动态 识别方法, 其特 征在于, 所述方法包括: 获取样本集 合, 确定所述样本集 合中各个样本数据对应的语义标签数据; 基于所述样本数据、 所述语义标签数据和样本数据与语义标签数据之间的映射关系, 生成实验集 合; 并将所述实验集 合拆分成训练数据集 合和验证数据集 合; 将训练数据集合中的样本数据导入预设编码器; 基于预设样本拼接数据获取位置, 从 预设编码器的隐藏层中获取若干样本 子拼接数据, 进 而拼接成样本拼接数据; 将训练数据集合中的语义标签数据和预设参考维度 数据导入预设生成器; 基于预设标 签拼接数据获取位置, 从预设生成器的隐藏层中获取若干标签子拼接数据, 进而拼接成标 签拼接数据; 基于预设分布间距离方程, 确定所述样本拼接数据和所述标签拼接数据之间的距离代 价值; 将所述距离代价值、 预设学习率、 预设平滑常数、 初始 辨别器权重值导入预设优化器, 完成预设辨别器的权 重更新, 以获得训练好的预设辨别器; 将所述预设学习率、 所述预设平滑常数、 初始编码器权重值、 训练好的预设辨别器导入 所述预设优化器, 完成预设编码器权重值的更新; 将所述预设学习率、 所述预设平滑常数、 初始编码器权重值、 训练好的预设辨别器导入所述预设优化器, 完成预设生成器权重值的 更新; 以获得训练好的预设编码器和预设生成器; 基于训练好的预设编码器, 获得验证数据集合中的样本数据对应的验证样本拼接数 据; 基于训练好的预设生成器或标签拼接数据, 获得验证标签拼接数据; 基于训练好的预设 辨别器或预设匹配度计算公式, 完成验证样本拼接数据与验证标签拼接数据的匹配。 2.根据权利要求1所述的基于自然语言的数据动态 识别方法, 其特 征在于, 预设编码器的隐藏层和预设生成器的隐藏层都包括文本语义编码网络层和标签语义 编码网络层。 3.根据权利要求1所述的基于自然语言的数据动态识别方法, 其特征在于, 确定所述样 本集合中各个样本数据对应的语义标签数据, 具体包括: 通过预设语义标签界面, 获取语义标签集合; 其中, 所述语义标签集合包含语义标签数 据; 或, 通过预设关键字/主题词提取算法, 获得 各个样本数据对应的语义标签数据; 或, 通过预设样本词性分析算法对样本数据的词性进行分析, 获得样本数据对应的预 设属性词语, 进 而将预设属性词语拼接成语义标签数据; 或, 当获取到样本集合对应的预设关联数据集合 时, 通过关键字/主题词提取算法和预 设样本词性分析算法, 提取所述预设关联数据集合对应的关键字/主题词, 以获得语义标签 数据。 4.根据权利要求1所述的基于自然语言的数据动态识别方法, 其特征在于, 获取样本集 合, 具体包括: 通过预设样本上传流程, 获取真实业务数据或替代开源业务数据或人造样本数据作为 样本集合。 5.根据权利要求1所述的基于自然语言的数据动态识别方法, 其特征在于, 在基于预设 分布间距离方程, 确定所述样本拼接数据和所述标签拼接数据之间的距离代价值之前, 所 述方法还 包括:权 利 要 求 书 1/2 页 2 CN 115408498 A 2将Wasserstein ‑distance方法中的联合分布替换为编码器、 边缘分布替换为生成器, 采样替换为样本拼接数据和标签拼接数据; 获得预设距离代价值计算公式: , 其中, D ( ) 为预设辨别器输出 结果, 为样本拼接数据, 为标签拼接数据。 6.根据权利要求1所述的基于自然语言的数据动态识别方法, 其特征在于, 将所述距离 代价值、 预设学习率、 预设平滑常数、 初始辨别器权重值导入预设优化器, 完成预设辨别器 的权重更新, 具体包括: 通过预设辨别器权重更新公式: , 更 新预设辨别器的权重值; 其中, 为更新过程中产生的预设编码器的权重值, 为距离 代价值, 为预设学习率, 和 为预设平滑常数; 当权重值大于c或小于 ‑c, 通过预设裁 剪公式: , 对预设辨别器权 重值进行梯度裁 剪; 其中, c为裁 剪阈值。 7.根据权利要求1所述的基于自然语言的数据动态识别方法, 其特征在于, 将所述预设 学习率、 所述预设平滑常数、 初始编码器权重值、 训练好的预设辨别器导入所述预设优化 器, 完成预设编码器权 重值的更新, 具体包括: 通过预设编码器权重更新公式: , 更新预设编码器的权重值; 其中, 为更新过程中产生的预设编码器的权重值, 为样本 拼接数据, 为预设学习率, 和 为预设平 滑常数。 8.根据权利要求1所述的基于自然语言的数据动态识别方法, 其特征在于, 将所述预设 学习率、 所述预设平滑常数、 初始编码器权重值、 训练好的预设辨别器导入所述预设优化 器, 完成预设生成器权 重值的更新, 具体包括: 通过预设生成器权重更新公式: , 为更新预设生成器的权重值; 其中, 为更新过程中产生的预设生成器的权重值, 为标 签拼接数据, 为预设学习率, 和 为预设平 滑常数。 9.根据权利要求1所述的基于自然语言的数据动态识别方法, 其特征在于, 在获得训练 好的预设编码器和预设生成器之后, 所述方法还 包括: 通过预设语义标签修改界面, 修改语义标签数据。权 利 要 求 书 2/2 页 3 CN 115408498 A 3

PDF文档 专利 一种基于自然语言的数据动态识别方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自然语言的数据动态识别方法 第 1 页 专利 一种基于自然语言的数据动态识别方法 第 2 页 专利 一种基于自然语言的数据动态识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:39:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。