公共安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111681433.4 (22)申请日 2021.12.28 (71)申请人 深信服科技股份有限公司 地址 518055 广东省深圳市南 山区学苑大 道1001号南山智园A1栋 (72)发明人 王晓波 陈柏林 张盼 尚保林 位凯志 古亮 (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 代理人 孙静 胡春光 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 结构化数据识别方法、 装置、 设备和存储介 质 (57)摘要 本申请公开了一种结构化数据 识别方法、 装 置、 设备和存储介质, 方法包括: 基于待训练的第 一深度学习模 型, 对训练样本集合中每一训练样 本进行特征提取, 得到第一样本特征集合; 基于 第二深度学习模 型, 对训练样 本集合中每一训练 样本进行特征提取, 得到第二样本特征集合; 将 每一训练样本的第一样本特征和对应的第二样 本特征, 确定为正样本对; 将每一训练样本的第 一样本特征和负样本字典中对应的每一第三样 本特征, 确定为负样本对; 基于每一正样本对中 两样本特征之间的第一相似度和每一负样本对 中两样本特征之间的第二相似度, 确定损失函数 值; 基于损失函数值, 对待训练的第一深度学习 模型的参数权重进行更新, 得到训练完成的第一 深度学习模型。 权利要求书3页 说明书21页 附图3页 CN 114417829 A 2022.04.29 CN 114417829 A 1.一种结构化数据识别方法, 其特 征在于, 所述方法包括: 基于待训练的第一深度学习模型, 对训练样本集合中每一训练样本进行特征提取, 得 到第一样本特 征集合; 所述每一训练样本为结构化的且无 标签的样本数据; 基于第二深度学习模型, 对所述训练样本集合中每一训练样本进行特征提取, 得到第 二样本特 征集合; 将每一所述训练样本的第 一样本特征和对应的第 二样本特征, 确定为对应训练样本的 正样本对; 将每一所述训练样本的第一样本特征和负样本字典中对应的每一所述第三样本 特征, 确定为对应训练样本的负 样本对; 基于每一所述正样本对中两样本特征之间的第一相似度和每一所述负样本对中两样 本特征之间的第二相似度, 确定损失函数值; 基于所述损 失函数值, 对所述待训练的第一深度学习模型的参数权重进行更新, 得到 训练完成的第一深度学习模型。 2.根据权利要求1所述的方法, 其特 征在于, 所述训练样本集 合属于第一领域; 所述第二深度学习模型是采用所述第一领域的样本数据训练而成, 或者, 采用不同于 所述第一领域的第二领域的样本数据训练而成; 或者, 所述第二深度学习模型是未训练的, 通过所述训练样本集合中的训练样本训练 的。 3.根据权利要求1所述的方法, 其特征在于, 所述第 一深度学习模型的模型架构与 所述 第二深度学习模型的模型架构相同或不同; 和/或, 所述第一深度学习模型的参数的数量小于所述第二深度学习模型的参数的数量。 4.根据权利要求1所述的方法, 其特征在于, 所述损失函数值与所述第一相似度成反 比, 且与所述第二相似度成正比。 5.根据权利要求2所述的方法, 其特征在于, 所述第二深度学习模型是未训练的, 所述 方法还包括: 基于所述损 失函数值, 利用动量更新法对所述第二深度模型的参数权重进行更新, 得 到训练完成的第二深度模型。 6.根据权利要求1至5任一项所述的方法, 其特征在于, 所述基于每一所述正样本对中 两样本特征之 间的第一相似度和每一所述负样本对中两样本特征之 间的第二相似度, 确定 损失函数值, 包括: 基于每一所述正样本对中两样本特征之间的第一相似度和每一所述负样本对中两样 本特征之间的第二相似度, 确定每一所述 正样本对 对应的训练样本的样本 权重; 根据每一所述训练样本的样本权重、 对应的第 一相似度、 对应的第二相似度、 预设尺度 值和预设间隔值确定损失函数值。 7.根据权利要求6所述的方法, 其特征在于, 所述基于每一所述正样本对中两样本特征 之间的第一相似度和每一所述负样本对中两样本特征之 间的第二相似度, 确定每一所述正 样本对对应的训练样本的样本 权重, 包括: 根据每一所述第 一相似度、 对应第 二相似度和所述预设间隔值, 确定对应指示函数值; 所述指示 函数值用于表征训练样本是否被分类正确;权 利 要 求 书 1/3 页 2 CN 114417829 A 2在每一所述指示函数值小于或等于预设阈值的情况下, 增大对应训练样本的样本权 重。 8.根据权利要求1至 5任一项所述的方法, 其特 征在于, 所述方法还 包括: 确定每一所述 正样本对中两个样本特 征的第一 点积; 确定对应负 样本对中两个样本特 征的第二 点积; 根据每一所述第一 点积, 确定对应正样本对中两个样本特 征的第一相似度; 根据每一所述第二 点积, 确定对应负 样本对中两个样本特 征的第二相似度。 9.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述待训练的第一深度学习 模型包括 N个子模块, 每一所述子模块包括批归一 化层、 全连接层、 激活层和Dropout层; 所述基于待训练的第一深度学习模型, 对训练样本集合中每一训练样本进行特征提 取, 得到第一样本特 征集合, 包括: 基于第1子模块, 对训练样本集合中每一训练样本进行特征提取, 得到对应第1中间样 本特征; 基于第i子模块, 对每一所述第i ‑1中间样本特征进行特征提取, 得到对应第i中间样本 特征; i大于等于2且小于等于N; 将第N子模块 提取的样本特 征确定为第一样本特 征。 10.根据权利要求1至 5中任一项所述的方法, 其特 征在于, 所述方法还 包括: 获取至少一个原 始结构化数据; 读取每一所述原 始结构化数据中的每列数据; 对每列数据进行 数据采样处 理和数据过 滤处理, 得到处 理后的每列数据; 对处理后的每列数据进行 特征提取, 得到每列数据对应的训练样本; 基于每一所述训练样本, 生成所述训练样本集 合。 11.根据权利要求10所述的方法, 其特征在于, 所述训练样本至少包括以下三项: 字符 分布特征、 全局统计特 征和词向量特 征。 12.根据权利要求1至 5中任一项所述的方法, 其特 征在于, 所述方法还 包括: 随机生成第一数量个初始样本特 征; 采用队列更新方式, 用第二数量个第四样本特征替换掉所述第二数量个初始样本特 征, 得到第三样本特 征; 基于所述第三样本特 征, 生成更新后的负 样本字典。 13.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述基于所述损 失函数值, 对所述待训练的第一深度学习模型的参数权重进 行更新, 得到训练完成的第一深度学习模 型, 包括: 基于所述损失函数值, 利用梯度下降法对所述待训练的第 一深度学习模型的参数权重 进行更新, 得到训练完成的第一深度学习模型。 14.一种结构化数据识别, 所述装置包括: 第一提取模块, 用于基于待训练的第一深度学习模型, 对训练样本集合中每一训练样 本进行特征提取, 得到第一样本特征集合; 所述每一训练样本为结构化的且无标签的样本 数据; 第二提取模块, 用于基于第二深度学习模型, 对所述训练样本集合中每一训练样本进权 利 要 求 书 2/3 页 3 CN 114417829 A 3
专利 结构化数据识别方法、装置、设备和存储介质
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 00:20:31
上传分享
举报
下载
原文档
(823.8 KB)
分享
友情链接
Linux安全配置基线.pdf
GB-T 6836-2018 缝纫线.pdf
GB-T 30984.3-2016 太阳能用玻璃 第3部分:玻璃反射镜.pdf
GB-T 29873-2013 能源计量数据公共平台数据传输协议.pdf
GB-T 33133.3-2021 信息安全技术 祖冲之序列密码算法 第3部分:完整性算法.pdf
GB-T 31487.2-2015 直流融冰装置 第2部分:晶闸管阀.pdf
NY-T 3861-2021 猕猴桃主要病虫害防治技术规程.pdf
DB11-T 715-2018 公共汽电车场站功能设计要求 北京市.pdf
DB42-T 1417-2018 生态浮岛(浮床)植物种植技术规程 湖北省.pdf
T-XMYXH 0001—2023 厦门市医疗机构“规范药房”管理指南.pdf
GB-T 17729-2023 长途客车内空气质量要求及检测方法.pdf
GB-T 711-2017 优质碳素结构钢热轧钢板和钢带.pdf
专利 一种基于大数据解析的信息技术咨询终端.PDF
DB4401-T 28-2019 排水管渠维修养护技术规范 广州市.pdf
DB4413-T 35-2023 金线莲栽培技术规范 惠州市.pdf
企业软件安全开发实践 培训材料.pdf
GB-T 32213-2015 信息安全技术 公钥基础设施 远程口令鉴别与密钥建立规范.pdf
GB-Z 41599-2022 车辆总质量监测.pdf
SL-T 793-2020 河湖健康评估技术导则.pdf
GB-T 18386.1-2021 电动汽车能量消耗量和续驶里程试验方法 第1部分:轻型汽车.pdf
1
/
3
28
评价文档
赞助2元 点击下载(823.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。