公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210925659.2 (22)申请日 2022.08.03 (71)申请人 中国电子科技 集团公司信息科 学研 究院 地址 100041 北京市石景山区实兴大街金 府路30号院4号楼 (72)发明人 徐桂忠 方赴洋 张淯舒 马勋  (74)专利代理 机构 北京中知法苑知识产权代理 有限公司 1 1226 专利代理师 李明 赵吉阳 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 资产数据识别方法、 装置、 电子设备和计算 机存储介质 (57)摘要 本公开涉及互联网技术领域, 提供一种资产 数据识别方法、 装置、 电子设备和计算机存储介 质, 包括: 将文本类型的资产数据编码为表示向 量; 基于训练好的资源识别模型, 对表示向量进 行资源分类, 以得到文本类型的资产数据对应的 资源类别; 其中, 训练好的资源识别模型是预先 根据表示向量对预设的基于LSTM ‑CNN的深度神 经网络模型进行训练得到。 本公开提高了资产数 据类型识别的准确率、 效率和灵活性。 权利要求书2页 说明书8页 附图4页 CN 115238645 A 2022.10.25 CN 115238645 A 1.一种资产数据识别方法, 其特 征在于, 所述方法包括: 将文本类型的资产数据编码为表示向量; 基于训练好的资源识别模型, 对所述表示向量进行资源分类, 以得到所述文本类型的 资产数据对应的资源类别; 其中, 所述训练好的资源识别模型是预先根据所述表示向量对 预设的基于LSTM ‑CNN的深度神经网络模型进行训练得到 。 2.根据权利要求1所述的方法, 其特征在于, 所述训练好的资源识别模型根据以下步骤 训练得到: 为所述表示向量添加真实标签, 并将添加真实标签后的所述表示向量划分为训练数据 和测试数据, 其中, 所述真实标签用于指示所述表示向量对应的所述资产数据的资源类别; 构建所述预设的基于LSTM ‑CNN的深度神经网络模型, 确定所述预设的基于LSTM ‑CNN的 深度神经网络模型所包括的隐含层的层数和默认参数值, 其中, 所述隐含层包括嵌入层、 LSTM模型、 CN N模型; 将所述训练数据输入所述预设的基于LSTM ‑CNN的深度神经网络模型, 利用反向传播算 法进行有监督训练, 以使所述预设的基于LSTM ‑CNN的深度神经网络模型的损失函数最小 化; 利用所述测试数据, 对损失函数最小化的所述预设的基于LSTM ‑CNN的深度神经网络模 型进行测试, 以得到所述训练好的资源识别模型。 3.根据权利要求2所述的方法, 其特征在于, 所述CNN模型包括卷积层、 最大池化层、 Merge层、 Dropout层、 全连接层、 SoftMax层, 所述将所述训练数据输入所述预设的基于 LSTM‑CNN的深度神经网络模型, 利用反向传播算法进行有监督训练, 以使所述预设 的基于 LSTM‑CNN的深度神经网络模型的损失函数最小化, 包括: 将所述训练数据输入所述嵌入层, 得到所述训练数据的嵌入表示; 将所述训练数据的嵌入表示提供给所述LSTM模型, 以生成LSTM特征向量, 并将所述训 练数据的嵌入表示 提供给所述卷积层和所述 最大池化层, 以生成CN N特征向量; 利用所述Merge层将所述LSTM特征向量和所述CNN特征向量进行融合, 得到融合特征向 量; 利用所述Dropout层将所述融合特 征向量正则化, 得到正则化向量; 利用所述全连接层对所述 正则化向量进行 数据降维; 将数据降维后的所述正则化向量输入所述SoftMax层, 得到所述训练数据的概率矩阵, 并将所述概率矩阵中概率值最大的位置所对应的所述真实标签作为所述训练数据对应的 预测标签; 将所述预测标签与 所述训练数据对应的所述真实标签进行比对, 通过所述反向传播算 法更新所述预设的基于LSTM ‑CNN的深度神经网络模型的参数, 直至所述预设的基于LSTM ‑ CNN的深度神经网络模型的所述损失函数达 到最小。 4.根据权利要求1所述的方法, 其特征在于, 所述将文本类型的资产数据编码为表示向 量, 包括: 对所述文本类型的资产数据进行 预处理; 基于训练好的栈式去噪自编码器, 对预处理后的所述文本类型的资产 数据进行降维处 理, 得到所述文本类型的资产数据对应的所述表 示向量; 其中, 所述训练好的栈式去噪自编权 利 要 求 书 1/2 页 2 CN 115238645 A 2码器是预先根据所述预处理后的所述文本类型的资产数据对预设栈式去噪自编码器进行 训练得到 。 5.根据权利要求4所述的方法, 其特征在于, 所述训练好的栈式去噪自编码器通过以下 步骤训练得到: 利用预设的去噪自编码器对预处理后的所述文本类型的资产数据进行降维重构, 得到 训练数据集; 将所述去噪自编码器组合堆叠成深度 学习层级结构, 以构建所述预设栈式去噪自编码 器; 调整所述预设栈式去噪自编码器的参数, 利用所述训练数据集逐层对所述预设栈式去 噪自编码器进行 无监督训练, 以使所述预设栈式去噪自编码器的损失函数最小化; 从所述训练数据集中选择 预设数量的数据组成测试 数据集; 利用所述测试数据集, 根据损失函数值对损失函数最小化的所述预设栈式去噪自编码 器的参数进行调整优化, 得到所述预设栈式去噪自编码器的最优参数。 6.根据权利要求4或5所述的方法, 其特征在于, 所述对所述文本类型的资产数据进行 预处理, 包括: 使用正则表达式去除所述文本类型的资产数据中的特殊字符及标签; 根据去除特殊字符及标签后的所述文本类型的资产 数据中缺失值缺失的情况, 采用删 除方法、 同类均值插补方法、 极大似然估计方法中的至少一 者对所述 缺失值进行处 理; 采用词频逆文档频率、 word2vec、 独热编码中的至少一者, 对缺失值处理后的所述文本 类型的资产数据进行符号特 征数值化; 将符号特征数值化的所述文本类型的资产 数据进行标准化和归一化处理, 以将符号特 征数值化的所述文本类型的资产数据转换到[0, 1]的范围。 7.一种资产数据识别装置, 其特 征在于, 所述装置包括: 编码模块, 用于将文本类型的资产数据编码为表示向量; 分类模块, 用于基于训练好的资源识别模型, 对所述表示向量进行资源分类, 以得到所 述文本类型 的资产数据对应的资源类别; 其中, 所述训练好的资源识别模型是预先根据所 述表示向量对预设的基于LSTM ‑CNN的深度神经网络模型进行训练得到 。 8.一种电子设备, 其特 征在于, 包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1至 6中任一项所述的方法。 9.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处理 器执行时实现权利要求1至 6中任一项所述的方法。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现权利要求1至 6中任一项所述方法。权 利 要 求 书 2/2 页 3 CN 115238645 A 3

PDF文档 专利 资产数据识别方法、装置、电子设备和计算机存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 资产数据识别方法、装置、电子设备和计算机存储介质 第 1 页 专利 资产数据识别方法、装置、电子设备和计算机存储介质 第 2 页 专利 资产数据识别方法、装置、电子设备和计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。