公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210917536.4 (22)申请日 2022.08.01 (71)申请人 北京中科微澜科技有限公司 地址 100007 北京市东城区后永康胡同17 号10号楼1层10 37室 (72)发明人 杨牧天 刘梅 吴敬征 罗天悦  (74)专利代理 机构 北京久诚知识产权代理事务 所(特殊普通 合伙) 11542 专利代理师 郭子辰 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 21/57(2013.01) (54)发明名称 基于实体-关系的漏洞数据纠错方法和系统 (57)摘要 本发明公开了一种基于实体 ‑关系的漏洞数 据纠错方法, 该方法包括: 从漏洞数据库获取漏 洞描述信息, 并对所述漏洞描述信息进行分词处 理, 得到数据切片; 对数据切片 进行清洗、 格式化 处理, 生成表征信息; 利用表征信息进行BERT模 型训练, 得到向量表征, 所述向量表征具有丰富 的语义信息及上下文关系信息; 基于向量表征提 取漏洞影响的软件包名称、 版本; 将所述提取的 软件包名称、 版本分别与CPE文件中的相应信息 进行比对; 如果比对一致, 则认为漏洞数据没有 错误; 否则, 判断漏洞数据存在错误, 并根据所述 提取的软件 包名称、 版本对漏洞数据进行纠正。 权利要求书1页 说明书6页 附图2页 CN 115455945 A 2022.12.09 CN 115455945 A 1.一种基于实体 ‑关系的漏洞数据纠错方法, 其特 征在于, 该 方法包括: 从漏洞数据库获取漏洞描述信息, 并对所述漏洞描述信息进行分词处理, 得到数据切 片; 对数据切片进行清洗、 格式化处 理, 生成表征信息; 利用表征信息进行BERT模型训练, 得到向量表征, 所述向量表征具有丰富的语义信息 及上下文关系信息; 基于向量表征提取漏洞影响的软件 包名称、 版本; 将所述提取的软件 包名称、 版本分别与CPE文件中的相应信息进行比对; 如果比对一致, 则认为漏洞数据没有错误; 否则, 判断漏洞数据存在错误, 并根据所述 提取的软件 包名称、 版本对漏洞数据进行纠正。 2.根据权利要求1所述的方法, 其特 征还在于, 基于向量表征提取漏洞 影响的软件 包名称、 版本, 包括: 对向量表征利用LSTM神经网络模型进行实体提取和关系提取; 基于所述 提取的实体特 征和关系特 征确定漏洞影响的软件 包名称、 版本 。 3.根据权利要求1所述的方法, 其特 征还在于, 该 方法还包括: 根据所 述纠正后的漏洞数据, 基于正则表达式构生成与漏洞相关的实体及关系数据, 构建知 识图谱。 4.一种基于实体 ‑关系的漏洞数据纠错系统, 其特 征在于, 该系统包括: 漏洞描述信息获取模块, 用于从漏洞数据库获取漏洞描述信息, 并对所述漏洞描述信 息进行分词处 理, 得到数据切片; 预处理模块, 用于对数据切片进行清洗、 格式化处 理, 生成表征信息; BERT训练模块, 用于利用表征信息进行BERT模型训练, 得到向量表征, 所述向量表征具 有丰富的语义信息及上 下文关系信息; 目标信息提取模块, 用于基于向量表征提取漏洞影响的软件 包名称、 版本; 信息比较模块, 用于将所述提取的软件包名称、 版本分别与CPE文件中的相应信息进行 比对; 漏洞数据纠正模块, 如果比对一致, 则认为漏洞数据没有错误; 否则, 判断漏洞数据存 在错误, 并根据所述 提取的软件 包名称、 版本对漏洞数据进行纠正。 5.根据权利要求 4所述的系统, 其特 征还在于, 目标信息提取模块, 包 括: 实体/关系提取模块, 用于对向量表征利用LSTM神经网络模型进行实体提取和关系 提取; 软件包名称/版本确定模块, 基于所述提取的实体特征和关系特征确定漏洞影响的软 件包名称、 版本 。 6.根据权利要求 4所述的系统, 其特 征还在于, 该系统还 包括: 知识图 谱构建模块, 根据所述纠 正后的漏洞数据, 基于正则表达式构生成与漏洞相关的实体 及关系数据, 构建知识图谱。权 利 要 求 书 1/1 页 2 CN 115455945 A 2基于实体 ‑关系的漏洞数据纠错方 法和系统 技术领域 [0001]本发明涉及网络安全技术领域, 尤其涉及一种基于实体 ‑关系的漏洞数据纠错方 法和系统。 背景技术 [0002]随着信息网络 的迅速发展, 网络攻击技术也层出不穷, 攻击行为一般针对系统软 件或者应用软件漏洞进行, 因此及时发现软件漏洞以及进 行及时的修整 是维护网络安全的 重要技术手段。 各种不同网络安全平台、 企业会定期更新所发现 的漏洞。 NVD是美国国家计 算机通用漏洞数据库 (National  Vulnerability  Database, NVD) , 其包括2 000年‑2017年的 漏洞数据 (总共5万多 条漏洞, 23个漏洞类型) , 漏洞数据存储格式为xml格式, 供软件安全研 究人员使用。 很多安全检测软件利用了NVD的漏洞数据, 但是在实际软件开发的过程中, 发 现NVD中的有关漏洞的数据存在错误的情况, 为了提高所开发软件进行安全检测时的准确 性和全面 性, 有必要对从NVD获取的公开漏洞数据进行纠错。 发明内容 [0003]鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的技 术方案。 [0004]本发明提供一种基于实体 ‑关系的漏洞数据纠错方法, 该 方法包括: 从漏洞数据库获取漏洞描述信息, 并对所述漏洞描述信息进行分词处理, 得到数 据切片; 对数据切片进行清洗、 格式化处 理, 生成表征信息; 利用表征信息进行BERT模型训练, 得到向量表征, 所述向量表征具有丰富的语义 信息及上 下文关系信息; 基于向量表征提取漏洞影响的软件 包名称、 版本; 将所述提取的软件 包名称、 版本分别与CPE文件中的相应信息进行比对; 如果比对一致, 则认为漏洞数据没有错误; 否则, 判断漏洞数据存在错误, 并根据 所述提取的软件 包名称、 版本对漏洞数据进行纠正。 [0005]可选的, 基于向量表征提取漏洞影响的软件包名称、 版本, 包括: 对向量表征利用 LSTM神经网络模型进 行实体提取和关系提取; 基于所述提取的实体特征和关系特征确定漏 洞影响的软件 包名称、 版本 。 [0006]可选的, 根据所述纠正后的漏洞数据, 基于正则表达式构生成与漏洞相关的实体 及关系数据, 构建知识图谱。 [0007]本发明还提供一种基于实体 ‑关系的漏洞数据纠错系统, 该系统包括: 漏洞描述信息获取模块, 用于从漏洞数据库获取漏洞描述信息, 并对所述漏洞描 述信息进行分词处 理, 得到数据切片; 预处理模块, 用于对数据切片进行清洗、 格式化处 理, 生成表征信息;说 明 书 1/6 页 3 CN 115455945 A 3

PDF文档 专利 基于实体-关系的漏洞数据纠错方法和系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于实体-关系的漏洞数据纠错方法和系统 第 1 页 专利 基于实体-关系的漏洞数据纠错方法和系统 第 2 页 专利 基于实体-关系的漏洞数据纠错方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。