公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210972942.0 (22)申请日 2022.08.15 (71)申请人 中国人民解 放军火箭军工程大 学 地址 710025 陕西省西安市灞桥区同心路2 号 (72)发明人 李海龙 刘敏 王利涛 罗眉  杨州  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 刘芳 (51)Int.Cl. G06F 21/56(2013.01) G06F 40/30(2020.01) G06F 40/205(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称 一种恶意代码聚类方法及系统 (57)摘要 本发明涉及一种恶意代码聚类方法及系统, 涉及计算机领域, 方法包括获取恶意代码融合语 义文本; 对 所述恶意代码融合语义文本进行特征 提取, 得到融合语义序列; 根据所述融合语义序 列利用恶意代码行为语义表示模型进行文本向 量预测, 得到行为语义向量; 所述恶意代码行为 语义表示模型包括分布式存储模型和分布式词 袋库模型; 根据所述行为语义向量利用恶意代码 聚类模型进行聚类, 得到聚类后的恶意代码; 所 述恶意代码聚类模型为训练好的自组织映射神 经网络。 本发明能够提高恶意代码的聚类效果。 权利要求书2页 说明书12页 附图5页 CN 115292703 A 2022.11.04 CN 115292703 A 1.一种恶意代码聚类方法, 其特 征在于, 包括: 获取恶意代码融合语义文本; 对所述恶意代码融合语义文本进行 特征提取, 得到融合语义序列; 根据所述融合语义序列利用恶意代码行为语义表示模型进行文本向量预测, 得到行为 语义向量; 所述恶意代码行为语义表示模型包括分布式存 储模型和分布式词袋库模型; 根据所述行为语义向量利用恶意代码聚类模型进行聚类, 得到聚类后的恶意代码; 所 述恶意代码聚类模型为训练好的自组织映射神经网络 。 2.根据权利要求1所述的恶意代码聚类方法, 其特征在于, 所述对所述恶意代码融合语 义文本进行 特征提取, 得到融合语义序列, 具体包括: 对所述恶意代码融合语义文本进行依赖关系分析和程序分块, 生成程序控制流图; 遍历所述程序控制流图, 根据所述程序控制流图中的基本块信息和API函数信息确定 融合语义序列。 3.根据权利要求1所述的恶意代码聚类方法, 其特征在于, 所述根据所述融合语义序列 利用恶意代码行为语义表示模型进行文本向量预测, 得到行为语义向量, 具体包括: 将所述融合语义序列进行 预处理, 得到独热编码; 根据所述独热编码分别利用所述分布式存储模型和所述分布式词袋库模型进行预测, 得到分布式存 储模型句子向量和分布式词袋库模型句子向量; 将所述分布式存储模型句子向量和所述分布式词袋库模型句子向量进行拼接, 得到行 为语义向量。 4.根据权利要求1所述的恶意代码聚类方法, 其特征在于, 所述恶意代码聚类模型的训 练过程包括: 以样本集的行为语义向量为输入, 以样本集的聚类后的恶意代码为输出, 利用竞争学 习策略对所述自组织映射神经网络进行训练, 得到恶意代码聚类模型。 5.一种恶意代码聚类系统, 其特 征在于, 包括: 获取模块, 用于获取恶意代码融合语义文本; 特征提取模块, 用于对所述恶意代码融合语义文本进行 特征提取, 得到融合语义序列; 预测模块, 用于根据 所述融合语义序列利用恶意代码行为语义表示模型进行文本向量 预测, 得到行为语义向量; 所述恶意代码行为语义表示模型包括分布式存储模型和分布式 词袋库模型; 聚类模块, 用于根据所述行为语义向量利用恶意代码聚类模型进行聚类, 得到聚类后 的恶意代码; 所述恶意代码聚类模型为训练好的自组织映射神经网络 。 6.根据权利要求5所述的恶意代码聚类系统, 其特征在于, 所述特征提取模块, 具体包 括: 程序控制流图生成单元, 用于对所述恶意代码融合语义文本进行依赖关系分析和程序 分块, 生成程序控制流图; 遍历单元, 用于遍历所述程序控制流图, 根据所述程序控制流图中的基本块信息和API 函数信息确定融合语义序列。 7.根据权利要求5所述的恶意代码聚类系统, 其特 征在于, 所述预测模块, 具体包括: 预处理单元, 用于将所述融合语义序列进行 预处理, 得到独热编码;权 利 要 求 书 1/2 页 2 CN 115292703 A 2预测单元, 用于根据 所述独热编码分别利用所述分布式存储模型和所述分布式词袋库 模型进行 预测, 得到分布式存 储模型句子向量和分布式词袋库模型句子向量; 拼接单元, 用于将所述分布式存储模型句子向量和所述分布式词袋库模型句子向量进 行拼接, 得到行为语义向量。 8.根据权利要求5所述的恶意代码聚类系统, 其特征在于, 所述恶意代码聚类模型的训 练过程包括: 以样本集的行为语义向量为输入, 以样本集的聚类后的恶意代码为输出, 利用竞争学 习策略对所述自组织映射神经网络进行训练, 得到恶意代码聚类模型。权 利 要 求 书 2/2 页 3 CN 115292703 A 3

PDF文档 专利 一种恶意代码聚类方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种恶意代码聚类方法及系统 第 1 页 专利 一种恶意代码聚类方法及系统 第 2 页 专利 一种恶意代码聚类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。