(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211003631.X
(22)申请日 2022.08.21
(71)申请人 南京理工大 学
地址 210094 江苏省南京市孝陵卫20 0号
(72)发明人 徐建 梁坤 傅媛媛
(74)专利代理 机构 南京理工大 学专利中心
32203
专利代理师 陈鹏
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/31(2019.01)
G06F 16/18(2019.01)
G06F 40/186(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于深度混合神经网络的日志序列异常检
测方法
(57)摘要
本发明公开了一种基于深度混合神经网络
的日志序列异常检测方法, 包括以下步骤: 采用
滑动窗口与会话窗口相结合的方式对日志进行
序列分割, 采用语义向量特征和统计特征结合的
方式实现日志模板的语义向量化; 采用改进的序
列化深度学习模型与卷积神经网络相结合的模
型结构, 对有异常或正常标签的日志序列进行训
练, 建立异常检测模型; 应用 构建的异常检测模
型对新产生的日志序列进行异常检测。 该方法能
够准确地捕获日志的序列特征信息和语义特征
信息, 进而借助于混合深度学习模 型实现准确的
日志异常检测, 揭示系统状态, 并且拥有较好的
鲁棒性。
权利要求书2页 说明书7页 附图2页
CN 115329082 A
2022.11.11
CN 115329082 A
1.一种基于深度混合神经网络的日志序列异常检测方法, 其特 征在于, 包括以下步骤:
步骤1, 采用滑动窗口与会话窗口相结合的方式对日志进行序列分割;
步骤2, 采用语义向量特 征和统计特 征结合的方式实现日志模板的语义向量 化;
步骤3, 通过改进的序列化深度学习模型与卷积神经网络相结合的模型结构, 对有异常
或正常标签的日志序列进行训练, 建立异常检测模型;
步骤4, 应用构建的异常检测模型对新产生的日志序列进行异常检测。
2.根据权利要求1所述的方法, 其特征在于, 步骤1中, 判断日志 的序列模式: 如果是基
于时间的序列, 则指定参数滑动窗口大小win dow_size和滑动步长step_size, 按照时间戳
在日志集上进 行滑动, 对日志序列进行分割; 如果是基于会话ID的序列, 则根据会话ID将各
个ID对应的日志事 件抽取出来组合成对应于id的日志序列, 完成日志序列划分。
3.根据权利要求2所述的方法, 其特征在于, 异常检测前, 将非结构化的日志数据结构
化, 获得日志事 件模板以及结构化后的日志事 件集。
4.根据权利要求2所述的方法, 其特征在于, 滑动 窗口方式的日志事件抽取方式, 将所
有日志在时间维度上按照窗口滑动的方式, 生成一个个日志事件序列; 窗口大小window_
size和滑动距离step_size根据日志的时间跨度自行设置, 而当step_size>=window_siz e
时, 日志事件序列无重复; 当一个日志事件序列内有一条及以上异常日志时, 该序列即视为
异常序列; 反 之, 则为正常序列。
5.根据权利要求2所述的方法, 其特征在于, 会话窗口方式的日志事件抽取方式, 将属
于一个会话ID: blk_id的所有日志事件抽取出来组合成一个 日志事件序列, 并与该blk_id
对应的标签相匹配。
6.根据权利 要求1所述的方法, 其特征在于, 步骤2中, 先利用预训练语言模型Bert对日
志模板进行语义向量化, 然后计算出各个日志事件的逆频率, 将Bert语义化的向量与事件
逆频率相结合实现日志模板的语义向量 化。
7.根据权利要求6所述的方法, 步骤2日志模板语义向量 化的具体步骤为:
步骤2.1, 对步骤1.1的产生的日志模板进行数据预处理, 去除无效符号和干扰数字, 将
拼接单词拆分;
步骤2.2, 将处理好的日志模板投入到Bert预训练模型中, 获得日志模板的语义向量,
每个日志事 件对应一个768维的语义向量;
步骤2.3, 根据步骤1.1统计不 同日志事件的数量, 计算各个日志事件的逆频率Event_
IDF:
其中n表示日志中出现的事 件数, ei表示第i个事 件;
步骤2.4, 将Event_IDF进行适当缩放后, 与步骤2.2产生的语义向量进行 结合;
其中[min,max]是指定的缩放范围, ID Fmin和IDFmax是步骤2.3所计算的事件逆频率的最
小值和最大值; Eventnor‑idf(ei)经过计算后缩放至指定范围[min,max]; 再将规范后的事件
逆频率与步骤2.2的日志模板语义向量相乘, 实现日志统计特性与语义向量的结合, 获得日权 利 要 求 书 1/2 页
2
CN 115329082 A
2志模板特 征向量。
8.根据权利要求1所述的方法, 其特征在于, 步骤3日志异常检测模型构建的具体步骤
为:
步骤3.1, 用步骤2所产生的日志模板语义向量对步骤1的日志序列进行特征向量化, 产
生日志序列的特征向量, 再投入到模型中; 首先接入一层 全连接层, 用以将特征向量进行提
取压缩, 使步骤2产生的语义向量与日志数据更加匹配;
步骤3.2, 接着将日志序列特征向量按日志事件的顺序依次投入到改进的序列化深度
学习模型Mogrifier LSTM中, 每条日志事件的特征 向量对应于一个神经细胞单元Cell, 用
以捕获日志的序列特 征和语义特 征;
步骤3.3, 在序列化深度 学习模型后面接入卷积神经网络, 利用卷积神经网络的特征捕
获能力, 对LSTM层的结果进 行特征提取; 再接入全 连接层, 将 CNN层的输出最 终映射到标签0
和1。
9.根据权利要求1所述的方法, 其特征在于, 步骤4中, 使用sigmoid函数将模型的预测
结果进行归一化处理, 获得日志序列隶属于正常或异常的概率, 根据概率判断日志序列正
常与否。
10.根据权利要求9所述的方法, 步骤4日志 异常检测的具体步骤为:
步骤4.1, 将待预测的日志序列按照步骤2的日志模板向量进行特征向量化, 投入到步
骤3训练好的模型中, 最终 获得全连接层输出的大小为2的一维向量;
步骤4.2, 使用sigmod函数对结果进行归一 化计算, 获得 结果为0和1的概 率;
步骤4.3, 设定预测阈值P, 当步骤4.2产生的预测结果为0的概率大于P时, 预测该日志
序列为正常, 结果 为0的概率小于P时, 预测该日志序列为异常。权 利 要 求 书 2/2 页
3
CN 115329082 A
3
专利 基于深度混合神经网络的日志序列异常检测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:07上传分享