(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210073277.1
(22)申请日 2022.01.21
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518000 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 岳天驰
(74)专利代理 机构 深圳市隆天联鼎知识产权代
理有限公司 4 4232
专利代理师 陈涛
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/253(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
异常文本的检测方法、 装置、 计算机可读介
质及电子设备
(57)摘要
本申请公开了一种异常文本的检测方法、 装
置、 计算机可读介质以及电子设备, 可用于人工
智能、 自然语言处理等场景。 所述方法包括: 获取
由多个字组成的待检测文本; 对待检测文本进行
特征提取, 得到待检测文本的特征序列, 特征序
列包括待检测文本中多个字对应的上下文特征;
通过多个预设模型分别对特征序列进行映射处
理, 得到各个预设模型对应的处理结果; 其中, 预
设模型的处理结果包括特征序列中特征片段的
异常概率; 不同预设模型的处理结果所对应的特
征片段的长度不同; 根据各个预设模 型处理结果
所指示的特征片段的异常概率, 确定待检测文本
中的异常片段。 本申请通过多种粒度的模型分别
对待检测文本进行检测, 提高了检测结果的准确
性和精度。
权利要求书3页 说明书16页 附图6页
CN 114490935 A
2022.05.13
CN 114490935 A
1.一种异常文本的检测方法, 其特 征在于, 包括:
获取由多个字组成的待检测文本;
对所述待检测文本进行特征提取, 得到所述待检测文本的特征序列, 所述特征序列包
括所述待检测文本中多个字对应的上 下文特征;
通过多个预设模型分别对所述特征序列进行映射处理, 得到各个预设模型对应的处理
结果; 其中, 所述预设模型的处理结果包括所述特征序列中特征片段的异常概率, 所述特征
片段包括至少一个字的上下文 特征; 不同预设模型的处理结果所对应的特征片段的长度不
同;
根据各个预设模型处理结果所指示的特征片段的异常概率, 确定所述待检测文本 中的
异常片段。
2.根据权利要求1所述的异常文本的检测方法, 其特征在于, 在通过多个预设模型分别
对所述特 征序列进行映射处 理, 得到各个预设模型对应的处 理结果之前, 所述方法还 包括:
获取由多个字组成的样本数据, 所述样本数据中的字具有指示异常状态的第一标签;
基于多个预设片段长度, 根据每个预设片段长度确定所述样本数据中的多个样本片
段, 并根据所述样本片段对应的第一标签为所述样本片段 赋予指示异常状态的第二标签;
将各个预设片段长度对应的具有第 二标签的样本数据作为训练样本, 通过所述训练样
本对神经网络模型进行训练, 得到各个预设片段长度对应的预设模型。
3.根据权利要求2所述的异常文本的检测方法, 其特征在于, 根据每个预设片段长度确
定所述样本数据中的多个样本片段, 包括:
设定一个以所述预设片段长度作为 窗口宽度的窗口, 将样本数据中包含在所述 窗口内
的所有字作为样本片段, 其中, 所述窗口根据设定步长从所述样本数据的起始位滑动至终
止位。
4.根据权利要求3所述的异常文本的检测方法, 其特征在于, 所述第 一标签包括正常标
签和异常标签; 根据所述样本片段对应的第一标签为所述样本片段赋予指示异常状态的第
二标签, 包括:
根据所述窗口内的异常标签总量和所述窗口宽度生成所述样本片段的第二标签。
5.根据权利要求3所述的异常文本的检测方法, 其特征在于, 在所述神经网络模型的训
练过程中, 将所述神经网络模型针对所述训练样本的预测值与所述训练样本的第二标签之
间的交叉熵作为损失函数, 基于所述损失函数 更新所述神经网络模型的模型参数。
6.根据权利要求1所述的异常文本的检测方法, 其特征在于, 对所述待检测文本进行特
征提取, 得到所述待检测文本的特 征序列, 包括:
对所述待检测文本进行分字处理, 得到按顺序排列的多个字, 并根据预设字典将所述
按顺序排列的多个字中的每 个字转化为对应的字标签, 得到所述待检测文本的字序列;
对所述字序列进行 上下文特征提取, 得到所述待检测文本的特 征序列。
7.根据权利要求6所述的异常文本的检测方法, 其特征在于, 对所述字序列进行上下文
特征提取, 得到所述待检测文本的特 征序列, 包括:
根据所述字序列中的字标签确定所述字标签对应的语义向量和位置向量;
根据所述字序列中的字标签及所述字标签对应的语义向量和位置向量生成待特征提
取向量;权 利 要 求 书 1/3 页
2
CN 114490935 A
2对所述带 特征提取向量进行 上下文特征提取, 得到所述待检测文本的特 征序列。
8.根据权利要求1所述的异常文本的检测方法, 其特征在于, 通过多个预设模型分别对
所述特征序列进行映射处 理, 得到各个预设模型对应的处 理结果, 包括:
根据所述预设模型对应的预设片段长度, 通过滑动窗口法确定所述特征序列中的特征
片段;
通过所述预设模型的卷积层获取 所述特征片段的异常特 征表示;
通过所述预设模型的全连接层对所述异常特征表示进行映射处理, 得到所述特征片段
的异常概 率。
9.根据权利要求8所述的异常文本的检测方法, 其特征在于, 通过所述预设模型的卷积
层获取所述特征片段的异常特 征表示, 包括:
根据所述预设模型的卷积层的模型参数对所述特征片段中的所有上下文特征进行融
合, 得到所述特 征片段的异常特 征表示。
10.根据权利要求9所述的异常文本的检测方法, 其特征在于, 所述卷积层的模型参数
包括第一权重参数和 第一基值参数; 根据所述预设模型的卷积层的模型参数对所述特征片
段中的所有上 下文特征进行融合, 得到所述特 征片段的异常特 征表示, 包括:
通过所述第 一权重参数对所述特征片段中的所有上下文特征进行加权求和, 得到权值
特征;
将所述权值特 征与所述第一基值 参数叠加, 得到所述特 征片段的异常特 征表示。
11.根据权利要求8所述的异常文本的检测方法, 其特征在于, 所述预设模型的全连接
层包括第二权重参数和第二基值参数; 通过所述预设模型的全连接层 对所述异常特征表示
进行映射处 理, 得到所述特 征片段的异常概 率, 包括:
将所述异常特征表示与所述第 二权重参数相乘后再与 所述第二基值参数相加, 得到待
激活特征;
通过预设激活函数对所述待激活特 征进行处 理, 得到所述特 征片段的异常概 率。
12.根据权利要求1所述的异常文本的检测方法, 其特征在于, 根据各个预设模型处理
结果所指示的特 征片段的异常概 率, 确定所述待检测文本中的异常片段, 包括:
确定各个预设模型处 理结果所指示的特 征片段的异常概 率中的最大异常概 率;
将所述最大异常概率对应特征片段所指示的多个字作为所述待检测文本中的异常片
段。
13.一种异常文本的检测装置, 其特 征在于, 包括:
文本获取模块, 用于获取由多个字组成的待检测文本;
特征提取模块, 用于对所述待检测文本进行特征提取, 得到所述待检测文本的特征序
列, 所述特 征序列包括所述待检测文本中多个字对应的上 下文特征;
映射处理模块, 用于通过多个预设模型分别对所述特征序列进行映射处理, 得到各个
预设模型对应的处理结果; 其中, 所述预设模型 的处理结果包括所述特征序列中不同特征
片段的异常概率, 所述特征片段包括至少一个字的上下文特征; 不同预设模型 的处理结果
所对应的特 征片段的长度不同;
异常片段确定模块, 用于根据各个预设模型处理结果所指示的特征片段的异常概率,
确定所述待检测文本中的异常片段。权 利 要 求 书 2/3 页
3
CN 114490935 A
3
专利 异常文本的检测方法、装置、计算机可读介质及电子设备
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:47上传分享