公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210951701.8 (22)申请日 2022.08.09 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 马亿凯  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 尹长斌 (51)Int.Cl. G06V 30/262(2022.01) G06V 30/41(2022.01) G06F 40/30(2020.01) G06F 40/284(2020.01)G06F 40/242(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 9/451(2018.01) (54)发明名称 基于OCR和NLP的软件内容分析方法、 装置、 存储介质 (57)摘要 本申请公开了一种基于OCR和NLP的软件内 容分析方法、 装置、 计算机 可读存储介质, 方法包 括: 第一进 程运行时, 获取预设的进程白名单, 白 名单记载有多个第二进程, 第一进程具有第二进 程的监控权 限; 当检测到屏幕点击信号, 将当前 页面所显示的内容所对应的进程确定为目标进 程; 当目标进程归属于第二进程, 通过第一进程 截取待监控图像; 将待监控图像输入至第一进 程, 通过第一进程的OCR模型进行文字识别, 得到 目标字符; 将目标字符输入至第一进程的NLP模 型进行语义识别, 得到内容分析结果。 本申请通 过第一进程的OCR模型和NLP模型对待监控图像 进行分析得到内容分析结果, 以实现对软件进程 的页面展示内容进行风险评估, 进而提升互联网 软件的用户体验感。 权利要求书2页 说明书12页 附图4页 CN 115294583 A 2022.11.04 CN 115294583 A 1.一种基于OCR和N LP的软件内容分析 方法, 其特 征在于, 包括: 在第一进程处于运行状态下, 获取预设的进程 白名单, 所述 白名单记载有多个第二进 程, 所述第一进程具有所述第二进程的监控权限; 当检测到屏幕点击信号, 将当前页面所显示的内容所对应的进程确定为目标进程; 当所述目标进程归属于所述第二进程, 通过所述第一进程截取待监控图像, 所述待监 控图像为当前的页面图像; 将所述待监控图像输入至所述第一进程, 通过预设于所述第一进程的OCR模型进行文 字识别, 得到目标字符; 将所述目标字符输入至预设于所述第一进程的NLP模型进行语义识别, 得到内容分析 结果。 2.根据权利 要求1所述的方法, 其特征在于, 所述OCR模型包括卷积循环神经网络CRNN, 所述CRNN包括依次连接的卷积神经网络CNN、 长 短期记忆网络LSTM和转录层; 所述将所述待 监控图像输入至所述第一进程, 通过预设于所述第一进程的OCR模型进 行文字识别, 得到目 标字符, 包括: 通过所述CNN对待监控图像进行图像特 征提取, 得到图像特 征; 通过所述LSTM对所述图像特 征进行序列特 征提取, 得到多个序列特 征; 将多个所述序列特征输入至所述转录层进行序列预测转换, 得到目标序列标签, 并将 所述目标序列标签确定为所述目标字符。 3.根据权利要求2所述的方法, 其特征在于, 所述将多个所述序列特征输入至所述转录 层进行序列预测转换, 得到目标序列标签, 包括: 根据预设的CTC算法计算各个所述序列特 征的序列标签预测概 率; 确定第一序列标签, 所述第 一序列标签为各个所述序列 特征的数值最大的所述标签预 测概率对应的序列标签; 将各个所述第一序列标签进行 数据合并处 理, 得到所述目标序列标签。 4.根据权利要求1所述的方法, 其特征在于, 所述将所述目标字符输入至预设于所述第 一进程的N LP模型进行语义识别, 得到内容分析 结果, 包括: 获取预设的候选词典, 所述候选词典包括多个候选关键词, 各个所述候选关键词对应 有风险评分值, 其中, 所述 候选关键词表征包 含风险内容的关键词; 根据所述目标字符从多个所述 候选关键词中确定目标关键词; 将全部的所述目标关键词输入至所述 NLP模型, 得到关键词分析 结果; 根据全部的所述关键词分析 结果确定所述内容分析 结果。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述目标字符从多个所述候选关 键词中确定目标关键词, 包括: 根据预设的正向最大匹配算法对目标字符进行字符切分处理, 得到至少两个待 匹配字 符; 计算各个所述待匹配字符与各个所述 候选关键词之间的欧氏距离; 当所述欧氏距离小与 预设阈值, 将与所述欧氏距离对应的所述候选关键词确定为所述 目标关键词。 6.根据权利要求4所述的方法, 其特征在于, 所述内容分析结果包括内容风险评估值,权 利 要 求 书 1/2 页 2 CN 115294583 A 2所述根据全部的所述关键词分析 结果确定所述内容分析 结果, 包括: 从所述关键词分析结果中获取目标评分值和目标数量, 其中, 所述目标评分值为所述 目标关键词对应的风险评分值, 所述目标 数量为相同的所述目标关键词的数量; 计算所述目标评分值与所述目标 数量的乘积, 得到所述内容 风险评估值。 7.根据权利要求6所述的方法, 其特征在于, 在将所述目标字符输入至预设于所述第 一 进程的NLP模型进行语义识别, 得到内容分析 结果之后, 所述方法还 包括: 当所述内容风险评估值大于预设的内容风险阈值, 确定所述目标进程对应的进程属性 信息, 并根据所述进程属 性信息、 所述内容风险评估值和与所述内容风险评估值对应的目 标关键词生成风险提 示信息; 确定目标 软件对应的用户信息, 所述目标 软件为与所述目标进程对应的软件; 从所述用户信息中获取 预先设定的联系号码信息; 根据所述联系号码信息发送所述 风险提示信息。 8.一种基于OCR和N LP的软件内容分析装置, 其特 征在于, 包括: 进程白名单获取模块, 所述进程 白名单获取模块用于在第一进程处于运行状态下, 获 取预设的进程白名单, 所述白名单记载有多个第二进程, 所述第一进程具有所述第二进程 的监控权限; 目标进程确定模块, 所述目标进程确定模块用于当检测到屏幕点击信号, 将当前页面 所显示的内容所对应的进程确定为目标进程; 待监控图像获取模块, 所述待监控图像获取模块用于当所述目标进程归属于所述第 二 进程, 通过 所述第一进程截取待监控图像, 所述待监控图像为当前的页面图像; 目标字符获取模块, 所述目标字符获取模块用于将所述待监控图像输入至所述第 一进 程, 通过预设于所述第一进程的OCR模型进行文字识别, 得到目标字符; 内容分析结果获取模块, 所述内容分析结果获取模块用于将所述目标字符输入至预设 于所述第一进程的N LP模型进行语义识别, 得到内容分析 结果。 9.一种基于OCR和NLP的软件内容分析装置, 包括: 存储器、 处理器及存储在存储器上并 可在处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如 权利要求1至7中任意 一项所述的基于OCR和N LP的软件内容分析 方法。 10.一种计算机可读存储介质, 存储有计算机可执行指令, 所述计算机可执行指令用于 执行如权利要求1至7中任意 一项所述的基于OCR和N LP的软件内容分析 方法。权 利 要 求 书 2/2 页 3 CN 115294583 A 3

PDF文档 专利 基于OCR和NLP的软件内容分析方法、装置、存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于OCR和NLP的软件内容分析方法、装置、存储介质 第 1 页 专利 基于OCR和NLP的软件内容分析方法、装置、存储介质 第 2 页 专利 基于OCR和NLP的软件内容分析方法、装置、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。