公共安全标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111624940.4 (22)申请日 2021.12.28 (71)申请人 航天科工智能运 筹与信息安全研究 院 (武汉) 有限公司 地址 430040 湖北省武汉市临 空港经济技 术开发区五环大道6 66号 (72)发明人 马小乐 陈晓东 黄家辉 魏向元  王成欢 黄腾 王韫泽 秦天浩  (74)专利代理 机构 中国兵器 工业集团公司专利 中心 11011 代理人 王雪芬 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/23(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于改进Apriori算法的相似模型检索 系统 (57)摘要 本发明涉及一种基于改进Apriori算法的相 似模型检索系统, 属于相似性检索技术领域。 本 发明为提高Apriori关联规则挖掘效率, 采用改 进Apriori算法实现增量快速 更新与阈值快速 更 新, 根据“频繁项集任一子集必是频繁项集 ”原 则, 利用现有频繁项集, 对新增候选项集进行剪 枝, 接着生成新频繁项集, 然后通过频繁项集计 算关联规则。 最后, 使用余弦相似度算法挖掘潜 在相似模型。 本发明为相似算法模 型检索提供了 高效的技 术方案, 具有重要的现实应用价 值。 权利要求书2页 说明书5页 附图1页 CN 114265886 A 2022.04.01 CN 114265886 A 1.一种基于改进Apri ori算法的相似 模型检索系统, 其特 征在于, 包括: 候选集创建模块, 用于选取模型数据集D, 对模型数据集D进行去重、 排序, 创建一项候 选集C1; 扫描模块, 用于扫描数据集D, 计算一项候选集C1在数据集D中的支持度, 判断支持度是 否大于最小支持度mi nSupport, 大于最小支持度mi nSupport的项集形成一项频繁集 L1; 迭代计算模块, 用于根据L1进行组合计算, 得到所有可 能的候选项集C2, 计算二项候选 集C2在数据集D中的支持度, 大于最小支持度minSupport的项集形成二项频繁集L2, 迭代得 到k项频繁集 Lk; 关联规则生成模块, 用于通过频繁项集Lk递归计算可信度, 记录可信度大于最小可信 度minConf的集合, 生成关联规则; 新增数据集模块, 用于新增数据 集Dn, 使用Apriori增量快速更新算法生成新的频繁项 集Lk, 再递归计算可信度, 通过 可信度计数生成关联规则; 最小支持度更新模块, 用于更新最小支持度minSupport, 使用Apriori阈值快速更新算 法生成新的频繁项集 Lk, 再递归计算可信度, 通过 可信度计数生成关联规则; 潜在相似模型生成模块, 用于使用余弦相似度算法计算最小支持度更新模块中关联规 则的相似度, 对余弦相似度设定阈值剔除非潜在相似 模型, 得到潜在相似 模型。 2.如权利 要求1所述的系统, 其特征在于, 所述Apriori增量快速更新算法是在数据集D 有新增Dn的情况下, 只遍历计算新增候选集的支持度计数, 原有候选集不再遍历计算其支 持度计数, 候选集再根据支持度阈值得 出频繁集。 3.如权利要求1所述的系 统, 其特征在于, 所述Apriori增量快速更新算法的具体实现 流程如下: 首先, Apriori增量快速更新算法每一次遍历计算候选集的支持度计数后, 都将该支持 度计数存储起来, 然后, 当数据集有新增候选集时, 遍历计算新增候选集的支持度计数, 再 读取原有候选集的支持度计数, 将原有候选集的支持度计数与新增候选集的支持度计数相 加, 最后, 将合并后的候选集的支持度计数除以更新后的数据集总长度, 得出更新后的数据 集中各候选集的支持度, 候选集再根据支持度阈值得 出频繁集。 4.如权利要求3所述的系统, 其特征在于, 所述数据集的更新模型中, 设ssCnt为支持 度, lenOld为原数据集长度, lenNew为插入新增数据集后的新数据集长度, 通过 公式newCnt =ssCnt/(LenOld+LenNew), 重新计算原有频繁项集支持度, 原有非频繁项集与新增候选集 组成并集计算支持度, 将原有频繁项集支持度与并集计算支持度相加再作阈值判断得到新 频繁项集。 5.如权利要求1所述的系 统, 其特征在于, 所述Apriori阈值快速更新算法是在支持度 阈值更新后, 只遍历计算因阈值更新而产生的新的候选集, 原本满足支持度阈值的候选集 不再做遍历计算, 候选集再根据新的支持度阈值得 出频繁集。 6.如权利要求5所述的系统, 其特征在于, 支持度阈值更新包括两种情况: 情况一, 新支 持度阈值比原支持度阈值大, 此时利用频繁项集的支持度计数, 通过遍历之间删除不满足 newSupport的频繁项集; 情况二, 新支持度阈值比原支持度阈值小, 此时重新计算频繁一项 集newL1, 得到新增频繁一项集L1 ′=newL1‑L1, 将满足新最小支持度newSupport的频繁项 集Lk分为三类:权 利 要 求 书 1/2 页 2 CN 114265886 A 2①第一类频繁集 Lk1: 候选集通过apri ori_gen(L k1‑1)得出; ②第二类频繁集 Lk2: 候选集通过apri ori_gen(L k2‑1′)得出; ③第三类频繁集 Lk3: 候选集通过apri ori_gen(L k3‑1,Lk3‑1′)得出; 分别针对这三类频繁集, 进行 处理, 其中apr iori_gen()函数用于计算频繁项集组合而 成所有可能的候选集。 7.如权利要求6所述的系统, 其特征在于, 对于类型 ①, 通过apriori_gen(Lk1‑1)‑Lk1的 方式修剪这部分候选集, 并计算剩余 候选数据集在数据集D中的支持度。 8.如权利要求6所述的系统, 其特征在于, 对于类型 ②, 直接计算候选集apriori_gen (Lk2‑1′)在数据集D中的支持度。 9.如权利要求6所述的系统, 其特征在于, 对于类型 ③, 拼接第一类频繁集Lk1和第二类 频繁集Lk2, 并通过“频繁项集任一子集必是频繁项集 ”原则检测候选集的子集是否为频繁 项集, 不是则修剪这部分候选集。 10.一种如权利要求1至9中任一项所述系统在相似性检索技 术领域中的应用。权 利 要 求 书 2/2 页 3 CN 114265886 A 3

.PDF文档 专利 一种基于改进Apriori算法的相似模型检索系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于改进Apriori算法的相似模型检索系统 第 1 页 专利 一种基于改进Apriori算法的相似模型检索系统 第 2 页 专利 一种基于改进Apriori算法的相似模型检索系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:18:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。