公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211016694.9 (22)申请日 2022.08.24 (71)申请人 中信天津金融科技 服务有限公司 地址 300000 天津市滨 海新区黄海路249号 二号单体 (72)发明人 韩承洁 朱健 张鹏 王碧君  穆德龙 杨宗畅 刘明扬  (74)专利代理 机构 天津易企创知识产权代理事 务所(普通 合伙) 12242 专利代理师 王春梅 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/31(2019.01) G06F 40/194(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于聚类分析的多数据文档分类方法 及系统 (57)摘要 本发明提出了一种基于聚类分析的多数据 文档分类方法及系统, 涉及 文档数据处理技术领 域, 输入用于分类的多个文档, 根据不同约束从 多个文档中提取M个集合; 对多个关键词语分别 进行加权计算; 根据加权结果, 从每个集合中包 含的关键词语中按照权重从大到小的顺序对每 个关键词语进行排序; 根据排序的前K个关键词 语, 将每个集合分类为Q个集群, 其中每个集群中 包括w个关键词语; 根据每个集群的矢量计算集 群相似度, 将内积值小于设定阈值的多个集群结 合而形成大集群; 基于大集群的关联度计算待匹 配的大集群所在的集合与 目标集合的关联度加 权和, 选出最大关联度加权和对应的大集群所在 的集合; 重复上述步骤直至所有文档均聚类完 成。 权利要求书2页 说明书6页 附图1页 CN 115098690 A 2022.09.23 CN 115098690 A 1.一种基于聚类分析的多数据文档分类方法, 其特 征在于, 包括如下步骤: 步骤S1, 输入用于分类的多个文档, 并将其存 储在文件 存储部; 步骤S2, 根据不同约束从多个文档中提取M个集 合; 步骤S3, 对多个关键词语分别进行加权计算; 根据加权结果, 从每个集合中包含的关键 词语中按照权 重从大到小的顺序对每 个关键词语进行排序; 步骤S4, 根据排序的前K个关键词语, 将每个集合分类为Q个集群, 其中每个集群中包括 w个关键词语, 1≤w≤K; 步骤S5, 根据每个集群的矢量计算集群相似度, 将内积值小于设定阈值的多个集群结 合而形成大集群; 步骤S6, 基于大集群的关联度计算待 匹配的大集群所在的集合与目标集合的关联度加 权和, 选出最大关联度加权和对应的大集群所在的集 合; 步骤S7, 重复步骤S2 ‑S7, 直至所有 文档均聚类完成。 2.根据权利要求1所述的多数据文档分类方法, 其特征在于, 所述步骤S3中, 使用加权 公式 (1) 为每 个文档的关键词语 计算权值: Wij=TFij×IDFj  (1); 其中, Wij是文档i中的关键词语j的权重, TFij是文档i中的关键词语j的出现频率, IDFj 是关键词语j在多个文档中出现的文档件数的比值对数; 设具有M个文档, M个文档中的N件文档包 含关键词语j, 则: IDFj=log N/M (2) ; 则, 加权公式 (1) 表示 为: Wij=TFij×log N/M  (3)。 3.根据权利要求2所述的多数据文档分类方法, 其特征在于, 所述步骤S5中, 若关键词 语j 第一次出现在某个集群中,设其联系到其他Q ‑1个集群中的第q个集群的概率为 , 且: ; 其中j=1、 2、 …、 K; 计算每个集群q的矢量 :   (4) ; 表示集群q的权重, ; 为集群q中包 含的w个关键词语的权值; 两个集群相似度用各个集群的矢量 和 的内积值r12来表示: (5); 其中, 为矢量 和 间的夹角; 将内积值小于设定阈值rt的多个集群结合而形成大集群, 根据大集群所包含各个集群 的矢量合成大集群的矢量。权 利 要 求 书 1/2 页 2 CN 115098690 A 24.根据权利要求1所述的多数据文档分类方法, 其特征在于, 所述步骤S6具体包括如下 步骤: 步骤S61、 计算各个集 合之间的大集群X和Y的关联度S:   (6) ; 其中, D为大集群的总数; 步骤S62、 提取与目标集 合的特征属性相匹配的大集群所在的集 合; 设与目标集合待匹配的大集群所在的集合为CR={CR1、…、 CRL、…、 CRD}, 待匹配的集合 中的正分类大集群为r+; 负分类大集群为r, 正分类关联度影响因子 和负分类关联度影响 因子 ; 计算待匹配的大集群所在的集 合CR与目标集 合的关联度加权和W(S):  (7) ; 其中, 和 分别为大集群r+和r‑分别与待匹配的大集群的关联度; 最大关联度加权和对应的大集群所在的集 合为预测集 合Ps:  (8) ; 其中, 表示由第k个的待匹配的大集群所在的集合的关联度加权和, L=1,2,...  , D, max()为 最大值函数。 5.一种基于聚类分析的多数据文档分类系统, 其特征在于, 用于实现如权利要求1 ‑4所 述的分类方法, 包括: 文件存储部、 集合提取部、 关键词 提取部、 集群分类单元、 集群相 似度 计算部和聚类关联部; 文件存储部, 存储用于分类的多个文档; 集合提取部,根据不同约束从多个文档中提取M个集 合; 关键词提取部, 对多个关键词语分别进行加权计算; 根据加权结果, 从每个集合中包含 的关键词语中按照权 重从大到小的顺序对每 个关键词语进行排序; 集群分类单 元, 根据排序的前 K个关键词语, 将每 个集合分类为 Q个集群; 集群相似度计算部,根据每个集群的矢量计算集群相似度, 将内积值小于设定阈值的 多个集群结合而形成大集群; 聚类关联部,基于大集群的关联度计算待 匹配的大集群所在的集合与目标集合的关联 度加权和, 选出最大关联度加权和对应的大集群所在的集 合。 6.根据权利要求5所述的多数据文档分类系统, 其特征在于, 所述约束为时间信息、 与 目标信息内容相关的约束、 在目标地 点或位置信息相关的约束中的一种或多种。权 利 要 求 书 2/2 页 3 CN 115098690 A 3

PDF文档 专利 一种基于聚类分析的多数据文档分类方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于聚类分析的多数据文档分类方法及系统 第 1 页 专利 一种基于聚类分析的多数据文档分类方法及系统 第 2 页 专利 一种基于聚类分析的多数据文档分类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。