(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211016694.9
(22)申请日 2022.08.24
(71)申请人 中信天津金融科技 服务有限公司
地址 300000 天津市滨 海新区黄海路249号
二号单体
(72)发明人 韩承洁 朱健 张鹏 王碧君
穆德龙 杨宗畅 刘明扬
(74)专利代理 机构 天津易企创知识产权代理事
务所(普通 合伙) 12242
专利代理师 王春梅
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/31(2019.01)
G06F 40/194(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于聚类分析的多数据文档分类方法
及系统
(57)摘要
本发明提出了一种基于聚类分析的多数据
文档分类方法及系统, 涉及 文档数据处理技术领
域, 输入用于分类的多个文档, 根据不同约束从
多个文档中提取M个集合; 对多个关键词语分别
进行加权计算; 根据加权结果, 从每个集合中包
含的关键词语中按照权重从大到小的顺序对每
个关键词语进行排序; 根据排序的前K个关键词
语, 将每个集合分类为Q个集群, 其中每个集群中
包括w个关键词语; 根据每个集群的矢量计算集
群相似度, 将内积值小于设定阈值的多个集群结
合而形成大集群; 基于大集群的关联度计算待匹
配的大集群所在的集合与 目标集合的关联度加
权和, 选出最大关联度加权和对应的大集群所在
的集合; 重复上述步骤直至所有文档均聚类完
成。
权利要求书2页 说明书6页 附图1页
CN 115098690 A
2022.09.23
CN 115098690 A
1.一种基于聚类分析的多数据文档分类方法, 其特 征在于, 包括如下步骤:
步骤S1, 输入用于分类的多个文档, 并将其存 储在文件 存储部;
步骤S2, 根据不同约束从多个文档中提取M个集 合;
步骤S3, 对多个关键词语分别进行加权计算; 根据加权结果, 从每个集合中包含的关键
词语中按照权 重从大到小的顺序对每 个关键词语进行排序;
步骤S4, 根据排序的前K个关键词语, 将每个集合分类为Q个集群, 其中每个集群中包括
w个关键词语, 1≤w≤K;
步骤S5, 根据每个集群的矢量计算集群相似度, 将内积值小于设定阈值的多个集群结
合而形成大集群;
步骤S6, 基于大集群的关联度计算待 匹配的大集群所在的集合与目标集合的关联度加
权和, 选出最大关联度加权和对应的大集群所在的集 合;
步骤S7, 重复步骤S2 ‑S7, 直至所有 文档均聚类完成。
2.根据权利要求1所述的多数据文档分类方法, 其特征在于, 所述步骤S3中, 使用加权
公式 (1) 为每 个文档的关键词语 计算权值:
Wij=TFij×IDFj (1);
其中, Wij是文档i中的关键词语j的权重, TFij是文档i中的关键词语j的出现频率, IDFj
是关键词语j在多个文档中出现的文档件数的比值对数;
设具有M个文档, M个文档中的N件文档包 含关键词语j, 则:
IDFj=log N/M (2) ;
则, 加权公式 (1) 表示 为: Wij=TFij×log N/M (3)。
3.根据权利要求2所述的多数据文档分类方法, 其特征在于, 所述步骤S5中, 若关键词
语j 第一次出现在某个集群中,设其联系到其他Q ‑1个集群中的第q个集群的概率为
,
且:
; 其中j=1、 2、 …、 K;
计算每个集群q的矢量
:
(4) ;
表示集群q的权重,
;
为集群q中包
含的w个关键词语的权值;
两个集群相似度用各个集群的矢量
和
的内积值r12来表示:
(5);
其中,
为矢量
和
间的夹角;
将内积值小于设定阈值rt的多个集群结合而形成大集群, 根据大集群所包含各个集群
的矢量合成大集群的矢量。权 利 要 求 书 1/2 页
2
CN 115098690 A
24.根据权利要求1所述的多数据文档分类方法, 其特征在于, 所述步骤S6具体包括如下
步骤:
步骤S61、 计算各个集 合之间的大集群X和Y的关联度S:
(6) ;
其中, D为大集群的总数;
步骤S62、 提取与目标集 合的特征属性相匹配的大集群所在的集 合;
设与目标集合待匹配的大集群所在的集合为CR={CR1、…、 CRL、…、 CRD}, 待匹配的集合
中的正分类大集群为r+; 负分类大集群为r, 正分类关联度影响因子
和负分类关联度影响
因子
;
计算待匹配的大集群所在的集 合CR与目标集 合的关联度加权和W(S):
(7) ;
其中,
和
分别为大集群r+和r‑分别与待匹配的大集群的关联度;
最大关联度加权和对应的大集群所在的集 合为预测集 合Ps:
(8) ;
其中,
表示由第k个的待匹配的大集群所在的集合的关联度加权和, L=1,2,... ,
D, max()为 最大值函数。
5.一种基于聚类分析的多数据文档分类系统, 其特征在于, 用于实现如权利要求1 ‑4所
述的分类方法, 包括: 文件存储部、 集合提取部、 关键词 提取部、 集群分类单元、 集群相 似度
计算部和聚类关联部;
文件存储部, 存储用于分类的多个文档;
集合提取部,根据不同约束从多个文档中提取M个集 合;
关键词提取部, 对多个关键词语分别进行加权计算; 根据加权结果, 从每个集合中包含
的关键词语中按照权 重从大到小的顺序对每 个关键词语进行排序;
集群分类单 元, 根据排序的前 K个关键词语, 将每 个集合分类为 Q个集群;
集群相似度计算部,根据每个集群的矢量计算集群相似度, 将内积值小于设定阈值的
多个集群结合而形成大集群;
聚类关联部,基于大集群的关联度计算待 匹配的大集群所在的集合与目标集合的关联
度加权和, 选出最大关联度加权和对应的大集群所在的集 合。
6.根据权利要求5所述的多数据文档分类系统, 其特征在于, 所述约束为时间信息、 与
目标信息内容相关的约束、 在目标地 点或位置信息相关的约束中的一种或多种。权 利 要 求 书 2/2 页
3
CN 115098690 A
3
专利 一种基于聚类分析的多数据文档分类方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:05上传分享