公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211058328.X (22)申请日 2022.08.30 (71)申请人 山石网科通信技 术股份有限公司 地址 215163 江苏省苏州市高新区景润路 181号 (72)发明人 姜珂 孙彦芬 弓源 万朝华  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 周春枚 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/205(2020.01) G06F 40/30(2020.01) (54)发明名称 文本聚类方法及装置、 电子设备 (57)摘要 本发明公开了一种文本聚类方法及装置、 电 子设备。 其中, 该方法包括: 接收目标文本数据, 并提取目标文本数据的多维度特征; 采用预设成 分分析策略对多维度特征进行量化处理, 得到特 征信息集合, 其中, 特征信息集合中至少包括: 特 征离散度; 基于特征离散度, 对特征信息集合中 各个特征进行组合选择, 生成动态特征表征结 果; 基于动态特征表征结果, 对目标文本数据进 行聚类, 得到文本聚类结果。 本发明解决了现有 技术中, 对于不同领域的文本聚类, 无法有效确 定数据倾向性从而导致表征结果不准确的技术 问题。 权利要求书2页 说明书11页 附图3页 CN 115438182 A 2022.12.06 CN 115438182 A 1.一种文本聚类方法, 其特 征在于, 包括: 接收目标文本数据, 并提取 所述目标文本数据的多维度特 征; 采用预设成分分析策略对所述多维度 特征进行量化处理, 得到特征信 息集合, 其中, 所 述特征信息集 合中至少包括: 特 征离散度; 基于所述特征离散度, 对所述特征信息集合中各个特征进行组合选择, 生成动态特征 表征结果; 基于所述动态特 征表征结果, 对所述目标文本数据进行聚类, 得到文本聚类结果。 2.根据权利要求1所述的方法, 其特征在于, 提取所述目标文本数据的多维度 特征的步 骤, 包括: 采用预设文本词频模型提取 所述目标文本数据中的词频分布, 得到词频提取 结果; 将所述词频提取结果输入至预设文本主题生成模型, 以确定所述目标文本数据的文本 主题; 将所述文本主题 表征为所述目标文本数据的文本主题维度特 征。 3.根据权利要求1所述的方法, 其特征在于, 提取所述目标文本数据的多维度 特征的步 骤, 包括: 提取所述目标文本数据中的多种 文本结构, 得到结构提取结果, 其中, 所述文本结构包 括下述至少之一: 文本句子 长度、 句子结构成分、 段落 篇幅; 基于所述结构提取 结果, 确定所述目标文本数据的文本结构维度特 征。 4.根据权利要求1所述的方法, 其特征在于, 提取所述目标文本数据的多维度 特征的步 骤, 包括: 采用词向量模型提取 所述目标文本数据中的词向量和文本上 下文信息; 将所述词向量和所述文本上下文信 息输入至预设语言表征模型中, 以确定所述目标文 本数据的文本语义; 将所述文本语义表征为所述目标文本数据的文本语义维度特 征。 5.根据权利要求1所述的方法, 其特征在于, 采用预设成分分析策略对所述多维度 特征 进行量化处理, 得到特 征信息集 合的步骤, 包括: 将所述多维度特征进行预处理, 得到特征矩阵, 其中, 所述特征矩阵中每个维度 特征对 应有特征标量; 对所述特征矩阵进行标准化处理和逻辑 回归处理, 以确定每个所述维度 特征的分布权 重; 基于每个所述维度特 征以及对应的分布权 重, 确定所有维度特 征的特征离散度; 结合每个所述维度特征的分布权重以及所有所述维度特征的特征离散度, 确定所述特 征信息集 合。 6.根据权利要求5所述的方法, 其特征在于, 基于所述特征离散度, 对所述特征信息集 合中各个特 征进行组合选择, 生成动态特 征表征结果的步骤, 包括: 采用单一选择 策略, 选取分布权 重最大的维度特 征作为特 征表征结果。 7.根据权利要求5所述的方法, 其特征在于, 基于所述特征离散度, 对所述特征信息集 合中各个特 征进行组合选择, 生成动态特 征表征结果的步骤, 包括: 采用混合选择策略, 将所述特征矩阵与每个所述维度特征的分布权重进行乘积运算,权 利 要 求 书 1/2 页 2 CN 115438182 A 2得到乘积运 算结果; 选取所述乘积运 算结果中数值 最大的维度特 征作为特 征表征结果。 8.根据权利要求5所述的方法, 其特征在于, 基于所述特征离散度, 对所述特征信息集 合中各个特 征进行组合选择, 生成动态特 征表征结果的步骤, 包括: 向用户终端发送所述特征信 息集合, 并在所述用户终端的终端界面展示所述特征信 息 集合; 接收所述用户终端的特 征选取结果; 将所述特 征选取结果指示的维度特 征作为所述特 征表征结果。 9.一种文本聚类装置, 其特 征在于, 包括: 提取单元, 用于接收目标文本数据, 并提取 所述目标文本数据的多维度特 征; 量化单元, 用于采用预设成分分析策略对所述多维度特征进行量化处理, 得到特征信 息集合, 其中, 所述特 征信息集 合中至少包括: 特 征离散度; 生成单元, 用于基于所述特征离散度, 对所述特征信息集合中各个特征进行组合选择, 生成动态特 征表征结果; 聚类单元, 用于基于所述动态特征表征结果, 对所述目标文本数据进行聚类, 得到文本 聚类结果。 10.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任意一项所 述的文本聚类方法。权 利 要 求 书 2/2 页 3 CN 115438182 A 3

PDF文档 专利 文本聚类方法及装置、电子设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本聚类方法及装置、电子设备 第 1 页 专利 文本聚类方法及装置、电子设备 第 2 页 专利 文本聚类方法及装置、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。