公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211058328.X (22)申请日 2022.08.30 (71)申请人 山石网科通信技 术股份有限公司 地址 215163 江苏省苏州市高新区景润路 181号 (72)发明人 姜珂 孙彦芬 弓源 万朝华 (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 周春枚 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/205(2020.01) G06F 40/30(2020.01) (54)发明名称 文本聚类方法及装置、 电子设备 (57)摘要 本发明公开了一种文本聚类方法及装置、 电 子设备。 其中, 该方法包括: 接收目标文本数据, 并提取目标文本数据的多维度特征; 采用预设成 分分析策略对多维度特征进行量化处理, 得到特 征信息集合, 其中, 特征信息集合中至少包括: 特 征离散度; 基于特征离散度, 对特征信息集合中 各个特征进行组合选择, 生成动态特征表征结 果; 基于动态特征表征结果, 对目标文本数据进 行聚类, 得到文本聚类结果。 本发明解决了现有 技术中, 对于不同领域的文本聚类, 无法有效确 定数据倾向性从而导致表征结果不准确的技术 问题。 权利要求书2页 说明书11页 附图3页 CN 115438182 A 2022.12.06 CN 115438182 A 1.一种文本聚类方法, 其特 征在于, 包括: 接收目标文本数据, 并提取 所述目标文本数据的多维度特 征; 采用预设成分分析策略对所述多维度 特征进行量化处理, 得到特征信 息集合, 其中, 所 述特征信息集 合中至少包括: 特 征离散度; 基于所述特征离散度, 对所述特征信息集合中各个特征进行组合选择, 生成动态特征 表征结果; 基于所述动态特 征表征结果, 对所述目标文本数据进行聚类, 得到文本聚类结果。 2.根据权利要求1所述的方法, 其特征在于, 提取所述目标文本数据的多维度 特征的步 骤, 包括: 采用预设文本词频模型提取 所述目标文本数据中的词频分布, 得到词频提取 结果; 将所述词频提取结果输入至预设文本主题生成模型, 以确定所述目标文本数据的文本 主题; 将所述文本主题 表征为所述目标文本数据的文本主题维度特 征。 3.根据权利要求1所述的方法, 其特征在于, 提取所述目标文本数据的多维度 特征的步 骤, 包括: 提取所述目标文本数据中的多种 文本结构, 得到结构提取结果, 其中, 所述文本结构包 括下述至少之一: 文本句子 长度、 句子结构成分、 段落 篇幅; 基于所述结构提取 结果, 确定所述目标文本数据的文本结构维度特 征。 4.根据权利要求1所述的方法, 其特征在于, 提取所述目标文本数据的多维度 特征的步 骤, 包括: 采用词向量模型提取 所述目标文本数据中的词向量和文本上 下文信息; 将所述词向量和所述文本上下文信 息输入至预设语言表征模型中, 以确定所述目标文 本数据的文本语义; 将所述文本语义表征为所述目标文本数据的文本语义维度特 征。 5.根据权利要求1所述的方法, 其特征在于, 采用预设成分分析策略对所述多维度 特征 进行量化处理, 得到特 征信息集 合的步骤, 包括: 将所述多维度特征进行预处理, 得到特征矩阵, 其中, 所述特征矩阵中每个维度 特征对 应有特征标量; 对所述特征矩阵进行标准化处理和逻辑 回归处理, 以确定每个所述维度 特征的分布权 重; 基于每个所述维度特 征以及对应的分布权 重, 确定所有维度特 征的特征离散度; 结合每个所述维度特征的分布权重以及所有所述维度特征的特征离散度, 确定所述特 征信息集 合。 6.根据权利要求5所述的方法, 其特征在于, 基于所述特征离散度, 对所述特征信息集 合中各个特 征进行组合选择, 生成动态特 征表征结果的步骤, 包括: 采用单一选择 策略, 选取分布权 重最大的维度特 征作为特 征表征结果。 7.根据权利要求5所述的方法, 其特征在于, 基于所述特征离散度, 对所述特征信息集 合中各个特 征进行组合选择, 生成动态特 征表征结果的步骤, 包括: 采用混合选择策略, 将所述特征矩阵与每个所述维度特征的分布权重进行乘积运算,权 利 要 求 书 1/2 页 2 CN 115438182 A 2得到乘积运 算结果; 选取所述乘积运 算结果中数值 最大的维度特 征作为特 征表征结果。 8.根据权利要求5所述的方法, 其特征在于, 基于所述特征离散度, 对所述特征信息集 合中各个特 征进行组合选择, 生成动态特 征表征结果的步骤, 包括: 向用户终端发送所述特征信 息集合, 并在所述用户终端的终端界面展示所述特征信 息 集合; 接收所述用户终端的特 征选取结果; 将所述特 征选取结果指示的维度特 征作为所述特 征表征结果。 9.一种文本聚类装置, 其特 征在于, 包括: 提取单元, 用于接收目标文本数据, 并提取 所述目标文本数据的多维度特 征; 量化单元, 用于采用预设成分分析策略对所述多维度特征进行量化处理, 得到特征信 息集合, 其中, 所述特 征信息集 合中至少包括: 特 征离散度; 生成单元, 用于基于所述特征离散度, 对所述特征信息集合中各个特征进行组合选择, 生成动态特 征表征结果; 聚类单元, 用于基于所述动态特征表征结果, 对所述目标文本数据进行聚类, 得到文本 聚类结果。 10.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任意一项所 述的文本聚类方法。权 利 要 求 书 2/2 页 3 CN 115438182 A 3
专利 文本聚类方法及装置、电子设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:00
上传分享
举报
下载
原文档
(645.7 KB)
分享
友情链接
DB15-T 1198-2017 危险化学品行业反恐怖防范要求 内蒙古自治区.pdf
GB-T 18442.7-2017 固定式真空绝热深冷压力容器 第7部分:内容器应变强化技术规定.pdf
SN-T 2846-2011 鹦鹉热检疫技术规范.pdf
DB31-T 684-2023 养老机构照护服务分级要求 上海市.pdf
GB-T 43558-2023 全国一体化政务服务平台移动端规范.pdf
GB-T 15843.4-2008 信息技术 安全技术 实体鉴别 第4部分 采用密码校验函数的机制.pdf
GB-T 16552-2017 珠宝玉石 名称.pdf
GB-T 6406-2016 超硬磨料 粒度检验.pdf
GM-T 0054-2018 信息系统密码应用基本要求.pdf
GB-T 17626.12-2023 电磁兼容 试验和测量技术 第12部分:振铃波抗扰度试验.pdf
GB-T 17903.1-2024 信息技术 安全技术 抗抵赖 第1部分:概述.pdf
SAE_2012-01-1037_Integrating In-Wheel Motors into Vehicles - Real-World Experiences.pdf
T-CHES 54—2021 取水权交易可行性报告编制导则.pdf
信通院 政务数据共享开放安全研究报告.pdf
GB-T 42720-2023 电子特气 六氯乙硅烷.pdf
GB-T 38670-2020 智能制造 射频识别系统 标签数据格式.pdf
GB-T 30976.2-2014 工业控制系统信息安全 第2部分:验收规范.pdf
NY-T 3992-2021 苯噻酰草胺原药.pdf
GB-T 21062.1-2007 政务信息资源交换体系 第1部分:总体框架.pdf
GB-T 33282-2016 室内用石材家具通用技术条件.pdf
交流群
-->
1
/
17
评价文档
赞助2元 点击下载(645.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。