公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211038229.5 (22)申请日 2022.08.29 (71)申请人 中电鸿信 信息科技有限公司 地址 210029 江苏省南京市 鼓楼区汉中路 268号 (72)发明人 王伟 金婷 石爱辉 李逸玮 施茜 (74)专利代理 机构 南京钟山专利代理有限公司 32252 专利代理师 徐燕 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/194(2020.01) G06F 40/242(2020.01)G06F 40/279(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种热线的数据抽取及数据要素分析方法 (57)摘要 一种热线的数据抽取及数据要 素分析方法, 包括S1: 收集数据构成数据集, 对数据进行分词 并预处理后得到待提取的特征词数据; S2: 计算 每个特征词出现的词频以及频率值; S3: 根据词 频和频率值, 计算对应特征词 的权重值 , 根据 每个特征词权重值 大小进行排序, 输出前 topN 个特征词; S4: 将步骤S3处理后的特征词输入至 向量模型进行训练, 得到特征词的向量化表示; S5: 基于词移距离方法WMD对步骤S4中各特征词 之间的向量进行相似度计算; S6: 利用K ‑means聚 类算法, 计算向量对应特征词的相似特征词, 形 成所属的簇集合; S7: 通过聚类分析, 识别特征词 潜在不同类型, 生成有关事 件。 权利要求书2页 说明书4页 附图1页 CN 115357708 A 2022.11.18 CN 115357708 A 1.一种热线的数据抽取及数据要素分析 方法, 其特 征在于, 包括以下步骤: S1: 收集热线数据, 并构建成多个数据集, 通过对数据集中的数据进行分词, 经过预处 理后使得每 个数据集中都有 待提取的特 征词数据; S2: 针对待提取的特征词数据, 计算每个特征词出现的词频WFa以及频率值RDFa, 进而生 成频率值字典; S3: 根据当前热线的业务场景, 选择需要过滤的不同词性, 进而筛选去部分的待提取的 特征词数据, 然后查询频率值字典中每个特征词的词频WFa和频率值RDFa, 并计算对应特征 词的权重值V, 根据每 个特征词权重值V的大小 进行由大到小排序, 输出 前topN个特 征词; S4: 建立现有的向量模型, 并将步骤S3处理后的特征词输入至向量模型进行训练, 进而 得到特征词的向量 化表示; S5: 基于词移 距离方法WMD对步骤S4中各 特征词之间的向量进行相似度计算; S6: 利用K ‑means聚类算法, 设置k个类簇集合, 然后从步骤S4处理后所形成特征词向量 的数据集合中任意选择k个 向量数据作为聚类算法的初始质心, 利用步骤S5的方法计算这 些向量对应特 征词的相似特 征词, 形成所属的簇集 合; S7: 通过步骤S6的聚类分析, 识别特征词数据的潜在不同类型, 生成不同条件下的有关 事件。 2.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S1中所述的经过预 处理后使得每个数据集中都有待提取的特征词数据的具体内容为: 数据 集中的数据经过分词后形成多个特征词, 将每个数据集中的停用 词和干扰词进行删除, 进 而使得每个数据集都形成有 待提取的特 征词数据。 3.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S2中所述的计算每 个特征词出现的词频WFa以及频率 值RDFa的具体内容 为: 计算每个特征词的词频WFa: 式中, k表示任一特征词a在某个数据集中出现的频次, ∑Mjm为该数据集中M个特征词各 自出现的次数jm的总和; 计算每个特征词的频率 值RDFa: 式中, D表示总数据集数量, d表示包 含该特征词的数据集的数量。 4.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S3中所述的计算对应特 征词的权 重值V的具体内容 为: V=WFa*RDFa。 5.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S3中在将每个特征词权重值V的大小进行由大到小排序时, 若有几个特征词的权重值得分 相同时, 则根据特 征词的ASCI I码进行排序。 6.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S5的具体内容为: 基于词移距离方法WMD将步骤S4中所有的特征词的向量进行相加并求取权 利 要 求 书 1/2 页 2 CN 115357708 A 2平均值, 然后计算每两个 向量之间的欧式距离, 若该欧式距离小于平均值则两个 向量对应 的特征词具备相似性, 反之若 该欧式距离大于平均值则两个向量对应的特征词不具备相似 性。权 利 要 求 书 2/2 页 3 CN 115357708 A 3
专利 一种热线的数据抽取及数据要素分析方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:00
上传分享
举报
下载
原文档
(340.7 KB)
分享
友情链接
GB-T 8766-2013 单水氢氧化锂.pdf
GB-T 37961-2019 信息技术服务 服务基本要求.pdf
GB-T 34079.4-2021 基于云计算的电子政务公共平台服务规范 第4部分:应用服务.pdf
GB-T 42066-2022 急性病毒性感染呼吸道样本采集.pdf
GB-T 34352-2017 有机热载体锅炉及系统清洗导则.pdf
GB-T 38548.5-2020 内容资源数字化加工 第5部分:质量控制.pdf
GB-T 37027-2018 信息安全技术 网络攻击定义及描述规范.pdf
GB-T 21063.1-2007 政务信息资源目录体系 第1部分 总体框架.pdf
GB-T 2350-2020 流体传动系统及元件 活塞杆螺纹型式和尺寸系列.pdf
T-CCMSA 50213—2020 高性能平板型太阳能集热器.pdf
GB-T 25173-2010 水域纳污能力计算规程.pdf
GB-T 43038-2023 通信网络可信性工程.pdf
DB63-T 1802-2020 盐湖卤水矿防渗HDPE土工膜施工及验收技术规范 青海省.pdf
T-ZZB 0398—2018 环保节能舒适电热油汀.pdf
GB-T 2479-2022 普通磨料 白刚玉.pdf
SL 285-2020 水利水电工程进水口设计规范.pdf
JR-T0073-2012 金融行业信息安全等级保护测评服务安全指引.pdf
T-SLEA 1011.1—2023 实验室设计与建设技术规范 第1部分:通用技术要求.pdf
GB-T 24513.2-2010 金属和合金的腐蚀 室内大气低腐蚀性分类 第2部分:室内大气腐蚀性的测定.pdf
GB-T 6680-2003 液体化工产品采样通则.pdf
交流群
-->
1
/
8
评价文档
赞助2元 点击下载(340.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。