公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211038229.5 (22)申请日 2022.08.29 (71)申请人 中电鸿信 信息科技有限公司 地址 210029 江苏省南京市 鼓楼区汉中路 268号 (72)发明人 王伟 金婷 石爱辉 李逸玮  施茜  (74)专利代理 机构 南京钟山专利代理有限公司 32252 专利代理师 徐燕 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/194(2020.01) G06F 40/242(2020.01)G06F 40/279(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种热线的数据抽取及数据要素分析方法 (57)摘要 一种热线的数据抽取及数据要 素分析方法, 包括S1: 收集数据构成数据集, 对数据进行分词 并预处理后得到待提取的特征词数据; S2: 计算 每个特征词出现的词频以及频率值; S3: 根据词 频和频率值, 计算对应特征词 的权重值 , 根据 每个特征词权重值 大小进行排序, 输出前 topN 个特征词; S4: 将步骤S3处理后的特征词输入至 向量模型进行训练, 得到特征词的向量化表示; S5: 基于词移距离方法WMD对步骤S4中各特征词 之间的向量进行相似度计算; S6: 利用K ‑means聚 类算法, 计算向量对应特征词的相似特征词, 形 成所属的簇集合; S7: 通过聚类分析, 识别特征词 潜在不同类型, 生成有关事 件。 权利要求书2页 说明书4页 附图1页 CN 115357708 A 2022.11.18 CN 115357708 A 1.一种热线的数据抽取及数据要素分析 方法, 其特 征在于, 包括以下步骤: S1: 收集热线数据, 并构建成多个数据集, 通过对数据集中的数据进行分词, 经过预处 理后使得每 个数据集中都有 待提取的特 征词数据; S2: 针对待提取的特征词数据, 计算每个特征词出现的词频WFa以及频率值RDFa, 进而生 成频率值字典; S3: 根据当前热线的业务场景, 选择需要过滤的不同词性, 进而筛选去部分的待提取的 特征词数据, 然后查询频率值字典中每个特征词的词频WFa和频率值RDFa, 并计算对应特征 词的权重值V, 根据每 个特征词权重值V的大小 进行由大到小排序, 输出 前topN个特 征词; S4: 建立现有的向量模型, 并将步骤S3处理后的特征词输入至向量模型进行训练, 进而 得到特征词的向量 化表示; S5: 基于词移 距离方法WMD对步骤S4中各 特征词之间的向量进行相似度计算; S6: 利用K ‑means聚类算法, 设置k个类簇集合, 然后从步骤S4处理后所形成特征词向量 的数据集合中任意选择k个 向量数据作为聚类算法的初始质心, 利用步骤S5的方法计算这 些向量对应特 征词的相似特 征词, 形成所属的簇集 合; S7: 通过步骤S6的聚类分析, 识别特征词数据的潜在不同类型, 生成不同条件下的有关 事件。 2.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S1中所述的经过预 处理后使得每个数据集中都有待提取的特征词数据的具体内容为: 数据 集中的数据经过分词后形成多个特征词, 将每个数据集中的停用 词和干扰词进行删除, 进 而使得每个数据集都形成有 待提取的特 征词数据。 3.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S2中所述的计算每 个特征词出现的词频WFa以及频率 值RDFa的具体内容 为: 计算每个特征词的词频WFa: 式中, k表示任一特征词a在某个数据集中出现的频次, ∑Mjm为该数据集中M个特征词各 自出现的次数jm的总和; 计算每个特征词的频率 值RDFa: 式中, D表示总数据集数量, d表示包 含该特征词的数据集的数量。 4.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S3中所述的计算对应特 征词的权 重值V的具体内容 为: V=WFa*RDFa。 5.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S3中在将每个特征词权重值V的大小进行由大到小排序时, 若有几个特征词的权重值得分 相同时, 则根据特 征词的ASCI I码进行排序。 6.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法, 其特征在于, 步骤 S5的具体内容为: 基于词移距离方法WMD将步骤S4中所有的特征词的向量进行相加并求取权 利 要 求 书 1/2 页 2 CN 115357708 A 2平均值, 然后计算每两个 向量之间的欧式距离, 若该欧式距离小于平均值则两个 向量对应 的特征词具备相似性, 反之若 该欧式距离大于平均值则两个向量对应的特征词不具备相似 性。权 利 要 求 书 2/2 页 3 CN 115357708 A 3

PDF文档 专利 一种热线的数据抽取及数据要素分析方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种热线的数据抽取及数据要素分析方法 第 1 页 专利 一种热线的数据抽取及数据要素分析方法 第 2 页 专利 一种热线的数据抽取及数据要素分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。