专利 一种热线的数据抽取及数据要素分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211038229.5 (22)申请日 2022.08.29 (71)申请人中电鸿信信息科技有限公司地址 210029 江苏省南京市鼓楼区汉中路 268号 (72)发明人王伟　金婷　石爱辉　李逸玮　施茜　 (74)专利代理机构南京钟山专利代理有限公司 32252 专利代理师徐燕 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/194(2020.01) G06F 40/242(2020.01)G06F 40/279(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种热线的数据抽取及数据要素分析方法 (57)摘要一种热线的数据抽取及数据要素分析方法，包括S1：收集数据构成数据集，对数据进行分词并预处理后得到待提取的特征词数据； S2：计算每个特征词出现的词频以及频率值； S3：根据词频和频率值，计算对应特征词的权重值，根据每个特征词权重值大小进行排序，输出前 topN 个特征词； S4：将步骤S3处理后的特征词输入至向量模型进行训练，得到特征词的向量化表示； S5：基于词移距离方法WMD对步骤S4中各特征词之间的向量进行相似度计算； S6：利用K ‑means聚类算法，计算向量对应特征词的相似特征词，形成所属的簇集合； S7：通过聚类分析，识别特征词潜在不同类型，生成有关事件。权利要求书2页说明书4页附图1页 CN 115357708 A 2022.11.18 CN 115357708 A 1.一种热线的数据抽取及数据要素分析方法，其特征在于，包括以下步骤： S1：收集热线数据，并构建成多个数据集，通过对数据集中的数据进行分词，经过预处理后使得每个数据集中都有待提取的特征词数据； S2：针对待提取的特征词数据，计算每个特征词出现的词频WFa以及频率值RDFa，进而生成频率值字典； S3：根据当前热线的业务场景，选择需要过滤的不同词性，进而筛选去部分的待提取的特征词数据，然后查询频率值字典中每个特征词的词频WFa和频率值RDFa，并计算对应特征词的权重值V，根据每个特征词权重值V的大小进行由大到小排序，输出前topN个特征词； S4：建立现有的向量模型，并将步骤S3处理后的特征词输入至向量模型进行训练，进而得到特征词的向量化表示； S5：基于词移距离方法WMD对步骤S4中各特征词之间的向量进行相似度计算； S6：利用K ‑means聚类算法，设置k个类簇集合，然后从步骤S4处理后所形成特征词向量的数据集合中任意选择k个向量数据作为聚类算法的初始质心，利用步骤S5的方法计算这些向量对应特征词的相似特征词，形成所属的簇集合； S7：通过步骤S6的聚类分析，识别特征词数据的潜在不同类型，生成不同条件下的有关事件。 2.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法，其特征在于，步骤 S1中所述的经过预处理后使得每个数据集中都有待提取的特征词数据的具体内容为：数据集中的数据经过分词后形成多个特征词，将每个数据集中的停用词和干扰词进行删除，进而使得每个数据集都形成有待提取的特征词数据。 3.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法，其特征在于，步骤 S2中所述的计算每个特征词出现的词频WFa以及频率值RDFa的具体内容为：计算每个特征词的词频WFa：式中， k表示任一特征词a在某个数据集中出现的频次， ∑Mjm为该数据集中M个特征词各自出现的次数jm的总和；计算每个特征词的频率值RDFa：式中， D表示总数据集数量， d表示包含该特征词的数据集的数量。 4.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法，其特征在于，步骤 S3中所述的计算对应特征词的权重值V的具体内容为： V＝WFa*RDFa。 5.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法，其特征在于，步骤 S3中在将每个特征词权重值V的大小进行由大到小排序时，若有几个特征词的权重值得分相同时，则根据特征词的ASCI I码进行排序。 6.根据权利要求1所述的一种热线的数据抽取及数据要素分析方法，其特征在于，步骤 S5的具体内容为：基于词移距离方法WMD将步骤S4中所有的特征词的向量进行相加并求取权　利　要　求　书 1/2 页 2 CN 115357708 A 2平均值，然后计算每两个向量之间的欧式距离，若该欧式距离小于平均值则两个向量对应的特征词具备相似性，反之若该欧式距离大于平均值则两个向量对应的特征词不具备相似性。权　利　要　求　书 2/2 页 3 CN 115357708 A 3

专利 一种热线的数据抽取及数据要素分析方法

专利一种热线的数据抽取及数据要素分析方法