专利 基于预训练模型与决策树的增量式论文同名作者消歧方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210906649.4 (22)申请日 2022.07.29 (71)申请人燕山大学地址 066004 河北省秦皇岛市海港区河北大街438号 (72)发明人宫继兵　郑嘉壮　房小涵　寇肖萌　赵祎　丛方鹏　 (74)专利代理机构石家庄众志华清知识产权事务所(特殊普通合伙) 13123 专利代理师田秀芬 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 16/383(2019.01) G06F 40/30(2020.01)G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 20/20(2019.01) G06N 5/00(2006.01) G06N 3/04(2006.01) (54)发明名称基于预训练模型与决策树的增量式论文同名作者消歧方法 (57)摘要本发明公开了基于预训练模型与决策树的增量式论文同名作者消歧方法，属于神经网络与作者同名消歧技术领域，所述方法利用人工定义特征与XLNet提取特征相结合的特征提取，首先使用人工定义特征提取论文中作者名称、机构等字段的信息，使用XLNet提取论文标题、摘要等字段的信息，之后利用XGBoost与提取出的特征来预测每篇论文应该归属的正确作者，对于该步未能分配出的论文进行凝聚式聚类的后处理，获取主聚类作为新的作者论文集，预测结果使用准确率、召回率以及F1值。本发明能够对论文的信息进行更加充分地提取，具有较强的可解释性，具有较强的鲁棒性，在处理噪点较多以及论文信息较为齐全的数据上有较优秀的表现。权利要求书3页说明书20页附图5页 CN 115329072 A 2022.11.11 CN 115329072 A 1.一种基于预训练模型与决策树的增量式论文同名作者消歧方法，其特征在于：包括以下步骤： S1，构建数据集，对作者名称、候选集 ID、论文ID、论文信息进行数据预处理； S2，使用人工定义规则的方式提取不含语义信息字段的第一特征，使用XLNet预训练模型提取含有语义信息字段的第二特征，将第一特征和第二特征合并到一起得到所需特征向量； S3，将S2中得到的特征向量输入到XGBoost中获取待分配论文属于该候选集的概率，并据此判断是否将待分配论文分配给该候选集； S4、构建基于凝聚式层次聚类的增量消岐后处理框架，对增量S3中未能分配出去的论文进行后处理操作。 2.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方法，其特征在于：所述第一特征至少包括作者名称、机构，所述第二特征至少包括论文标题、摘要。 3.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方法，其特征在于： S2具体包括： 2.1，比较待分配论文与候选集中所有论文之间的作者信息，各值表示如下： counta：同名作者的数量，每次出现同名作者时都会令该值+1，当一个作者名重复出现时同样会对该值进行+1操作； countoa：同名且同组织作者的数量，每次出现同名且同组织作者时都会令该值+1，当一个同名且同组织作者重复出现时同样会对该值进行+1操作； ra：同名作者数量与候选集中论文数量的比值，即 roa：同名且同组织作者与候选集中论文数量的比值，即 countca：共同作者的数量，每次出现共同作者时都会令该值+1，当一个作者重复出现时，不再对该值进行操作； rca：共同作者的数量与待分配论文中作者数量的比值，即 tca：共同作者在这个候选集ck中一共出现的次数；共同作者出现次数与该候选集ck中作者总数ta的比值，即在完成比较后将这些值排列在一起组成一个向量一，所述向量一为提取出的作者名称相关特征； 2.2，比较待分配论文与候选集中所有论文之间的作者机构信息，各值表示如下： countorg：待分配论文pa与候选集ck中所有相同机构的数量； rorg：相同机构数量与所有机构数量countaorg之间的比值，即 Jaccardmax：分词合并处理后，待分配论文pa与候选集ck中所有论文之间的Jaccard相似权　利　要　求　书 1/3 页 2 CN 115329072 A 2系数的最大值，即 Jaccardmean：分词合并处理后，待分配论文pa与候选集ck中所有论文之间的Jaccar d相似系数的均值，即 Jaccardpooling：分词合并处理后，经过高斯核函数处理后的Jacc ard相似系数，为一个n 维向量，其中n表示输入的中心点数量； r′max：分词合并处理后，待分配论文pa与候选集ck中所有论文之间相同机构数与所有机构数比值的最大值，即 r′mean：分词合并处理后，待分配论文pa与候选集ck中所有论文之间相同机构数与所有机构数比值的平均值 r′pooling：分词合并处理后，经过高斯核函数处理后的相同机构数与所有机构数的比值，为一个n维向量，其中n表示输入的中心点数量；在完成比较后将这些值排列在一起组成一个向量二，所述向量二为提取出的作者机构相关特征； 2.3，比较待分配论文与候选集中所有论文之间的标题信息，各值表示如下： counttitle：分词合并过程后，相同词在待分配论pa文中出现的次数； count′title：分词合并过程后，相同词在候选集ck的所有论文中出现的次数； rtitle′：分词合并过程后，相同词在待分配论文pa中出现的次数与待分配论文pa中所有词总数的比值，即 r′title′：分词合并过程后，相同词在候选集ck的所有论文中出现的次数与候选集ck中所有词总数的比值，即 jaccardpooling：分词合并过程后，经过高斯核函数处理后的Jacc ard相似系数，为一个n 维向量，其中n表示输入的中心点数量； cospooling：使用XLNet提取论文的标题特征，之后计算待分配论文pa的标题与候选集ck 中每一篇论文标题的余弦相似度，之后通过高斯核函数处理得到cospooling；在完成比较后将这些值排列在一起组成一个向量三，所述向量三为提取出的论文标题的非语义特征； 2.4，对含有语义信息的论文字段使用XL Net预训练模型提取语义特征； 2.5，将2.1、 2.2、 2.3得到的向量一、向量二、同量三及2.4提取的语义特征组合到一起得到最终的特征向量。 4.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方法，其特征在于： S3具体包括： 3.1，将步骤2得到的特征输入到XGBoost决策树中，确定待分配论文是分配给相应作者权　利　要　求　书 2/3 页 3 CN 115329072 A 3

专利 基于预训练模型与决策树的增量式论文同名作者消歧方法

专利基于预训练模型与决策树的增量式论文同名作者消歧方法