公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210906649.4 (22)申请日 2022.07.29 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 宫继兵 郑嘉壮 房小涵 寇肖萌  赵祎 丛方鹏  (74)专利代理 机构 石家庄众志华清知识产权事 务所(特殊普通 合伙) 13123 专利代理师 田秀芬 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 16/383(2019.01) G06F 40/30(2020.01)G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 20/20(2019.01) G06N 5/00(2006.01) G06N 3/04(2006.01) (54)发明名称 基于预训练模型与决策树的增量式论文同 名作者消歧方法 (57)摘要 本发明公开了基于预训练模型与决策树的 增量式论文同名作者消歧方法, 属于神经网络与 作者同名消歧技术领域, 所述方法利用人工定义 特征与XLNet提取特征相结合的特征提取, 首先 使用人工定义特征提取论文中作者名称、 机构等 字段的信息, 使用XLNet提取论文标题、 摘要 等字 段的信息, 之后利用XGBoost与提取出的特征来 预测每篇论文应该归属的正确作者, 对于该步未 能分配出的论文进行凝聚式聚类的后处理, 获取 主聚类作为新的作者论文集, 预测结果使用准确 率、 召回率以及F1值。 本发明能够对论文的信息 进行更加充分地提取, 具有较强的可解释性, 具 有较强的鲁棒性, 在处理噪点较多以及论文信息 较为齐全的数据上有较优秀的表现。 权利要求书3页 说明书20页 附图5页 CN 115329072 A 2022.11.11 CN 115329072 A 1.一种基于预训练模型与决策树的增量式论文同名作者消 歧方法, 其特征在于: 包括 以下步骤: S1, 构建数据集, 对作者名称、 候选集 ID、 论文ID、 论文信息进行 数据预处 理; S2, 使用人工定义规则的方式提取不含语义信息字段的第一特征, 使用XLNet预训练模 型提取含有语义信息字段的第二特征, 将第一特征和 第二特征合并到一起得到所需特征向 量; S3, 将S2中得到的特征向量输入到XGBoost中获取待分配论文属于该候选集的概率, 并 据此判断是否将待分配论文分配给 该候选集; S4、 构建基于凝聚式层次聚类的增量消岐后处理框架, 对增量S3中未能分配出去 的论 文进行后处 理操作。 2.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方 法, 其特征在于: 所述第一特征至少包括作者名称、 机构, 所述第二特征至少包括论文 标题、 摘要。 3.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方 法, 其特征在于: S2具体包括: 2.1, 比较待分配论文与候选集中所有论文之间的作者信息, 各值表示如下: counta: 同名作者的数量, 每次出现同名作者时都会令该值+1, 当一个作者名重复出现 时同样会 对该值进行+1操作; countoa: 同名且同组织作者的数量, 每次出现同名且同组织作者时都会令该值+1, 当一 个同名且同组织作者重复出现时同样会 对该值进行+1操作; ra: 同名作者数量与候选集中论文数量的比值, 即 roa: 同名且同组织作者与候选集中论文数量的比值, 即 countca: 共同作者的数量, 每次出现共同作者时都会令该值+1, 当一个作者重复出现 时, 不再对该值进行操作; rca: 共同作者的数量与待分配论文中作者数量 的比值, 即 tca: 共同作者在这个候选集ck中一共出现的次数; 共同作者出现次数与该候选集ck中作者总数ta的比值, 即 在完成比较后将这些值排列在一起组成一个向量一, 所述向量一为提取出的作者名称 相关特征; 2.2, 比较待分配论文与候选集中所有论文之间的作者机构信息, 各值表示如下: countorg: 待分配论文pa与候选集ck中所有相同机构的数量; rorg: 相同机构数量与所有机构数量countaorg之间的比值, 即 Jaccardmax: 分词合并处理后, 待分配论文pa与候选集ck中所有论文之间的Jaccard相似权 利 要 求 书 1/3 页 2 CN 115329072 A 2系数的最大值, 即 Jaccardmean: 分词合并处理后, 待分配论文pa与候选集ck中所有论文之间的Jaccar d相 似系数的均值, 即 Jaccardpooling: 分词合并处理后, 经过高斯核函数处理后的Jacc ard相似系数, 为一个n 维向量, 其中n表示输入的中心点数量; r′max: 分词合并处理后, 待 分配论文pa与候选集ck中所有论文 之间相同机构数与所有机 构数比值的最大值, 即 r′mean: 分词合并处理后, 待分配论文pa与候选集ck中所有论文之间相同机构数与所有 机构数比值的平均值 r′pooling: 分词合并处理后, 经过高斯核 函数处理后的相同机构数与所有机构数的比值, 为一个n维向量, 其中n表示输入的中心点数量; 在完成比较后将这些值排列在一起组成一个向量二, 所述向量二为提取出的作者机构 相关特征; 2.3, 比较待分配论文与候选集中所有论文之间的标题信息, 各值表示如下: counttitle: 分词合并过程后, 相同词在待分配论pa文中出现的次数; count′title: 分词合并过程后, 相同词在候选集ck的所有论文中出现的次数; rtitle′: 分词合并过程后, 相同词在待分配论文pa中出现的次数与待分配论文pa中所有 词总数 的比值, 即 r′title′: 分词合并过程后, 相同词在候选集ck的所有论文中出现的次数与候选集ck中所 有词总数 的比值, 即 jaccardpooling: 分词合并过程后, 经过高斯核函数处理后的Jacc ard相似系数, 为一个n 维向量, 其中n表示输入的中心点数量; cospooling: 使用XLNet提取论文的标题特征, 之后计算待分配论文pa的标题与候选集ck 中每一篇论文标题的余弦相似度, 之后通过高斯核函数处 理得到cospooling; 在完成比较后将这些值排列在一起组成一个向量三, 所述向量三为提取出的论文标题 的非语义特 征; 2.4, 对含有语义信息的论文字段使用XL Net预训练模型提取语义特 征; 2.5, 将2.1、 2.2、 2.3得到的向量一、 向量二、 同量三及2.4提取的语义特征组合到一起 得到最终的特 征向量。 4.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方 法, 其特征在于: S3具体包括: 3.1, 将步骤2得到的特征输入到XGBoost决策树中, 确定待分配论文是分配给相应作者权 利 要 求 书 2/3 页 3 CN 115329072 A 3

PDF文档 专利 基于预训练模型与决策树的增量式论文同名作者消歧方法

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于预训练模型与决策树的增量式论文同名作者消歧方法 第 1 页 专利 基于预训练模型与决策树的增量式论文同名作者消歧方法 第 2 页 专利 基于预训练模型与决策树的增量式论文同名作者消歧方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。