公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210906649.4 (22)申请日 2022.07.29 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 宫继兵 郑嘉壮 房小涵 寇肖萌 赵祎 丛方鹏 (74)专利代理 机构 石家庄众志华清知识产权事 务所(特殊普通 合伙) 13123 专利代理师 田秀芬 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 16/383(2019.01) G06F 40/30(2020.01)G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 20/20(2019.01) G06N 5/00(2006.01) G06N 3/04(2006.01) (54)发明名称 基于预训练模型与决策树的增量式论文同 名作者消歧方法 (57)摘要 本发明公开了基于预训练模型与决策树的 增量式论文同名作者消歧方法, 属于神经网络与 作者同名消歧技术领域, 所述方法利用人工定义 特征与XLNet提取特征相结合的特征提取, 首先 使用人工定义特征提取论文中作者名称、 机构等 字段的信息, 使用XLNet提取论文标题、 摘要 等字 段的信息, 之后利用XGBoost与提取出的特征来 预测每篇论文应该归属的正确作者, 对于该步未 能分配出的论文进行凝聚式聚类的后处理, 获取 主聚类作为新的作者论文集, 预测结果使用准确 率、 召回率以及F1值。 本发明能够对论文的信息 进行更加充分地提取, 具有较强的可解释性, 具 有较强的鲁棒性, 在处理噪点较多以及论文信息 较为齐全的数据上有较优秀的表现。 权利要求书3页 说明书20页 附图5页 CN 115329072 A 2022.11.11 CN 115329072 A 1.一种基于预训练模型与决策树的增量式论文同名作者消 歧方法, 其特征在于: 包括 以下步骤: S1, 构建数据集, 对作者名称、 候选集 ID、 论文ID、 论文信息进行 数据预处 理; S2, 使用人工定义规则的方式提取不含语义信息字段的第一特征, 使用XLNet预训练模 型提取含有语义信息字段的第二特征, 将第一特征和 第二特征合并到一起得到所需特征向 量; S3, 将S2中得到的特征向量输入到XGBoost中获取待分配论文属于该候选集的概率, 并 据此判断是否将待分配论文分配给 该候选集; S4、 构建基于凝聚式层次聚类的增量消岐后处理框架, 对增量S3中未能分配出去 的论 文进行后处 理操作。 2.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方 法, 其特征在于: 所述第一特征至少包括作者名称、 机构, 所述第二特征至少包括论文 标题、 摘要。 3.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方 法, 其特征在于: S2具体包括: 2.1, 比较待分配论文与候选集中所有论文之间的作者信息, 各值表示如下: counta: 同名作者的数量, 每次出现同名作者时都会令该值+1, 当一个作者名重复出现 时同样会 对该值进行+1操作; countoa: 同名且同组织作者的数量, 每次出现同名且同组织作者时都会令该值+1, 当一 个同名且同组织作者重复出现时同样会 对该值进行+1操作; ra: 同名作者数量与候选集中论文数量的比值, 即 roa: 同名且同组织作者与候选集中论文数量的比值, 即 countca: 共同作者的数量, 每次出现共同作者时都会令该值+1, 当一个作者重复出现 时, 不再对该值进行操作; rca: 共同作者的数量与待分配论文中作者数量 的比值, 即 tca: 共同作者在这个候选集ck中一共出现的次数; 共同作者出现次数与该候选集ck中作者总数ta的比值, 即 在完成比较后将这些值排列在一起组成一个向量一, 所述向量一为提取出的作者名称 相关特征; 2.2, 比较待分配论文与候选集中所有论文之间的作者机构信息, 各值表示如下: countorg: 待分配论文pa与候选集ck中所有相同机构的数量; rorg: 相同机构数量与所有机构数量countaorg之间的比值, 即 Jaccardmax: 分词合并处理后, 待分配论文pa与候选集ck中所有论文之间的Jaccard相似权 利 要 求 书 1/3 页 2 CN 115329072 A 2系数的最大值, 即 Jaccardmean: 分词合并处理后, 待分配论文pa与候选集ck中所有论文之间的Jaccar d相 似系数的均值, 即 Jaccardpooling: 分词合并处理后, 经过高斯核函数处理后的Jacc ard相似系数, 为一个n 维向量, 其中n表示输入的中心点数量; r′max: 分词合并处理后, 待 分配论文pa与候选集ck中所有论文 之间相同机构数与所有机 构数比值的最大值, 即 r′mean: 分词合并处理后, 待分配论文pa与候选集ck中所有论文之间相同机构数与所有 机构数比值的平均值 r′pooling: 分词合并处理后, 经过高斯核 函数处理后的相同机构数与所有机构数的比值, 为一个n维向量, 其中n表示输入的中心点数量; 在完成比较后将这些值排列在一起组成一个向量二, 所述向量二为提取出的作者机构 相关特征; 2.3, 比较待分配论文与候选集中所有论文之间的标题信息, 各值表示如下: counttitle: 分词合并过程后, 相同词在待分配论pa文中出现的次数; count′title: 分词合并过程后, 相同词在候选集ck的所有论文中出现的次数; rtitle′: 分词合并过程后, 相同词在待分配论文pa中出现的次数与待分配论文pa中所有 词总数 的比值, 即 r′title′: 分词合并过程后, 相同词在候选集ck的所有论文中出现的次数与候选集ck中所 有词总数 的比值, 即 jaccardpooling: 分词合并过程后, 经过高斯核函数处理后的Jacc ard相似系数, 为一个n 维向量, 其中n表示输入的中心点数量; cospooling: 使用XLNet提取论文的标题特征, 之后计算待分配论文pa的标题与候选集ck 中每一篇论文标题的余弦相似度, 之后通过高斯核函数处 理得到cospooling; 在完成比较后将这些值排列在一起组成一个向量三, 所述向量三为提取出的论文标题 的非语义特 征; 2.4, 对含有语义信息的论文字段使用XL Net预训练模型提取语义特 征; 2.5, 将2.1、 2.2、 2.3得到的向量一、 向量二、 同量三及2.4提取的语义特征组合到一起 得到最终的特 征向量。 4.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方 法, 其特征在于: S3具体包括: 3.1, 将步骤2得到的特征输入到XGBoost决策树中, 确定待分配论文是分配给相应作者权 利 要 求 书 2/3 页 3 CN 115329072 A 3
专利 基于预训练模型与决策树的增量式论文同名作者消歧方法
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:24
上传分享
举报
下载
原文档
(2.0 MB)
分享
友情链接
GB-T 4553-2016 工业硝酸钠.pdf
T-SHPPA 022—2023 医药企业ESG信息披露指南.pdf
专利 运维管理平台系统、系统运维管理方法.PDF
腾讯 2022产业互联网安全十大趋势.pdf
GB-T 35319-2017 物联网 系统接口要求.pdf
电信和互联网用户个人信息保护规定.pdf
GB-T 41780.1-2022 物联网 边缘计算 第1部分:通用要求.pdf
GA-T 1794-2021 公安视频会议室技术规范.pdf
GB-T 7894-2023 水轮发电机基本技术要求.pdf
GB-T 31014-2014 声学 水声目标强度测量实验室方法.pdf
GB-T 20909-2017 钢门窗.pdf
GB-T 13575.1-2022 普通和窄V带传动 第1部分:基准宽度制.pdf
SN-T 4764-2017 煤中碳、氢、氮、硫含量的测定 元素分析仪法.pdf
GB-T 26250-2010 电子工业用气体 砷化氢.pdf
Gartner 网络安全IT路线图 .pdf
GB-T 26093-2010 齿轮双面啮合综合测量仪.pdf
GM-T 0066-2019 商用密码产品生产和保障能力建设实施指南.pdf
GB-T 41910-2022 洗涤粪菌质量控制和粪菌样本分级.pdf
GB-T 31538-2015 混凝土接缝防水用预埋注浆管.pdf
GM-T 0080-2020 SM9密码算法使用规范.pdf
交流群
-->
1
/
29
评价文档
赞助2元 点击下载(2.0 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。