公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211005380.9 (22)申请日 2022.08.22 (71)申请人 白杨时代 (北京) 科技有限公司 地址 100094 北京市海淀区北清路81号院 二区3号楼10层10 02-3室 (72)发明人 黄安付 彭鹏 曹一丁 杨雷  (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 专利代理师 赵晓荣 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 一种构建知识图谱的方法及装置 (57)摘要 本申请公开了一种构建知识图谱的方法及 装置, 包括: 获取目标领域的结构化数据集、 半结 构化数据集和非结构化数据集; 利用结构化数据 集、 远程监督数据集以及样本选择器对命名实体 识别模型进行训练; 利用训练后的命名实体识别 模型将非结构化数据集转换为第一转换结构化 数据集; 根据结构化数据集、 半结构化数据集以 及第一转换结构化数据集构建目标领域的知识 图谱。 可见, 本申请通过引入远程监督数据集, 并 且综合利用样本选择器和命名实体识别模型, 使 得命名实体识别模型可以学习到大量高质量的 训练数据, 利用训练后的命名实体识别模型将非 结构化数据集转换为结构化数据集, 大大丰富了 构建知识图谱的数据, 从而可以构建出包含信息 丰富的知识图谱。 权利要求书2页 说明书8页 附图3页 CN 115146080 A 2022.10.04 CN 115146080 A 1.一种构建知识图谱的方法, 其特 征在于, 包括: 获取目标 领域的结构化数据集、 半结构化数据集和非结构化数据集; 利用所述结构化数据集、 远程监督数据集以及样本选择器对命名实体识别模型进行训 练; 利用训练后的命名实体识别模型将所述非结构化数据集转换为第一转换结构化数据 集; 根据所述结构化数据集、 所述半结构化数据集以及所述第 一转换结构化数据集构建目 标领域的知识图谱。 2.根据权利要求1所述的方法, 其特征在于, 所述利用所述结构化数据集、 远程监督数 据集以及样本 选择器对 命名实体识别模型进行训练, 包括: 利用所述结构化数据集对 命名实体识别模型进行初步训练; 将所述结构化数据集和远程 监督数据集进行混合, 得到混合数据集; 利用所述混合数据集和样本 选择器对初步训练后的命名实体识别模型进行训练。 3.根据权利要求2所述的方法, 其特征在于, 所述利用所述混合数据集和样本选择器对 初步训练后的命名实体识别模型进行训练, 包括: 随机抽取所述混合数据集中的一组目标数据, 利用样本选择器判断所述目标数据 是否 可以作为训练样本; 若所述目标数据 可以作为训练样本, 利用所述目标数据对所述命名实体识别模型进行 训练。 4.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 将所述命名实体识别模型的模型表现 反馈给所述样本 选择器; 基于所述模型表现对所述样本 选择器进行 更新。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述结构化数据集、 所述半结构 化数据集以及所述第一 转换结构化数据集构建目标 领域的知识图谱, 包括: 将所述半结构化数据进行处 理, 得到第二 转换结构化数据集; 根据所述结构化数据集、 所述第 一转换结构化数据集以及所述第 二转换结构化数据集 构建知识图谱。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述结构化数据集、 所述第一转 换结构化数据集以及所述第二 转换结构化数据集构建知识图谱, 包括: 对所述结构化数据集、 第 一转换结构化数据集以及第 二转换结构化数据集进行实体对 齐和实体消歧, 得到总结构化数据集; 根据所述总结构化数据集构建目标 领域的知识图谱。 7.根据权利要求1所述的方法, 其特 征在于, 所述命名实体识别模型, 包括: 增加了Bi‑LSTM网络和CRF层的BERT模型。 8.一种构建知识图谱的装置, 其特 征在于, 包括: 获取模块, 用于获取目标 领域的结构化数据集、 半结构化数据集和非结构化数据集; 训练模块, 用于利用所述结构化数据集、 远程监督数据集以及样本选择器对命名实体 识别模型进行训练; 转换模块, 用于利用训练后的命名实体识别模型将所述非结构化数据集转换为第 一转权 利 要 求 书 1/2 页 2 CN 115146080 A 2换结构化数据集; 构建模块, 用于根据所述结构化数据集、 所述半结构化数据集以及所述第一转换结构 化数据集构建目标 领域的知识图谱。 9.根据权利要求8所述的装置, 其特 征在于, 所述训练模块, 包括: 初步训练模块, 用于利用所述结构化数据集对 命名实体识别模型进行初步训练; 混合模块, 用于将所述结构化数据集和远程 监督数据集进行混合, 得到混合数据集; 后续训练模块, 用于利用所述混合数据集和样本选择器对初步训练后的命名实体识别 模型进行训练。 10.根据权利要求9所述的装置, 其特 征在于, 所述后续训练模块, 包括: 判断模块, 用于随机抽取所述混合数据集中的一组目标数据, 利用样本选择器判断所 述目标数据是否可以作为训练样本; 目标训练模块, 用于利用所述目标 数据对所述命名实体识别模型进行训练。权 利 要 求 书 2/2 页 3 CN 115146080 A 3

PDF文档 专利 一种构建知识图谱的方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种构建知识图谱的方法及装置 第 1 页 专利 一种构建知识图谱的方法及装置 第 2 页 专利 一种构建知识图谱的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。