公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211005380.9 (22)申请日 2022.08.22 (71)申请人 白杨时代 (北京) 科技有限公司 地址 100094 北京市海淀区北清路81号院 二区3号楼10层10 02-3室 (72)发明人 黄安付 彭鹏 曹一丁 杨雷 (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 专利代理师 赵晓荣 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 一种构建知识图谱的方法及装置 (57)摘要 本申请公开了一种构建知识图谱的方法及 装置, 包括: 获取目标领域的结构化数据集、 半结 构化数据集和非结构化数据集; 利用结构化数据 集、 远程监督数据集以及样本选择器对命名实体 识别模型进行训练; 利用训练后的命名实体识别 模型将非结构化数据集转换为第一转换结构化 数据集; 根据结构化数据集、 半结构化数据集以 及第一转换结构化数据集构建目标领域的知识 图谱。 可见, 本申请通过引入远程监督数据集, 并 且综合利用样本选择器和命名实体识别模型, 使 得命名实体识别模型可以学习到大量高质量的 训练数据, 利用训练后的命名实体识别模型将非 结构化数据集转换为结构化数据集, 大大丰富了 构建知识图谱的数据, 从而可以构建出包含信息 丰富的知识图谱。 权利要求书2页 说明书8页 附图3页 CN 115146080 A 2022.10.04 CN 115146080 A 1.一种构建知识图谱的方法, 其特 征在于, 包括: 获取目标 领域的结构化数据集、 半结构化数据集和非结构化数据集; 利用所述结构化数据集、 远程监督数据集以及样本选择器对命名实体识别模型进行训 练; 利用训练后的命名实体识别模型将所述非结构化数据集转换为第一转换结构化数据 集; 根据所述结构化数据集、 所述半结构化数据集以及所述第 一转换结构化数据集构建目 标领域的知识图谱。 2.根据权利要求1所述的方法, 其特征在于, 所述利用所述结构化数据集、 远程监督数 据集以及样本 选择器对 命名实体识别模型进行训练, 包括: 利用所述结构化数据集对 命名实体识别模型进行初步训练; 将所述结构化数据集和远程 监督数据集进行混合, 得到混合数据集; 利用所述混合数据集和样本 选择器对初步训练后的命名实体识别模型进行训练。 3.根据权利要求2所述的方法, 其特征在于, 所述利用所述混合数据集和样本选择器对 初步训练后的命名实体识别模型进行训练, 包括: 随机抽取所述混合数据集中的一组目标数据, 利用样本选择器判断所述目标数据 是否 可以作为训练样本; 若所述目标数据 可以作为训练样本, 利用所述目标数据对所述命名实体识别模型进行 训练。 4.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 将所述命名实体识别模型的模型表现 反馈给所述样本 选择器; 基于所述模型表现对所述样本 选择器进行 更新。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述结构化数据集、 所述半结构 化数据集以及所述第一 转换结构化数据集构建目标 领域的知识图谱, 包括: 将所述半结构化数据进行处 理, 得到第二 转换结构化数据集; 根据所述结构化数据集、 所述第 一转换结构化数据集以及所述第 二转换结构化数据集 构建知识图谱。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述结构化数据集、 所述第一转 换结构化数据集以及所述第二 转换结构化数据集构建知识图谱, 包括: 对所述结构化数据集、 第 一转换结构化数据集以及第 二转换结构化数据集进行实体对 齐和实体消歧, 得到总结构化数据集; 根据所述总结构化数据集构建目标 领域的知识图谱。 7.根据权利要求1所述的方法, 其特 征在于, 所述命名实体识别模型, 包括: 增加了Bi‑LSTM网络和CRF层的BERT模型。 8.一种构建知识图谱的装置, 其特 征在于, 包括: 获取模块, 用于获取目标 领域的结构化数据集、 半结构化数据集和非结构化数据集; 训练模块, 用于利用所述结构化数据集、 远程监督数据集以及样本选择器对命名实体 识别模型进行训练; 转换模块, 用于利用训练后的命名实体识别模型将所述非结构化数据集转换为第 一转权 利 要 求 书 1/2 页 2 CN 115146080 A 2换结构化数据集; 构建模块, 用于根据所述结构化数据集、 所述半结构化数据集以及所述第一转换结构 化数据集构建目标 领域的知识图谱。 9.根据权利要求8所述的装置, 其特 征在于, 所述训练模块, 包括: 初步训练模块, 用于利用所述结构化数据集对 命名实体识别模型进行初步训练; 混合模块, 用于将所述结构化数据集和远程 监督数据集进行混合, 得到混合数据集; 后续训练模块, 用于利用所述混合数据集和样本选择器对初步训练后的命名实体识别 模型进行训练。 10.根据权利要求9所述的装置, 其特 征在于, 所述后续训练模块, 包括: 判断模块, 用于随机抽取所述混合数据集中的一组目标数据, 利用样本选择器判断所 述目标数据是否可以作为训练样本; 目标训练模块, 用于利用所述目标 数据对所述命名实体识别模型进行训练。权 利 要 求 书 2/2 页 3 CN 115146080 A 3
专利 一种构建知识图谱的方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:05
上传分享
举报
下载
原文档
(628.6 KB)
分享
友情链接
GM-T 0107-2021 智能IC卡密钥管理系统基本技术要求.pdf
GB-T 3565.4-2022 自行车安全要求 第4部分:车闸试验方法.pdf
中小企业数字化转型指南.pdf
SY-T 7657.1-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第1部分:总则.pdf
DB14-T 2658—2023 农村公路工程技术标准 山西省.pdf
DB33-T 2499-2022 气象地理分区 浙江省.pdf
GB/T 40127-2021 全断面隧道掘进机 顶管机安全要求.pdf
GB-T 3409.2-2016 大坝监测仪器 钢筋计 第2部分:振弦式钢筋计.pdf
GB-T 26251-2010 氟及氟氮混合气.pdf
DB3201-T 1125-2022 党政机关单位大型固定资产设施设备运维服务管理规范 南京市.pdf
GB-T 31344-2014 节能量测量和验证技术要求 板坯加热炉系统.pdf
GB-T 9176-2016 桑蚕干茧.pdf
ISO SAE 21434 Road vehicles— Cybersecurity engineering.pdf
ISO 22301-2019.pdf
TTAF 044-2019 Android应用质量技术要求及评分细则.pdf
GB-T 30101-2013 聚乙烯醇水溶短纤维.pdf
T-CSAE 82—2018 能量回馈式整车动力学控制系统耐久 性能要求及台架试验方法.pdf
DB11-T 1536-2018 水泵节能监测 北京市.pdf
T-CESA 1026—2018 人工智能 深度学习算法评估规范.pdf
TB-T 3556-2020 铁路桥梁用结构钢.pdf
交流群
-->
1
/
14
评价文档
赞助2元 点击下载(628.6 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。