(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210974217.7
(22)申请日 2022.08.15
(71)申请人 中南大学
地址 410000 湖南省长 沙市岳麓区麓山 南
路932号
(72)发明人 王雅琳 彭渝彬 郭静宇 隋庆开
周泽雄 林邠 李淑贤 袁小锋
王凯
(74)专利代理 机构 长沙轩荣专利代理有限公司
43235
专利代理师 姚兴
(51)Int.Cl.
G06F 16/901(2019.01)
G06F 16/906(2019.01)
G06F 40/30(2020.01)G06V 10/774(2022.01)
(54)发明名称
知识嵌入方法
(57)摘要
本申请适用于知识图谱技术领域, 提供了一
种知识嵌入方法, 该方法包括: 分别针对知识图
谱中的每一三元组执行如下步骤: 提取三元组中
实体间的聚类特征和层次特征, 并利用三元组中
(h,c,t)的出现频次和(h,t)的出现频次, 对聚类
特征和层次特征进行频次增强处理, 得到频次增
强后的聚类特征和层次特征; 将聚类特征、 层次
特征、 频次增强后的聚类特征和层次特征均转换
为三元组的评分值, 并对三元 组的所有评分值进
行加权求和, 得到频次增强融合模型; 对频次增
强融合模型进行训练, 并将训练后的频次增强融
合模型中的实体和关系的嵌入向量组作为知识
图谱的知识表 示嵌入结果。 本申请能提升知 识图
谱的链接预测准确率。
权利要求书3页 说明书13页 附图2页
CN 115391606 A
2022.11.25
CN 115391606 A
1.一种知识嵌入方法, 其特 征在于, 包括:
分别针对知识图谱中的每一三元组(h, c, t), 提取所述三元组(h, c, t)中实体 间的聚类
特征和层次特征, 并利用所述三元组(h, c, t)中(h, c, t)的出现频次和(h, t)的出现频次, 对
所述聚类特征和层次特征进行频次增强处理, 得到频次增强后的聚类特征和层次特征; 其
中, h表示所述三元组中的头实体, t表示所述三元组中的尾实体, c表示所述三元组中的关
系;
分别针对每一所述三元组(h, c, t), 将所述三元组(h, c, t)对应的聚类特征、 层次特征、
频次增强后的聚类特征和层次特征均转换为所述三元组(h, c, t)的评分值, 并对所述三元
组(h, c, t)的所有评分值进行加权求和, 得到频次增强融合模型;
分别针对每一所述三元组(h, c, t), 对所述三元组(h, c, t)对应的所述频次增强融合模
型进行训练, 并将训练后的频次增强融合模型中的实体和关系的嵌入向量组作为所述知识
图谱的知识 表示嵌入结果;
所述实体的嵌入向量组包括所述实体的聚类特征向量、 层次特征向量和频次特征向
量, 所述关系的嵌入向量组包括所述关系的聚类特征向量、 关系门控向量、 层次特征向量和
频次特征向量。
2.根据权利要求1所述的方法, 其特征在于, 所述提取所述三元组(h, c, t)中实体间的
聚类特征, 包括:
获取所述三元组对应的头实体h的聚类特征向量
所述三元组对应的尾实体t的聚类
特征向量
以及所述 三元组对应的关系c的聚类特 征向量
和关系门控向量
通过聚类特 征提取模型提取 所述三元组中实体间的聚类特 征;
其中, 所述聚类特 征提取模型为:
Vt表示所述三元组中实体间的聚类
特征。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述 聚类特征和层次特征进行频次
增强处理, 得到频次增强后的聚类特 征和层次特 征, 包括:
获取所述三元组(h, c, t)对应的头实体h的(h, c, t)频次特征向量
所述三元组(h, c,
t)对应的尾实体t的(h, c, t)频次特征向量
以及所述三元组(h, c, t)对应的关系c的(h,
c, t)频次特 征向量
构建(h, c, t)频次特征提取模型; 所述(h, c, t)频次特征提取模型为:
获取所述三元 组(h, c, t)对应的头实体h的(h, t)频次特征向量
以及所述三元组(h,
c, t)对应的尾实体t的(h, t)频次特 征向量
构建(h, t)频次特 征提取模型; 所述(h, t)频次特 征提取模型为:
权 利 要 求 书 1/3 页
2
CN 115391606 A
2通过公式
和公式
对所述三元
组(h, c, t)中实体间的聚类特征Vt进行频次增强处理, 得到频次增强后的聚类特征;
和
均表示频次增强后的聚类特 征;
通过公式
和公式
对所述三元
组(h, c, t)中实体间的层次特征Vr进行频次增强处理, 得到频次增强后的层次特征;
和
均表示频次增强后的层次特 征。
4.根据权利要求3所述的方法, 其特征在于, 所述将所述三元组(h, c, t)对应的聚类特
征、 层次特征、 频次增强后的聚类特征和层次特征均转换为所述三元组(h, c, t)的评分值,
包括:
通过公式
将所述三元组(h, c, t)对应的聚类特征Vt、 层次特
征Vr、 频次增强后的聚类特征
和
频次增强后的层次特征
和
均转换为所述
三元组(h, c, t)的评分值;
其中, Ek表示Vk对应的评分值, k=t, r, f1, f2, f3, f4, [Vk]i表示Vk的第i维向量, N表示Vk的
向量维数, pk、 qk均为敏感系数。
5.根据权利要求4所述的方法, 其特征在于, 所述对所述三元组(h, c, t)的所有评分值
进行加权求和, 得到频次增强融合模型, 包括:
通过公式
对所述三元组(h, c, t)的所有评分值进行加权求和, 得到频次增强融合模型;
其中, E1表示频次增强融合模型, λ1、 λ2、 λ3均为权重系数, β 为选择系数。
6.根据权利要求5所述的方法, 其特征在于, 所述对所述三元组(h, c, t)对应的所述频
次增强融合模型进行训练, 包括:
将所述三元组(h, c, t)作为 正样本;
将所述三元组(h, c, t)中的实体随机替换成其他实体, 得到n组负样本; 其中, n为整数,
且5≤n≤10;
利用所述正样本和n组所述负样本, 对所述频次增强融合模型进行训练, 得到训练后的
频次增强融合模型。
7.根据权利要求6所述的方法, 其特征在于, 在所述对所述三元组(h, c, t)对应的所述
频次增强融合模型进行训练之后, 所述方法还 包括:
根据Bert模型词库中的词汇对所述三元组(h, c, t)中的实体和 关系进行分词处理, 对
分词处理后的三元组(h, c, t)进行编码, 得到所述 三元组(h, c, t)的整体 语义信息向量;
将所述三元组(h, c, t)的整体语义信息向量输入样本检测神经网络, 并将所述样本检
测神经网络 输出的概 率值作为所述 三元组(h, c, t)的语义特 征;
对训练后的频次增强融合模型和所述语义特 征进行加权求和, 得到知识嵌入 模型;
对所述知识嵌入模型进行训练, 并将训练后的知识嵌入模型中的实体和关系的嵌入向权 利 要 求 书 2/3 页
3
CN 115391606 A
3
专利 知识嵌入方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:11上传分享