专利 知识嵌入方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210974217.7 (22)申请日 2022.08.15 (71)申请人中南大学地址 410000 湖南省长沙市岳麓区麓山南路932号 (72)发明人王雅琳　彭渝彬　郭静宇　隋庆开　周泽雄　林邠　李淑贤　袁小锋　王凯　 (74)专利代理机构长沙轩荣专利代理有限公司 43235 专利代理师姚兴 (51)Int.Cl. G06F 16/901(2019.01) G06F 16/906(2019.01) G06F 40/30(2020.01)G06V 10/774(2022.01) (54)发明名称知识嵌入方法 (57)摘要本申请适用于知识图谱技术领域，提供了一种知识嵌入方法，该方法包括：分别针对知识图谱中的每一三元组执行如下步骤：提取三元组中实体间的聚类特征和层次特征，并利用三元组中 (h,c,t)的出现频次和(h,t)的出现频次，对聚类特征和层次特征进行频次增强处理，得到频次增强后的聚类特征和层次特征；将聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为三元组的评分值，并对三元组的所有评分值进行加权求和，得到频次增强融合模型；对频次增强融合模型进行训练，并将训练后的频次增强融合模型中的实体和关系的嵌入向量组作为知识图谱的知识表示嵌入结果。本申请能提升知识图谱的链接预测准确率。权利要求书3页说明书13页附图2页 CN 115391606 A 2022.11.25 CN 115391606 A 1.一种知识嵌入方法，其特征在于，包括：分别针对知识图谱中的每一三元组(h， c， t)，提取所述三元组(h， c， t)中实体间的聚类特征和层次特征，并利用所述三元组(h， c， t)中(h， c， t)的出现频次和(h， t)的出现频次，对所述聚类特征和层次特征进行频次增强处理，得到频次增强后的聚类特征和层次特征；其中， h表示所述三元组中的头实体， t表示所述三元组中的尾实体， c表示所述三元组中的关系；分别针对每一所述三元组(h， c， t)，将所述三元组(h， c， t)对应的聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为所述三元组(h， c， t)的评分值，并对所述三元组(h， c， t)的所有评分值进行加权求和，得到频次增强融合模型；分别针对每一所述三元组(h， c， t)，对所述三元组(h， c， t)对应的所述频次增强融合模型进行训练，并将训练后的频次增强融合模型中的实体和关系的嵌入向量组作为所述知识图谱的知识表示嵌入结果；所述实体的嵌入向量组包括所述实体的聚类特征向量、层次特征向量和频次特征向量，所述关系的嵌入向量组包括所述关系的聚类特征向量、关系门控向量、层次特征向量和频次特征向量。 2.根据权利要求1所述的方法，其特征在于，所述提取所述三元组(h， c， t)中实体间的聚类特征，包括：获取所述三元组对应的头实体h的聚类特征向量所述三元组对应的尾实体t的聚类特征向量以及所述三元组对应的关系c的聚类特征向量和关系门控向量通过聚类特征提取模型提取所述三元组中实体间的聚类特征；其中，所述聚类特征提取模型为： Vt表示所述三元组中实体间的聚类特征。 3.根据权利要求2所述的方法，其特征在于，所述对所述聚类特征和层次特征进行频次增强处理，得到频次增强后的聚类特征和层次特征，包括：获取所述三元组(h， c， t)对应的头实体h的(h， c， t)频次特征向量所述三元组(h， c， t)对应的尾实体t的(h， c， t)频次特征向量以及所述三元组(h， c， t)对应的关系c的(h， c， t)频次特征向量构建(h， c， t)频次特征提取模型；所述(h， c， t)频次特征提取模型为：获取所述三元组(h， c， t)对应的头实体h的(h， t)频次特征向量以及所述三元组(h， c， t)对应的尾实体t的(h， t)频次特征向量构建(h， t)频次特征提取模型；所述(h， t)频次特征提取模型为：权　利　要　求　书 1/3 页 2 CN 115391606 A 2通过公式和公式对所述三元组(h， c， t)中实体间的聚类特征Vt进行频次增强处理，得到频次增强后的聚类特征；和均表示频次增强后的聚类特征；通过公式和公式对所述三元组(h， c， t)中实体间的层次特征Vr进行频次增强处理，得到频次增强后的层次特征；和均表示频次增强后的层次特征。 4.根据权利要求3所述的方法，其特征在于，所述将所述三元组(h， c， t)对应的聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为所述三元组(h， c， t)的评分值，包括：通过公式将所述三元组(h， c， t)对应的聚类特征Vt、层次特征Vr、频次增强后的聚类特征和频次增强后的层次特征和均转换为所述三元组(h， c， t)的评分值；其中， Ek表示Vk对应的评分值， k＝t， r， f1， f2， f3， f4， [Vk]i表示Vk的第i维向量， N表示Vk的向量维数， pk、 qk均为敏感系数。 5.根据权利要求4所述的方法，其特征在于，所述对所述三元组(h， c， t)的所有评分值进行加权求和，得到频次增强融合模型，包括：通过公式对所述三元组(h， c， t)的所有评分值进行加权求和，得到频次增强融合模型；其中， E1表示频次增强融合模型， λ1、 λ2、 λ3均为权重系数， β 为选择系数。 6.根据权利要求5所述的方法，其特征在于，所述对所述三元组(h， c， t)对应的所述频次增强融合模型进行训练，包括：将所述三元组(h， c， t)作为正样本；将所述三元组(h， c， t)中的实体随机替换成其他实体，得到n组负样本；其中， n为整数，且5≤n≤10；利用所述正样本和n组所述负样本，对所述频次增强融合模型进行训练，得到训练后的频次增强融合模型。 7.根据权利要求6所述的方法，其特征在于，在所述对所述三元组(h， c， t)对应的所述频次增强融合模型进行训练之后，所述方法还包括：根据Bert模型词库中的词汇对所述三元组(h， c， t)中的实体和关系进行分词处理，对分词处理后的三元组(h， c， t)进行编码，得到所述三元组(h， c， t)的整体语义信息向量；将所述三元组(h， c， t)的整体语义信息向量输入样本检测神经网络，并将所述样本检测神经网络输出的概率值作为所述三元组(h， c， t)的语义特征；对训练后的频次增强融合模型和所述语义特征进行加权求和，得到知识嵌入模型；对所述知识嵌入模型进行训练，并将训练后的知识嵌入模型中的实体和关系的嵌入向权　利　要　求　书 2/3 页 3 CN 115391606 A 3

专利 知识嵌入方法

专利知识嵌入方法