公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210933168.2 (22)申请日 2022.08.04 (71)申请人 华南师范大学 地址 528225 广东省佛山市南海区狮山 南 海软件园华 南师范大学软件学院 (72)发明人 曾碧卿 黎健进 宋逸云  (74)专利代理 机构 广州骏思知识产权代理有限 公司 44425 专利代理师 张金龙 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文档级别关系抽取方法、 装置、 电子设 备及存储介质 (57)摘要 本发明涉及一种文档级别关系抽取方法、 装 置、 电子设备及存储介质。 本发明所述的文档级 别关系抽取方法包括: 获取待抽取关系的若干实 体对和文档; 将所述实体对和所述文档顺次输入 嵌入层和编码层, 获取隐藏状态向量; 根据所述 文档中的每个实体与其他实体之间的实体间关 系, 计算文档中每个词的注意力; 根据每个实体 对应的实际提及集合和所述文档对应的隐藏状 态向量相乘, 得到每个实体对的向量; 使用图注 意力机制, 分别得到每个实体对中头实体和尾实 体的向量; 对于每一个实体对, 将所述头实体向 量和所述尾实体向量输入输出层, 经过输出层得 到概率最高的实体 关系作为输出。 本发明所述的 文档级别关系抽取方法, 解决了某些实体提及可 能与关系无关的问题。 权利要求书4页 说明书12页 附图3页 CN 115358220 A 2022.11.18 CN 115358220 A 1.一种文档级别关系抽取 方法, 其特 征在于, 包括以下步骤: 获取待抽取关系的若干实体对和文档; 将所述实体对和所述文档顺 次输入嵌入层和编码层, 得到所述文档对应的隐藏状态向 量和所述实体对中每一个实体对应的实体提及集 合以及实体提及集 合的隐状态向量; 根据所述文档中的每个实体与其他实体之间的实体间关系, 构造所述文档对应的实体 间关系矩阵, 并计算文档中每 个词的注意力; 根据每个实体对应的实际提及集合和所述文档对应的隐藏状态向量相乘, 得到每个实 体对的向量; 使用图注意力 机制, 将实体对作为主节点, 该实体对中实体的实体提及作为从节点, 构 造出一个实体提及图; 并根据所述 实体提及图, 使用图注意力机制, 分别得到每个实体对中 头实体和尾实体的向量; 对于每一个实体对, 将所述头实体向量和所述尾实体向量输入输出层, 使得所述输出 层将所述头实体向量和所述尾实体向量拼接在一起, 经过输出层得到所述头实体和所述尾 实体对应的实体关系的概 率分布, 并选择其中概 率最高的实体关系作为输出。 2.根据权利要求1所述的一种 文档级别关系抽取方法, 其特征在于, 根据 所述文档中的 每个实体与其他实体之间的实体间关系, 构造所述文档对应的实体间关系矩阵, 并计算文 档中每个词的注意力, 包括: 根据以下关系, 构造所述文档对应的实体间关系矩阵C: 若两个实体存在关系, 则它们 的实体提及 在矩阵相交的位置的值 为1, 若没有关系则为0; 使用以下公式, 构造关于实体间关系信息注意力机制的query/key/value向量 值: 其中, WQ, WK, WV为随机初始化权 重值, i为该词在文本中的位置; 使用以下公式, 计算每 个词在该词中的得分: 其中, sij代表的是第j个词在第i词中的得分, Aij代表的是结构化信息隐状态值, 若Cij 的值为1, 则Aij的初始化的值 为随机值, 否则Aij的初始化 值为0; 使用以下公式, 根据每 个词的得分算出每 个词的注意力: 其中, ai为第i个词的注意力, m为词的数量, j和k作为下标, 分别代表m个词中的第j个词 和第k个词, exp为指数函数。 3.根据权利要求1所述的一种 文档级别关系抽取方法, 其特征在于, 根据每个实体对应 的实际提及集 合和所述文档对应的隐藏状态向量相乘, 得到每 个实体对的向量, 包括: 使用以下公式, 根据实体提及集 合, 计算关于该实体的注意力:权 利 要 求 书 1/4 页 2 CN 115358220 A 2其中, 为第i个实体对文档中所有词注意力, 为第i个实体的实体提及的数量, 指的是第i个实体中的第j个(共有 个)实体提及对文档中所有词的注意力, exp为指数函 数; 使用以下公式, 将两个实体的注意力相乘得到关于该实体对的注意力: A(s, o)=AsAo 其中, A(s, o)为该实体对的注意力, As和Ao分别是实体对中头实体的注意力和尾实体的注 意力; 使用以下公式, 将实体对注意力和隐藏状态H相乘得到关于该实体对的向量: f(s, o)=HTA(s, o) 其中, f(s, o)为实体对(s, o)的特征向量, H是由文档所有词的隐藏状态组成的序列, 即H ={h1, h2, ..., hm}, h是单个词的隐藏状态, T代表矩阵的转置, m是文档中词的个数; A(s, o)为 实体对(s, o)对文档中所有词的注意力。 4.根据权利要求1所述的一种 文档级别关系抽取方法, 其特征在于, 根据 所述实体提及 图, 使用图注意力机制, 分别得到每 个实体对中头实体和尾实体的向量, 包括: 根据该实体提及图, 使用图注意力机制, 分别得到头实体和尾实体对其实体的提及的 注意力, 公式如下: 其中, T和W为随机化的权重矩阵; f(s, o)为实体对(s, o)的特征向量, 指的是实体S的第 j个实体提及的隐状态, 和 分别为实体S和实体o的实体提及的数量; 和 分别为 经过图注意力机制后, 实体s和实体 o的第j个实体 提及对文档中所有词的注意力; 为经过 图注意力机制后, 实体o的第j个实体提及对文档中所有词的注意力; 为实体o的实体提 及数量; gs和go为分别为实体S和实体o对文档中所有词的注意力; 使用如下公式, 使用实体提及注意力得到主实体和尾实体的向量: hs=gsH ho=goH 其中, hs和ho分别代表实体s和实体o的隐状态, gs和go为分别为实体S和实体o对文档中权 利 要 求 书 2/4 页 3 CN 115358220 A 3

PDF文档 专利 一种文档级别关系抽取方法、装置、电子设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文档级别关系抽取方法、装置、电子设备及存储介质 第 1 页 专利 一种文档级别关系抽取方法、装置、电子设备及存储介质 第 2 页 专利 一种文档级别关系抽取方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。