公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210984004.2 (22)申请日 2022.08.17 (71)申请人 金陵科技学院 地址 211169 江苏省南京市江宁区弘景 大 道99号 (72)发明人 马颖忆 刘志峰 葛少峰 张启菊  王海英  (74)专利代理 机构 南京钟山专利代理有限公司 32252 专利代理师 徐燕 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种开放域语料关系联合抽取方法 (57)摘要 一种开放域语料关系联合抽取方法, 包括以 下步骤: S1、 提取语料中字符的特征向量; S2、 在 图注意力网络中进行特征融合; S3、 将语料中的 关系短语进行抽取; S4、 将语料中的实体对短语 进行抽取; S5、 根据步骤S3抽取的关系短语以及 步骤S4抽取对应的实体对短语, 将其组成三元 组, 并确定该三元组的置信度, 若置信度大于或 等于设定置信度阈值时, 则将该三元组作为输入 语料的开放域关系三元组。 通过上述方案实现针 对开放域关系抽取普遍存在的关系三元组序列 冗余、 关系三元组重叠、 关系三元组抽取准确率 低等问题。 权利要求书2页 说明书5页 附图1页 CN 115310454 A 2022.11.08 CN 115310454 A 1.一种开 放域语料关系联合抽取 方法, 其特 征在于, 包括以下步骤: S1、 提取语料中字符的特征向量: 将语料输入至BERT预训练语言模型中对语料进行编 码, 并得到语料中字符的特 征向量; S2、 在图注意力网络中进行特征融合: 基于图注意力网络将字符的特征向量中所包含 的特征进行融合, 并学习字符间的依赖关系; S3、 将语料中的关系短语进行抽取: 通过设计关系短语序列标注模型抽取语料中存在 的关系短语, 其中关系短语的含义 为语料句子中的谓语部分; S4、 将语料中的实体对短语进行抽取: 由于关系短语的含义为语料句子 中的谓语部分, 因此每个关系短语都有对应的实体对短语, 其中实体对短语包括首实体短语和尾实体短 语, 首实体 短语的含义为语料句子中的主语, 尾实体 短语的含义为语料句子中的宾语; 根据 步骤S2的字符间依赖关系以及通过基于图注意力网络预测每个关系短语所对应的实体对 短语, 并进行抽取; S5、 根据步骤S3抽取的关系短语以及步骤S4抽取对应的实体对短语, 将其组成三元组, 并确定该三元组的置信度, 若置信度大于或等于设定置信度阈值时, 则将该三元组作为输 入语料的开 放域关系三元组。 2.根据权利要求1所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S2中所 述学习字符间的依赖关系的具体 计算公式为: 式中, 表示第i个字符在第t层的隐层状态向量, 其体现了字符间的依赖关系; 表 示第i个字符在第t ‑1层的隐层状态向量, σ表示为sigmoid激活函数, n表示输入语料的长 度, Mij表示为图注意力网络的依赖权重, Wt和bt分别是图注意力网络的参数矩阵和偏置向 量。 3.根据权利要求2所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S3的具 体内容为: S3.1、 设计关系短语序列标注模型, 以计算某一字符是关系短语的起始位置或结束位 置的概率, 该模型 具体计算公式为: 式中, 和 分别代表输入语料的序列中, 第i个字符作为关系短语的开始位置 和结束位置的概率, xi代表第i个词的编码序列, Wstart表示计算关系短语起始位置的权重, Wend表示计算关系短语结束位置的权重, bstart表示计算关系短语起始位置的偏差, bend表示 计算关系短语结束位置的偏差, σ 表示sigmo id激活函数; S3.2、 在步骤S3.1所计算的 和 中, 若概率值大于概率阈值, 则该位置设为1, 反之设为0, 以此确定关系短语的位置, 实现语料中关系短语的抽取。 4.根据权利要求3所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S4的具 体内容为: 步骤S4中根据步骤S2的字符间依赖 关系以及通过基于图注意力网络预测每个关权 利 要 求 书 1/2 页 2 CN 115310454 A 2系短语所对应的实体对短语, 并进行抽取的具体内容 为: S4.1、 设定在步骤S3中, 所抽取出的某个关系短语, 其在关系短语集合 中的索引为λ, 通 过关系嵌入表示 为向量hλ; S4.2、 将向量hλ和步骤S2求出 的隐层状态向量hit一起输入到解码器中, 并通过图注意 力网络处 理获得融合卷积层特 征的解码器输出; S4.3、 将步骤S4.2的输出输入到图注意力网络中的预测层, 实现实体对短语中的首实 体短语和尾实体短语的预测, 并进行抽取。 5.根据权利要求4所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S4.3 中 所述“实现实体对短语中的首实体 短语和尾实体短语的预测, 并进 行抽取”的具体计算 公式 为: 抽取的首实体短语位置计算公式如下: 式中, 表示抽取的首实体短语的起始位置概率值, 表示抽取的首实体短语的结 束位置概率值, Wsstart表示抽取首实体短语起始位置权重, Wsend表示抽取首实体短语结束位 置权重, 表示抽取 首实体短语起始位置偏差, 表示抽取 首实体短语结束位置偏差, hG 表示经过图注意力网络处 理的上下文特征; 抽取的尾实体短语位置计算公式如下: 式中, 表示抽取的尾实体短语的起始位置概率值, 表示抽取的尾实体短语的结 束位置概率值, 表示抽取尾实体短语起始位置权重, 表示抽取尾实体短语结束位 置权重, 表示抽取尾实体短语起始位置偏差, 表示抽取尾实体短语结束位置偏差, hG表示经过图注意力网络处 理的上下文特征。 6.根据权利要求1所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S5 中所 述置信度阈值 为0.8。权 利 要 求 书 2/2 页 3 CN 115310454 A 3

PDF文档 专利 一种开放域语料关系联合抽取方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种开放域语料关系联合抽取方法 第 1 页 专利 一种开放域语料关系联合抽取方法 第 2 页 专利 一种开放域语料关系联合抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。