公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210984004.2 (22)申请日 2022.08.17 (71)申请人 金陵科技学院 地址 211169 江苏省南京市江宁区弘景 大 道99号 (72)发明人 马颖忆 刘志峰 葛少峰 张启菊 王海英 (74)专利代理 机构 南京钟山专利代理有限公司 32252 专利代理师 徐燕 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种开放域语料关系联合抽取方法 (57)摘要 一种开放域语料关系联合抽取方法, 包括以 下步骤: S1、 提取语料中字符的特征向量; S2、 在 图注意力网络中进行特征融合; S3、 将语料中的 关系短语进行抽取; S4、 将语料中的实体对短语 进行抽取; S5、 根据步骤S3抽取的关系短语以及 步骤S4抽取对应的实体对短语, 将其组成三元 组, 并确定该三元组的置信度, 若置信度大于或 等于设定置信度阈值时, 则将该三元组作为输入 语料的开放域关系三元组。 通过上述方案实现针 对开放域关系抽取普遍存在的关系三元组序列 冗余、 关系三元组重叠、 关系三元组抽取准确率 低等问题。 权利要求书2页 说明书5页 附图1页 CN 115310454 A 2022.11.08 CN 115310454 A 1.一种开 放域语料关系联合抽取 方法, 其特 征在于, 包括以下步骤: S1、 提取语料中字符的特征向量: 将语料输入至BERT预训练语言模型中对语料进行编 码, 并得到语料中字符的特 征向量; S2、 在图注意力网络中进行特征融合: 基于图注意力网络将字符的特征向量中所包含 的特征进行融合, 并学习字符间的依赖关系; S3、 将语料中的关系短语进行抽取: 通过设计关系短语序列标注模型抽取语料中存在 的关系短语, 其中关系短语的含义 为语料句子中的谓语部分; S4、 将语料中的实体对短语进行抽取: 由于关系短语的含义为语料句子 中的谓语部分, 因此每个关系短语都有对应的实体对短语, 其中实体对短语包括首实体短语和尾实体短 语, 首实体 短语的含义为语料句子中的主语, 尾实体 短语的含义为语料句子中的宾语; 根据 步骤S2的字符间依赖关系以及通过基于图注意力网络预测每个关系短语所对应的实体对 短语, 并进行抽取; S5、 根据步骤S3抽取的关系短语以及步骤S4抽取对应的实体对短语, 将其组成三元组, 并确定该三元组的置信度, 若置信度大于或等于设定置信度阈值时, 则将该三元组作为输 入语料的开 放域关系三元组。 2.根据权利要求1所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S2中所 述学习字符间的依赖关系的具体 计算公式为: 式中, 表示第i个字符在第t层的隐层状态向量, 其体现了字符间的依赖关系; 表 示第i个字符在第t ‑1层的隐层状态向量, σ表示为sigmoid激活函数, n表示输入语料的长 度, Mij表示为图注意力网络的依赖权重, Wt和bt分别是图注意力网络的参数矩阵和偏置向 量。 3.根据权利要求2所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S3的具 体内容为: S3.1、 设计关系短语序列标注模型, 以计算某一字符是关系短语的起始位置或结束位 置的概率, 该模型 具体计算公式为: 式中, 和 分别代表输入语料的序列中, 第i个字符作为关系短语的开始位置 和结束位置的概率, xi代表第i个词的编码序列, Wstart表示计算关系短语起始位置的权重, Wend表示计算关系短语结束位置的权重, bstart表示计算关系短语起始位置的偏差, bend表示 计算关系短语结束位置的偏差, σ 表示sigmo id激活函数; S3.2、 在步骤S3.1所计算的 和 中, 若概率值大于概率阈值, 则该位置设为1, 反之设为0, 以此确定关系短语的位置, 实现语料中关系短语的抽取。 4.根据权利要求3所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S4的具 体内容为: 步骤S4中根据步骤S2的字符间依赖 关系以及通过基于图注意力网络预测每个关权 利 要 求 书 1/2 页 2 CN 115310454 A 2系短语所对应的实体对短语, 并进行抽取的具体内容 为: S4.1、 设定在步骤S3中, 所抽取出的某个关系短语, 其在关系短语集合 中的索引为λ, 通 过关系嵌入表示 为向量hλ; S4.2、 将向量hλ和步骤S2求出 的隐层状态向量hit一起输入到解码器中, 并通过图注意 力网络处 理获得融合卷积层特 征的解码器输出; S4.3、 将步骤S4.2的输出输入到图注意力网络中的预测层, 实现实体对短语中的首实 体短语和尾实体短语的预测, 并进行抽取。 5.根据权利要求4所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S4.3 中 所述“实现实体对短语中的首实体 短语和尾实体短语的预测, 并进 行抽取”的具体计算 公式 为: 抽取的首实体短语位置计算公式如下: 式中, 表示抽取的首实体短语的起始位置概率值, 表示抽取的首实体短语的结 束位置概率值, Wsstart表示抽取首实体短语起始位置权重, Wsend表示抽取首实体短语结束位 置权重, 表示抽取 首实体短语起始位置偏差, 表示抽取 首实体短语结束位置偏差, hG 表示经过图注意力网络处 理的上下文特征; 抽取的尾实体短语位置计算公式如下: 式中, 表示抽取的尾实体短语的起始位置概率值, 表示抽取的尾实体短语的结 束位置概率值, 表示抽取尾实体短语起始位置权重, 表示抽取尾实体短语结束位 置权重, 表示抽取尾实体短语起始位置偏差, 表示抽取尾实体短语结束位置偏差, hG表示经过图注意力网络处 理的上下文特征。 6.根据权利要求1所述的一种开放域语料关系联合抽取方法, 其特征在于, 步骤S5 中所 述置信度阈值 为0.8。权 利 要 求 书 2/2 页 3 CN 115310454 A 3
专利 一种开放域语料关系联合抽取方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:08
上传分享
举报
下载
原文档
(526.4 KB)
分享
友情链接
T-CSAE 77—2018 电动汽车再生制动系统制动效能 恒定性试验方法.pdf
T-XJNFCP 002—2023 预制菜保质期通用规范.pdf
DB3301-T 0331—2021 餐饮食品安全数字化管理规范 杭州市.pdf
DB52-T1239.3-2019 政府数据 核心元数据 第3部分:空间地理数据 贵州省.pdf
GB-T 549-2017 电焊锚链.pdf
GB-Z 42759-2023 智慧城市 人工智能技术应用场景分类指南.pdf
DB11-T 1768-2020 建筑水表配置规范 北京市.pdf
ISO27001 中文解说版.pdf
GB-T 37002-2018 信息安全技术 电子邮件系统安全技术要求.pdf
GB-T 37971-2019 信息安全技术 智慧城市安全体系框架.pdf
GB-T 21898-2008 纺织品颜色表示方法.pdf
NY-T 2454-2019 机动植保机械报废技术条件.pdf
T-SIA 031.2—2021 系统安全工程 网络弹性构建指南 第2部分 网络弹性工程框架.pdf
GB-T 22939.6-2008 家用和类似用途电器包装 电冰箱的特殊要求.pdf
DB34-T 4102-2022 废旧锂离子动力蓄电池贮存安全技术条件 安徽省.pdf
GB-T 30290.3-2013 卫星定位车辆信息服务系统 第3部分:信息安全规范.pdf
GB-T 18959-2023 木材保管规程.pdf
T-CI 047—2021 医用镥[177Lu]及其放射性药物的 质量标准.pdf
GB-T 10479-2009 铝制铁道罐车.pdf
TB-T 1495-2020 弹条Ⅰ型扣件.pdf
交流群
-->
1
/
9
评价文档
赞助2元 点击下载(526.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。