(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211056456.0
(22)申请日 2022.08.30
(71)申请人 中国科学院上海高等研究院
地址 201210 上海市浦东 新区海科路9 9号
(72)发明人 黄俊 吴慧妍 朱智聪
(74)专利代理 机构 上海光华专利事务所(普通
合伙) 31219
专利代理师 牛莎莎
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
(54)发明名称
实体和关系联合抽取方法及装置、 存储介质
和终端
(57)摘要
本发明公开了一种实体和关系联合提取方
法及装置、 存储介质和终端, 其中方法使用了训
练完成的联合抽取模型, 其包括的词向量表示构
建模块用于获取文本数据的最终词向量表示; 候
选实体表示构建模块用于获取最终候选实体表
示集; 实体分类模块用于获取最终候选实体表示
集中每个最终候选实体表示所属实体类型的后
验信息; 关系表示构建模块用于基于每对实体对
所对应的关系表示向量; 关系分类模块用于获取
每对实体对 所属关系类型的后验信息。 本发明对
显式语义信息和隐式语义信息进行了充分挖掘,
有助于模型深度理解实体语义并建立实体间关
系, 在关系抽取中考虑了全局语义信息和局部上
下文长度信息, 提升 了模型的准确性。
权利要求书3页 说明书10页 附图2页
CN 115374786 A
2022.11.22
CN 115374786 A
1.一种实体和关系联合 提取方法, 包括:
获取文本数据集, 所述文本数据集包括多个文本数据;
基于训练完成的联合抽取模型, 对所述文本数据集中每个所述文本数据进行联合抽
取, 以获取每 个所述文本数据中的实体以及实体间的关系;
其中, 所述联合抽取模型包括词向量表示构建模块、 候选实体表示构建模块、 实体分类
模块、 关系表示构建模块和关系分类模块;
所述词向量表示构建模块, 用于基于预训练模型获取文本数据的第 一词向量表示和实
体全局语义表示, 基于语义角色标注获取所述文本数据的第二词向量表示, 并将所述第一
词向量表示和第二词向量表示进行拼接, 以获取 所述文本数据的最终词向量表示;
所述候选实体表示构建模块, 用于基于所述最终词向量表示获取增强实体隐式语义信
息, 基于所述增强实体隐式语义信息获取包含任意跨度的初步候选实体集, 对所述初步候
选实体集中所有所述初步候选实体分别进行最大池化操作, 以获取聚合候选实体集, 基于
所述聚合候选实体集中聚合候选实体、 聚合候选实体所属初步候选实体序列长度以及实体
全局语义表示, 获取最终候选实体表示 集;
所述实体分类模块, 用于基于所述最终候选实体表示集, 通过分类函数获取所述最终
候选实体表示 集中每个所述最终候选实体表示所属实体 类型的后验信息;
所述关系表示构建模块, 用于将所述 聚合候选实体集中所对应最终候选实体表示所属
实体分类为非空的聚合候选实体表示两两进行组合, 以形成实体对集, 获取每对实体对的
全局语义表示和局部语义表示, 并基于每对实体对的全局语义表示、 局部语义表示、 局部序
列长度以及实体对本体获取对应关系表示向量;
所述关系分类模块, 用于基于每对实体对的关系表示向量, 通过分类函数获取每对实
体对所属关系类型的后验信息;
其中, 所述局部序列长度为所述局部语义表示的序列长度。
2.根据权利要求1所述的方法, 其特征在于, 所述词向量表示构建模块, 用于基于预训
练模型获取文本数据的第一词向量表示和实体全局语义表示, 基于语义角色标注获取所述
文本数据的第二词向量表示, 并将所述第一词向量表示和第二词向量表示进行拼接, 以获
取所述文本数据的最终词向量表示包括:
将所述文本数据输入到预训练模型中, 以获取子词向量表示序列和实体全局语义表
示, 并将所述子词向量表示序列经 过卷积和最大池化以获取第一词向量表示;
将所述文本数据输入到语义角色标注工具中, 以获取多个语义角色标注序列, 并通过
全连接网络将所有所述语义角色标注序列进行聚合, 以获取第二词向量表示;
将所述第一词向量表示和第 二词向量表示进行拼接 融合, 以获取所述文本数据的最终
词向量表示。
3.根据权利要求1所述的方法, 其特征在于, 所述候选实体表示构建模块基于所述最终
词向量表示获取增强 实体隐式语义信息包括:
将所述最终词向量表示输入到第 一双向长短期记忆网络中, 以获取增强实体隐式语义
信息。
4.根据权利要求3所述的方法, 其特征在于, 所述候选实体表示构建模块基于所述聚合
候选实体集中聚合候选实体、 聚合候选实体所属初步候选实体序列长度以及实体全局语义权 利 要 求 书 1/3 页
2
CN 115374786 A
2表示, 获取最终候选实体表示 集包括:
将所述聚合候选实体集中每个聚合候选实体、 所述 聚合候选实体所属初步候选实体的
序列长度以及实体全局语义表示分别进行拼接, 以获取每个所述聚合候选实体对应的最 终
候选实体表示, 基于所有所述 最终候选实体表示形成最终候选实体表示 集。
5.根据权利要求1所述的方法, 其特 征在于, 所述分类函数为softmax。
6.根据权利要求1所述的方法, 其特征在于, 所述关系表示构建模块获取每对实体对的
全局语义表示和局部语义表示, 并基于每对实体对的全局语义表示、 局部语义表示、 局部序
列长度以及实体对本体获取对应关系表示向量包括:
将所述最终词向量表示输入到第 二双向长短期记忆网络中, 以获取增强全局上下文隐
式语义信息, 基于所述增强全局上下文隐式语义信息获取所述实体对集中所有实体对的局
部语义表示, 并将所述第二双向长 短期记忆网络最后一个隐状态表示作为所述实体对集中
所有所述实体对的全局语义表示;
将每对实体对的全局语义表示、 局部语义表示、 局部序列长度以及实体对本体进行拼
接, 以获取每对实体对所对应的关系表示向量。
7.根据权利要求1所述的方法, 其特征在于, 对联合抽取模型进行训练以获取训练完成
的联合抽取模型 过程中, 其损失函数为:
L=Le+Lr
其中, Le表示所述文本数据所对应所有所述最终候选实体表示所属实体类型的后验信
息与实体真实标签的交叉熵损失函数, Lr表示所述文本数据中所有实体对所属关系类型的
后验信息与关系真实标签的交叉熵损失函数。
8.一种实体和关系联合提取装置, 其特征在于, 包括数据获取模块和实体和关系提取
模块;
所述数据获取模块, 用于获取文本数据集, 所述文本数据集包括多个文本数据;
所述关系提取模块, 用于基于训练完成的联合抽取模型, 对所述文本数据集中每个所
述文本数据进行 联合抽取, 以获取每 个所述文本数据中的实体以及实体间的关系;
其中, 所述联合抽取模型包括词向量表示构建模块、 候选实体表示构建模块、 实体分类
模块、 关系表示构建模块和关系分类模块;
所述词向量表示构建模块, 用于基于预训练模型获取文本数据的第 一词向量表示和实
体全局语义表示, 基于语义角色标注获取所述文本数据的第二词向量表示, 并将所述第一
词向量表示和第二词向量表示进行拼接, 以获取 所述文本数据的最终词向量表示;
所述候选实体表示构建模块, 用于基于所述最终词向量表示获取增强实体隐式语义信
息, 基于所述增强实体隐式语义信息获取包含任意跨度的初步候选实体集, 对所述初步候
选实体集中所有所述初步候选实体分别进行最大池化操作, 以获取聚合候选实体集, 基于
所述聚合候选实体集中聚合候选实体、 聚合候选实体所属初步候选实体序列长度以及实体
全局语义表示, 获取最终候选实体表示 集;
所述实体分类模块, 用于基于所述最终候选实体表示集, 通过分类函数获取所述最终
候选实体表示 集中每个所述最终候选实体表示所属实体 类型的后验信息;
所述关系表示构建模块, 用于将所述 聚合候选实体集中所对应最终候选实体表示所属
实体分类为非空的聚合候选实体表示两两进行组合, 以形成实体对集, 获取每对实体对的权 利 要 求 书 2/3 页
3
CN 115374786 A
3
专利 实体和关系联合抽取方法及装置、存储介质和终端
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:00上传分享