公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210065802.5 (22)申请日 2022.01.20 (71)申请人 杭州量知数据科技有限公司 地址 310000 浙江省杭州市萧 山区萧山经 济技术开发区明星路371号1幢6 01室 (72)发明人 宗畅 杨芷婷 王云飞 杨彦飞 (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 专利代理师 张解翠 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称 一种事件抽取方法、 装置、 设备及存 储介质 (57)摘要 本申请公开了一种事件抽取方法、 装置、 设 备及存储介质, 涉及自然语言智能处理技术领 域, 包括以下步骤: 获取目标领域的多个事件描 述句, 并定义事件标注的标签类别; 基于所述标 签类别对所述多个事件描述句分别进行标注, 并 利用多种粒度分割方法对所述多个事件描述句 进行特征划分; 对划分后的所述多个事件描述句 进行二次标注, 并将两次标注结果与多种划分结 果全部记 为训练样本集; 将所述训练样本集输入 预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行 训练, 得到事件抽取模型, 以进行事件抽取。 本方 案针对产业领域相关的资讯新闻, 结合多种粒度 分割方法和BERT ‑BiLSTM‑ATTN‑CRF模型在少量 标注样本的基础上, 保持事件抽取的识别率并提 高事件抽取中对象元 素和触发词的识别率。 权利要求书2页 说明书8页 附图3页 CN 114579695 A 2022.06.03 CN 114579695 A 1.一种事 件抽取方法, 其特 征在于, 包括以下步骤: 获取目标 领域的多个事 件描述句, 并定义事 件标注的标签 类别; 基于所述标签类别对所述多个事件描述句分别进行标注, 并利用多种粒度分割方法对 所述多个事 件描述句进行 特征划分; 对划分后的所述多个事件描述句进行二 次标注, 并将两次标注结果与多种划分结果全 部记为训练样本集; 将所述训练样本集输入预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行训练, 得到事件 抽取模型, 以进行事 件抽取。 2.根据权利要求1所述的一种 事件抽取方法, 其特征在于, 所述获取目标领域的多个事 件描述句, 并定义事 件标注的标签 类别, 包括: 采集产业领域的多个事 件描述句; 根据序列标注方法对所述多个事 件描述句进行分析, 提取 出事件标注的标签 类别。 3.根据权利要求1所述的一种 事件抽取方法, 其特征在于, 所述基于所述标签类别对所 述多个事件描述句分别进 行标注, 并利用多种粒度分割方法对所述多个事件描述句进 行特 征划分, 包括: 根据所述标签 类别为所述多个事 件描述句中的每 个单词标注一个标签; 按照字分割粒度、 词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别 进行特征划分。 4.根据权利要求3所述的一种事件抽取方法, 其特征在于, 所述按照字分割粒度、 词分 割粒度和依存句法分割粒度的顺序对所述多个事 件描述句分别进行 特征划分, 包括: 利用字向量训练网络抽取 出所述多个事 件描述句中字的特 征向量; 利用LTP工具对所述多个事 件描述句进行分词处 理, 并在相邻词间添加分割符; 根据依存句法分析和预先设定的分割条件对分词后的多个事件描述句进行事件分段 和定中短语分段。 5.根据权利要求4所述的一种 事件抽取方法, 其特征在于, 所述预先设定的分割条件包 括: 如果当前词与前一个词成定中关系, 则当前词与前一个词合 为一段作为定中短语; 如果当前词与句子中某一个词是主谓关系、 动宾关系、 间宾关系、 前置关系和介宾关 系, 且所述词并不属于任何一个事件段, 则所述词到当前词之间所有的词都属于同一个事 件段。 6.根据权利要求1所述的一种事件抽取方法, 其特征在于, 所述BERT ‑BILSTM‑ATTN‑CRF 模型使用Adam优化器训练模型参数, 并利用dropout方法进行模型训练。 7.一种事 件抽取装置, 其特 征在于, 包括: 采集模块, 用于获取目标 领域的多个事 件描述句, 并定义事 件标注的标签 类别; 处理模块, 用于基于所述标签类别对所述多个事件描述句分别进行标注, 并利用多种 粒度分割方法对所述多个事 件描述句进行 特征划分; 设置模块, 用于对划分后的所述多个事件描述句进行二次标注, 并将两次标注结果与 多种划分结果全部记为训练样本集; 训练模块, 用于将所述训练样本集输入预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行权 利 要 求 书 1/2 页 2 CN 114579695 A 2训练, 得到事 件抽取模型, 以进行事 件抽取。 8.根据权利要求7 所述的一种事 件抽取装置, 其特 征在于, 所述采集模块, 包括: 获取单元, 用于采集产业领域的多个事 件描述句; 分析单元, 用于根据序列标注方法对所述多个事件描述句进行分析, 提取出事件标注 的标签类别。 9.根据权利要求7 所述的一种事 件抽取装置, 其特 征在于, 所述处 理模块, 包括: 标注单元, 用于根据所述标签类别为所述多个事件描述句中的每个单词标注一个标 签; 划分单元, 用于按照字分割粒度、 词分割粒度和依存句法分割粒度的顺序对所述多个 事件描述句分别进行 特征划分。 10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序使计 算机执行时实现如权利要求1~6中任一项所述的一种事 件抽取方法。权 利 要 求 书 2/2 页 3 CN 114579695 A 3
专利 一种事件抽取方法、装置、设备及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:49
上传分享
举报
下载
原文档
(563.0 KB)
分享
友情链接
T-AIITRE 10004—2023 数字化转型 成熟度模型.pdf
YD-T 4204-2023 5G移动通信网络设备安全保障要求 核心网网络功能.pdf
NY-T 3001-2016 饲料中氨基酸的测定 毛细管电泳法.pdf
JR-T 0242—2022 电子保单商用密码应用规范.pdf
GB-T 20204-2006 水利水文自动化系统设备检验测试通用技术规范.pdf
DB22-T 370-2014 建筑逃生缓降器设置技术规范 吉林省.pdf
GB-T 2812-2006 安全帽测试方法.pdf
GB-T 37988-2019 信息安全技术 数据安全能力成熟度模型.pdf
GB-T 17116.3-2018 管道支吊架 第3部分:中间连接件和建筑结构连接件.pdf
广西壮族自治区民用建筑节能条例.pdf
T-CHSA 004—2023 腮腺恶性肿瘤诊疗专家共识.pdf
GB-T 8566-2022系统与软件工程 软件生存周期过程.pdf
GB-T 11264-2012 热轧轻轨.pdf
商用密码应用安全性评估报告模板-中国密码学会密评联委会-202112.pdf
GB-T 32686-2016 光敏材料用多官能团丙烯酸酯单体中有机溶剂的测定 顶空进样毛细管气相色谱法.pdf
GB-T 29873-2013 能源计量数据公共平台数据传输协议.pdf
GB-T 41958-2022 浸胶帆布 导热性能试验方法.pdf
GB/T 40209-2021 制造装备集成信息模型通用建模规则.pdf
GB-T 16277-2021 道路施工与养护机械设备 沥青混凝土摊铺机.pdf
GB-T 10001.1-2012 公共信息图形符号 第1部分:通用符号.pdf
交流群
-->
1
/
14
评价文档
赞助2元 点击下载(563.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。