公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210065802.5 (22)申请日 2022.01.20 (71)申请人 杭州量知数据科技有限公司 地址 310000 浙江省杭州市萧 山区萧山经 济技术开发区明星路371号1幢6 01室 (72)发明人 宗畅 杨芷婷 王云飞 杨彦飞  (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 专利代理师 张解翠 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称 一种事件抽取方法、 装置、 设备及存 储介质 (57)摘要 本申请公开了一种事件抽取方法、 装置、 设 备及存储介质, 涉及自然语言智能处理技术领 域, 包括以下步骤: 获取目标领域的多个事件描 述句, 并定义事件标注的标签类别; 基于所述标 签类别对所述多个事件描述句分别进行标注, 并 利用多种粒度分割方法对所述多个事件描述句 进行特征划分; 对划分后的所述多个事件描述句 进行二次标注, 并将两次标注结果与多种划分结 果全部记 为训练样本集; 将所述训练样本集输入 预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行 训练, 得到事件抽取模型, 以进行事件抽取。 本方 案针对产业领域相关的资讯新闻, 结合多种粒度 分割方法和BERT ‑BiLSTM‑ATTN‑CRF模型在少量 标注样本的基础上, 保持事件抽取的识别率并提 高事件抽取中对象元 素和触发词的识别率。 权利要求书2页 说明书8页 附图3页 CN 114579695 A 2022.06.03 CN 114579695 A 1.一种事 件抽取方法, 其特 征在于, 包括以下步骤: 获取目标 领域的多个事 件描述句, 并定义事 件标注的标签 类别; 基于所述标签类别对所述多个事件描述句分别进行标注, 并利用多种粒度分割方法对 所述多个事 件描述句进行 特征划分; 对划分后的所述多个事件描述句进行二 次标注, 并将两次标注结果与多种划分结果全 部记为训练样本集; 将所述训练样本集输入预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行训练, 得到事件 抽取模型, 以进行事 件抽取。 2.根据权利要求1所述的一种 事件抽取方法, 其特征在于, 所述获取目标领域的多个事 件描述句, 并定义事 件标注的标签 类别, 包括: 采集产业领域的多个事 件描述句; 根据序列标注方法对所述多个事 件描述句进行分析, 提取 出事件标注的标签 类别。 3.根据权利要求1所述的一种 事件抽取方法, 其特征在于, 所述基于所述标签类别对所 述多个事件描述句分别进 行标注, 并利用多种粒度分割方法对所述多个事件描述句进 行特 征划分, 包括: 根据所述标签 类别为所述多个事 件描述句中的每 个单词标注一个标签; 按照字分割粒度、 词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别 进行特征划分。 4.根据权利要求3所述的一种事件抽取方法, 其特征在于, 所述按照字分割粒度、 词分 割粒度和依存句法分割粒度的顺序对所述多个事 件描述句分别进行 特征划分, 包括: 利用字向量训练网络抽取 出所述多个事 件描述句中字的特 征向量; 利用LTP工具对所述多个事 件描述句进行分词处 理, 并在相邻词间添加分割符; 根据依存句法分析和预先设定的分割条件对分词后的多个事件描述句进行事件分段 和定中短语分段。 5.根据权利要求4所述的一种 事件抽取方法, 其特征在于, 所述预先设定的分割条件包 括: 如果当前词与前一个词成定中关系, 则当前词与前一个词合 为一段作为定中短语; 如果当前词与句子中某一个词是主谓关系、 动宾关系、 间宾关系、 前置关系和介宾关 系, 且所述词并不属于任何一个事件段, 则所述词到当前词之间所有的词都属于同一个事 件段。 6.根据权利要求1所述的一种事件抽取方法, 其特征在于, 所述BERT ‑BILSTM‑ATTN‑CRF 模型使用Adam优化器训练模型参数, 并利用dropout方法进行模型训练。 7.一种事 件抽取装置, 其特 征在于, 包括: 采集模块, 用于获取目标 领域的多个事 件描述句, 并定义事 件标注的标签 类别; 处理模块, 用于基于所述标签类别对所述多个事件描述句分别进行标注, 并利用多种 粒度分割方法对所述多个事 件描述句进行 特征划分; 设置模块, 用于对划分后的所述多个事件描述句进行二次标注, 并将两次标注结果与 多种划分结果全部记为训练样本集; 训练模块, 用于将所述训练样本集输入预先构建的BERT ‑BILSTM‑ATTN‑CRF模型中进行权 利 要 求 书 1/2 页 2 CN 114579695 A 2训练, 得到事 件抽取模型, 以进行事 件抽取。 8.根据权利要求7 所述的一种事 件抽取装置, 其特 征在于, 所述采集模块, 包括: 获取单元, 用于采集产业领域的多个事 件描述句; 分析单元, 用于根据序列标注方法对所述多个事件描述句进行分析, 提取出事件标注 的标签类别。 9.根据权利要求7 所述的一种事 件抽取装置, 其特 征在于, 所述处 理模块, 包括: 标注单元, 用于根据所述标签类别为所述多个事件描述句中的每个单词标注一个标 签; 划分单元, 用于按照字分割粒度、 词分割粒度和依存句法分割粒度的顺序对所述多个 事件描述句分别进行 特征划分。 10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序使计 算机执行时实现如权利要求1~6中任一项所述的一种事 件抽取方法。权 利 要 求 书 2/2 页 3 CN 114579695 A 3

PDF文档 专利 一种事件抽取方法、装置、设备及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种事件抽取方法、装置、设备及存储介质 第 1 页 专利 一种事件抽取方法、装置、设备及存储介质 第 2 页 专利 一种事件抽取方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。