公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211027619.2 (22)申请日 2022.08.26 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 余正涛 严海宁 黄于欣 张亚飞 (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06N 3/08(2006.01) (54)发明名称 一种用于事 件检测的语义感知方法 (57)摘要 本发明涉及用于事件检测的语义 感知方法。 由于高频事件触发词往往主 导ED模型的预测, 且 ED模型不能很好地理解上下文信息, 导致在 某些 情况下无法识别事件类型, 本发 明能更加关注上 下文来改变事件触发器的主导地位。 提出的新颖 的语义表征, 以深入挖掘事件触发器和上下文之 间的潜在联系, 使ED模型更好地理解上下文信 息。 只需要在验证集上进行轻量级的训练, 就能 搭载在在任何训练好的模型上, 无需昂贵的再训 练和微调。 在公共ACE2005数据集上的大量实验 结果表明了该方法的有效性和可移植性。 本发明 优于之前 12个最先进的(SOTA)事件检测模型, 对 于F1值和F0.5值分别提升 了5.1%和2.2%。 权利要求书2页 说明书9页 附图2页 CN 115470772 A 2022.12.13 CN 115470772 A 1.一种用于事 件检测的语义感知方法, 其特 征在于: 所述方法具体如下: Step1: 准备数据 集, 对公共数据 集ACE2005数据进行预处理, 将处理好的数据 准备输入 到模型中; Step2: 将处 理好的数据输入基线模型DMBERT中, 获得触发词和预测的概 率分布; Step3: 将处理好的数据和已获得的触发词以及概率, 输入到语义感知插件SAP, 插件包 括: 语义表征模块和语义感知交 互层; Step4: 利用相似性度量, 决定最终的预测结果。 2.根据权利要求1的用于事件检测的语义感知方法, 其特征在于: 所述Step1的具体步 骤为: Step1.1: 通过下载网上公开数据集ACE2005, 该数据集包含599个文档, 其中训练集、 验 证集和测试集的文档数量分别为529、 30和40, 并定义了34种事件类型; 随后插入分隔符记 号到文本中, 用符号Sw表示; 最后将处 理好的数据准备输入到模型中。 3.根据权利要求1的用于事件检测的语义感知方法, 其特征在于: 所述Step2的具体步 骤为: Step2.1: 将处 理好的数据输入到基线模型DMBERT中, 先 经过BERT编码, 表示如下: {h1, ..., ht, ..., hm}=BERT{Sw} 其中{h1, ..., ht, ..., hm}是BERT编码的隐状态, ht表示触发词t的隐状态; Step2.2: 当给定序列 中有n个触发词, 上下文被划 分为n+1个部分, 利用最大池化层对 每个部分进行操作得到上 下文特征, 表示如下: c=[c1; ...; cn+1] 其中c是上下文特征, [; ]表示拼接操作, max( ·)表示最大池化层操作, jn, (n=1, 2, ..., n)表示触发词t所在的位置; Step2.3: 对上下文特征c经过线性变换和层归一化得到概率分布, 以及定义损失函数, 表示如下: 其中f(·)表示线性变换和层归一化操作, 表示预测的概率分布, pi, y真实标签的分 布, 是定义的损失函数。 4.根据权利要求1的用于事件检测的语义感知方法, 其特征在于: 所述Step3的具体步 骤为: Step3.1: 给定序列Sw中, 将触发词t对应位置替换为占位符[MASK], 得到: Smark=([CLS], w1, ..., [MASK], . .., wm, [SEP]) 其中Smark表示掩码后的文本;权 利 要 求 书 1/2 页 2 CN 115470772 A 2Step3.2: 掩码 文本Smark经过掩码语言模型, 来预测可能会出现在掩码位置的单词, 表示 如下: Hmask=BERT(Smask) pmask=softmax(f(Hmask)) 其中Hmask是掩码文本Smark的隐状态, f( ·)表示线性变换和层归一化操作, pmask表示预 测单词的概 率; Step3.3: 根据预测单词的概率选取得到Top ‑K1候选触发词 并对 Top‑K1候选触发词和经过基线模型DMBERT得到的触发词t进行编码得到语义特征和触发词 特征, 表示如下: Ki=LargestK(pmask, K1) 其中LargestK(pmask, K1)返回对应于预测单词概率pmask中最大的K1个元素的候选词, g (·)表示glove embedding将每个候选触发词转变成50维向量, 表示语义特征, 表示 触发词特 征; Step3.4: 将语义特 征 和触发词特 征 拼接后, 得到语义表征, 表示如下: 其中 表示语义表征, [; ]表示 拼接操作; Step3.5: 对基线模型对每个事件类型的预测概率进行排序, 最后选取Top ‑K2事件类型 及其预测概率 然后通过语义感知交互层SAInt, 语义信 息融入基线模 型DMBERT中, 来干预基线模 型的预测结果, 最 终得到插件的预测结果, 表示如 下: 其中 是可学习参数, 语义感知交 互层SAInt是由5层多层感知机组成。 5.根据权利要求1的用于事件检测的语义感知方法, 其特征在于: 所述Step4的具体步 骤为: Step4.1: 考虑到基线模型DMBERT的预测并非都错误, 所以使用相似性度 量来决定最终 的结果, 是采用基线模型的结果还是插 件的结果, 表示如下: 其中Eold是基线模型的预测结果, ESAInt是语义感知插件的预测结果, δ∈(0, 1)表示决定 采用哪个结果的相似度阈值, 是语义特 征, 是触发词特 征。权 利 要 求 书 2/2 页 3 CN 115470772 A 3
专利 一种用于事件检测的语义感知方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:01
上传分享
举报
下载
原文档
(934.5 KB)
分享
友情链接
GB-T 18175-2014 水处理剂缓蚀性能的测定 旋转挂片法.pdf
GB-T 29070-2012 无损检测 工业计算机层析成像 CT 检测 通用要求.pdf
GB-T 8566-2022系统与软件工程 软件生存周期过程.pdf
GB-T 34867.1-2017 电动机系统节能量测量和验证方法 第1部分:电动机现场能效测试方法.pdf
GB-T 28788-2012 公路地理信息数据采集与质量控制.pdf
T-GIEHA 050—2022 国际健康驿站 规划建设.pdf
GB-T 3620.1-2016 钛及钛合金牌号和化学成分.pdf
ISO TR 17987-5-2016.pdf
T-ZZB 1993—2020 电梯光幕.pdf
MZ-T 156-2020 低视力康复服务规范.pdf
T-GZAS 018—2022 数据要素安全可信流通技术标准.pdf
ISO 17825-2016.pdf
GB-T 19483-2016 无绳电话的电磁兼容性要求及测量方法.pdf
T-CIECCPA 008—2020 工业企业节能诊断报告编制规范.pdf
NY-T 2911-2016 测土配方施肥技术规程.pdf
SN-T 2952-2011 进出口煤炭检验规程.pdf
NY-T 536-2017 鸡伤寒和鸡白痢诊断技术.pdf
NB-T 10936-2022 电加热锅炉技术条件.pdf
GB-T 32923-2016 信息技术 安全技术 信息安全治理 .pdf
DB52-T 1041-2015 贵州省红粘土和高液限土路基设计与施工技术规范 贵州省.pdf
交流群
-->
1
/
14
评价文档
赞助2元 点击下载(934.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。