公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210920308.2 (22)申请日 2022.08.05 (71)申请人 上海欧冶金融信息服 务股份有限公 司 地址 201900 上海市宝山区双城路80 3弄9 号3005室 (72)发明人 陆宇峰 武宝杰 赵璇 季勇  黄国珉 叶超  (74)专利代理 机构 北京卫智易创专利代理事务 所(普通合伙) 16015 专利代理师 朱春野 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/126(2020.01) G06F 40/205(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于句首语义的文本要素抽取方法及 系统 (57)摘要 本发明提供一种基于句首语义的文本要素 抽取方法及系统, 首先获取用于训练的合同文 本, 然后基于目标分割符对用于进行训练的合同 文本进行篇章级文本切分, 得到分割后的段落文 本; 再利用预训练模型对分割后的段落文本进行 编码, 并对编码后的段落文本进行池化; 再然后 对分割后的段落文本打标签, 并将段落文本标 签、 池化后的段落文本输入至长短期记忆网络和 条件随机场中进行训练, 得到文本要素抽取模 型; 最后从待进行文本要素抽取的合同文本中, 结构化抽取并输出篇章级 段落文本要素信息。 本 申请可以解决篇章级文本抽取错误、 遗漏的问 题, 可以让机器学习段落文本之间的关联, 提高 篇章级文本要素抽取模型的准确率, 大大降低人 工审核的时间, 提高效率。 权利要求书2页 说明书7页 附图3页 CN 115409021 A 2022.11.29 CN 115409021 A 1.一种基于句首语义的文本要素抽取 方法, 其特 征在于, 所述方法包括以下步骤: 获取用于训练的合同文本, 其中, 用于训练的合同文本包括: 待进行文本要素抽取的合 同文本、 普通 合同文本; 基于预先确定的目标分割符对用于进行训练 的合同文本进行篇章级文本切分, 得到分 割后的段落文本; 利用预训练模型对分割后的段落文本进行编码, 并对编码后的段落文本进行池化; 对分割后的段落文本打标签, 并将段落文本标签、 池化后的段落文本输入至长短期记 忆网络和条件随机场中进行训练, 得到文本要素抽取模型; 利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级 段落文本要素信息, 并输出抽取到的篇 章级段落文本要素信息 。 2.根据权利要求1所述的基于句首语义的文本要素抽取方法, 其特征在于, 利用预训练 模型对分割后的段落文本进行编码的过程包括: 判断分割后的段落文本是否超过 预设字符数量; 如果分割后的段落文本超过预设字符数量, 则从分割后的段落文本找出第 一个句号出 现的位置, 并以所述位置为界限对分割后的段落文本进行截断, 利用预训练模型对截断后 的段落文本进行编码; 如果分割后的段落文本未超过预设字符数量, 则利用预训练模型对分割后的段落文本 进行编码。 3.根据权利要求1或2所述的基于句首语义的文本要素抽取方法, 其特征在于, 所述预 训练模型包括ber t模型, 所述ber t模型基于语义理解的深度双向预训练Transformer得到 。 4.根据权利要求1或2所述的基于句首语义的文本要素抽取方法, 其特征在于, 基于预 先确定的目标分割符对用于进行训练的合同文本进行篇 章级文本切分的过程包括: 将换行符作为所述目标分割符; 利用所述换 行符对所述 合同文本进行篇 章级文本切分, 得到分割后的段落文本 。 5.根据权利要求1或2所述的基于句首语义的文本要素抽取方法, 其特征在于, 所述待 进行文本要素抽取的合同文本包括授信贷款审批意见书。 6.根据权利要求2所述的基于句首语义的文本要素抽取方法, 其特征在于, 预设字符数 量为510个字符。 7.一种基于句首语义的文本要素抽取系统, 其特 征在于, 所述系统包括有: 训练文本模块, 用于获取进行训练的合同文本, 其中, 用于训练的合同文本包括: 待进 行文本要素抽取的合同文本、 普通 合同文本; 文本切分模块, 用于根据目标分割符对所述合同文本进行篇章级文本切分, 得到分割 后的段落文本; 编码模块, 用于利用预训练模型对分割后的段落文本进行编码; 池化模块, 用于对编码后的段落文本进行池化; 模型训练模块, 用于对分割后的段落文本打标签, 并将段落文本标签、 池化后的段落文 本输入至长短期记 忆网络和条件随机场中进行训练, 得到文本要素抽取模型; 文本要素抽取模块, 用于利用所述文本要素抽取模型从待进行文本要素抽取的合同文 本中结构化抽取篇 章级段落文本要素信息, 并输出抽取到的篇 章级段落文本要素信息 。权 利 要 求 书 1/2 页 2 CN 115409021 A 28.根据权利要求7所述的基于句首语义的文本要素抽取系统, 其特征在于, 所述编码模 块利用预训练模型对分割后的段落文本进行编码的过程包括: 判断分割后的段落文本是否超过 预设字符数量; 如果分割后的段落文本超过预设字符数量, 则从分割后的段落文本找出第 一个句号出 现的位置, 并以所述位置为界限对分割后的段落文本进行截断, 利用预训练模型对截断后 的段落文本进行编码; 如果分割后的段落文本未超过预设字符数量, 则利用预训练模型对分割后的段落文本 进行编码。 9.根据权利要求7或8所述的基于句首语义的文本要素抽取系统, 其特征在于, 所述预 训练模型包括ber t模型, 所述ber t模型基于语义理解的深度双向预训练Transformer得到 。 10.根据权利要求7或8所述的基于句首语义的文本要素抽取系统, 其特征在于, 基于预 先确定的目标分割符对用于进行训练的合同文本进行篇 章级文本切分的过程包括: 将换行符作为所述目标分割符; 利用所述换 行符对所述 合同文本进行篇 章级文本切分, 得到分割后的段落文本 。权 利 要 求 书 2/2 页 3 CN 115409021 A 3

PDF文档 专利 一种基于句首语义的文本要素抽取方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于句首语义的文本要素抽取方法及系统 第 1 页 专利 一种基于句首语义的文本要素抽取方法及系统 第 2 页 专利 一种基于句首语义的文本要素抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:17上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。