公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210920308.2 (22)申请日 2022.08.05 (71)申请人 上海欧冶金融信息服 务股份有限公 司 地址 201900 上海市宝山区双城路80 3弄9 号3005室 (72)发明人 陆宇峰 武宝杰 赵璇 季勇 黄国珉 叶超 (74)专利代理 机构 北京卫智易创专利代理事务 所(普通合伙) 16015 专利代理师 朱春野 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/126(2020.01) G06F 40/205(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于句首语义的文本要素抽取方法及 系统 (57)摘要 本发明提供一种基于句首语义的文本要素 抽取方法及系统, 首先获取用于训练的合同文 本, 然后基于目标分割符对用于进行训练的合同 文本进行篇章级文本切分, 得到分割后的段落文 本; 再利用预训练模型对分割后的段落文本进行 编码, 并对编码后的段落文本进行池化; 再然后 对分割后的段落文本打标签, 并将段落文本标 签、 池化后的段落文本输入至长短期记忆网络和 条件随机场中进行训练, 得到文本要素抽取模 型; 最后从待进行文本要素抽取的合同文本中, 结构化抽取并输出篇章级 段落文本要素信息。 本 申请可以解决篇章级文本抽取错误、 遗漏的问 题, 可以让机器学习段落文本之间的关联, 提高 篇章级文本要素抽取模型的准确率, 大大降低人 工审核的时间, 提高效率。 权利要求书2页 说明书7页 附图3页 CN 115409021 A 2022.11.29 CN 115409021 A 1.一种基于句首语义的文本要素抽取 方法, 其特 征在于, 所述方法包括以下步骤: 获取用于训练的合同文本, 其中, 用于训练的合同文本包括: 待进行文本要素抽取的合 同文本、 普通 合同文本; 基于预先确定的目标分割符对用于进行训练 的合同文本进行篇章级文本切分, 得到分 割后的段落文本; 利用预训练模型对分割后的段落文本进行编码, 并对编码后的段落文本进行池化; 对分割后的段落文本打标签, 并将段落文本标签、 池化后的段落文本输入至长短期记 忆网络和条件随机场中进行训练, 得到文本要素抽取模型; 利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级 段落文本要素信息, 并输出抽取到的篇 章级段落文本要素信息 。 2.根据权利要求1所述的基于句首语义的文本要素抽取方法, 其特征在于, 利用预训练 模型对分割后的段落文本进行编码的过程包括: 判断分割后的段落文本是否超过 预设字符数量; 如果分割后的段落文本超过预设字符数量, 则从分割后的段落文本找出第 一个句号出 现的位置, 并以所述位置为界限对分割后的段落文本进行截断, 利用预训练模型对截断后 的段落文本进行编码; 如果分割后的段落文本未超过预设字符数量, 则利用预训练模型对分割后的段落文本 进行编码。 3.根据权利要求1或2所述的基于句首语义的文本要素抽取方法, 其特征在于, 所述预 训练模型包括ber t模型, 所述ber t模型基于语义理解的深度双向预训练Transformer得到 。 4.根据权利要求1或2所述的基于句首语义的文本要素抽取方法, 其特征在于, 基于预 先确定的目标分割符对用于进行训练的合同文本进行篇 章级文本切分的过程包括: 将换行符作为所述目标分割符; 利用所述换 行符对所述 合同文本进行篇 章级文本切分, 得到分割后的段落文本 。 5.根据权利要求1或2所述的基于句首语义的文本要素抽取方法, 其特征在于, 所述待 进行文本要素抽取的合同文本包括授信贷款审批意见书。 6.根据权利要求2所述的基于句首语义的文本要素抽取方法, 其特征在于, 预设字符数 量为510个字符。 7.一种基于句首语义的文本要素抽取系统, 其特 征在于, 所述系统包括有: 训练文本模块, 用于获取进行训练的合同文本, 其中, 用于训练的合同文本包括: 待进 行文本要素抽取的合同文本、 普通 合同文本; 文本切分模块, 用于根据目标分割符对所述合同文本进行篇章级文本切分, 得到分割 后的段落文本; 编码模块, 用于利用预训练模型对分割后的段落文本进行编码; 池化模块, 用于对编码后的段落文本进行池化; 模型训练模块, 用于对分割后的段落文本打标签, 并将段落文本标签、 池化后的段落文 本输入至长短期记 忆网络和条件随机场中进行训练, 得到文本要素抽取模型; 文本要素抽取模块, 用于利用所述文本要素抽取模型从待进行文本要素抽取的合同文 本中结构化抽取篇 章级段落文本要素信息, 并输出抽取到的篇 章级段落文本要素信息 。权 利 要 求 书 1/2 页 2 CN 115409021 A 28.根据权利要求7所述的基于句首语义的文本要素抽取系统, 其特征在于, 所述编码模 块利用预训练模型对分割后的段落文本进行编码的过程包括: 判断分割后的段落文本是否超过 预设字符数量; 如果分割后的段落文本超过预设字符数量, 则从分割后的段落文本找出第 一个句号出 现的位置, 并以所述位置为界限对分割后的段落文本进行截断, 利用预训练模型对截断后 的段落文本进行编码; 如果分割后的段落文本未超过预设字符数量, 则利用预训练模型对分割后的段落文本 进行编码。 9.根据权利要求7或8所述的基于句首语义的文本要素抽取系统, 其特征在于, 所述预 训练模型包括ber t模型, 所述ber t模型基于语义理解的深度双向预训练Transformer得到 。 10.根据权利要求7或8所述的基于句首语义的文本要素抽取系统, 其特征在于, 基于预 先确定的目标分割符对用于进行训练的合同文本进行篇 章级文本切分的过程包括: 将换行符作为所述目标分割符; 利用所述换 行符对所述 合同文本进行篇 章级文本切分, 得到分割后的段落文本 。权 利 要 求 书 2/2 页 3 CN 115409021 A 3
专利 一种基于句首语义的文本要素抽取方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:17
上传分享
举报
下载
原文档
(559.6 KB)
分享
友情链接
GB-T 23021-2022 信息化和工业化融合管理体系 生产设备管理能力成熟度评价.pdf
GB 15083-2019 汽车座椅、座椅固定装置及头枕强度要求和试验方法.pdf
GB-T 38635.1-2020 信息安全技术 SM9标识密码算法 第1部分:总则.pdf
DB13-T 5387-2021 水库库容曲线修测及特征值复核 修正技术导则 河北省.pdf
LY-T 3159-2019 细木工板生产节能技术规范.pdf
GB-T 29832.3-2013 系统与软件可靠性 第3部分:测试方法.pdf
GB-T 34942-2017 信息安全技术 云计算服务安全能力评估方法.pdf
GM-T 0044.1-2016 SM9标识密码算法 第1部分:总则.pdf
DB42-T 2040.1-2023 大球盖菇生产技术系列规程 第1部分:桑枝大球盖菇 湖北省.pdf
GB-T 15852.1-2020 信息技术 安全技术 消息鉴别码 第1部分:采用分组密码的机制.pdf
GB-T 17901.1-2020 信息技术 安全技术 密钥管理 第1部分:框架.pdf
GB-T 20486-2017 江河流域面雨量等级.pdf
思度安全-DSMM-003人员安全管理规范V1.0.pdf
GB-T 39399-2020 北斗卫星导航系统测量型接收机通用规范.pdf
GB-T 37114-2018 公共汽电车线网设置和调整规则.pdf
GB-T 7092-2021 半导体集成电路外形尺寸.pdf
GB-T 39329-2020 增材制造 测试方法 标准测试件精度检验.pdf
GB-T 30976.1-2014 信息安全技术 工业控制系统信息安全 第1部分:评估规范.pdf
T-SZZL 008—2021 仓栅式运输车.pdf
T-SDL 3.1—2021 10kV智能电缆系统技术规范 第1部分 导则.pdf
交流群
-->
1
/
13
评价文档
赞助2元 点击下载(559.6 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。