专利 一种基于句首语义的文本要素抽取方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210920308.2 (22)申请日 2022.08.05 (71)申请人上海欧冶金融信息服务股份有限公司地址 201900 上海市宝山区双城路80 3弄9 号3005室 (72)发明人陆宇峰　武宝杰　赵璇　季勇　黄国珉　叶超　 (74)专利代理机构北京卫智易创专利代理事务所(普通合伙) 16015 专利代理师朱春野 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/126(2020.01) G06F 40/205(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于句首语义的文本要素抽取方法及系统 (57)摘要本发明提供一种基于句首语义的文本要素抽取方法及系统，首先获取用于训练的合同文本，然后基于目标分割符对用于进行训练的合同文本进行篇章级文本切分，得到分割后的段落文本；再利用预训练模型对分割后的段落文本进行编码，并对编码后的段落文本进行池化；再然后对分割后的段落文本打标签，并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练，得到文本要素抽取模型；最后从待进行文本要素抽取的合同文本中，结构化抽取并输出篇章级段落文本要素信息。本申请可以解决篇章级文本抽取错误、遗漏的问题，可以让机器学习段落文本之间的关联，提高篇章级文本要素抽取模型的准确率，大大降低人工审核的时间，提高效率。权利要求书2页说明书7页附图3页 CN 115409021 A 2022.11.29 CN 115409021 A 1.一种基于句首语义的文本要素抽取方法，其特征在于，所述方法包括以下步骤：获取用于训练的合同文本，其中，用于训练的合同文本包括：待进行文本要素抽取的合同文本、普通合同文本；基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分，得到分割后的段落文本；利用预训练模型对分割后的段落文本进行编码，并对编码后的段落文本进行池化；对分割后的段落文本打标签，并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练，得到文本要素抽取模型；利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息，并输出抽取到的篇章级段落文本要素信息。 2.根据权利要求1所述的基于句首语义的文本要素抽取方法，其特征在于，利用预训练模型对分割后的段落文本进行编码的过程包括：判断分割后的段落文本是否超过预设字符数量；如果分割后的段落文本超过预设字符数量，则从分割后的段落文本找出第一个句号出现的位置，并以所述位置为界限对分割后的段落文本进行截断，利用预训练模型对截断后的段落文本进行编码；如果分割后的段落文本未超过预设字符数量，则利用预训练模型对分割后的段落文本进行编码。 3.根据权利要求1或2所述的基于句首语义的文本要素抽取方法，其特征在于，所述预训练模型包括ber t模型，所述ber t模型基于语义理解的深度双向预训练Transformer得到。 4.根据权利要求1或2所述的基于句首语义的文本要素抽取方法，其特征在于，基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括：将换行符作为所述目标分割符；利用所述换行符对所述合同文本进行篇章级文本切分，得到分割后的段落文本。 5.根据权利要求1或2所述的基于句首语义的文本要素抽取方法，其特征在于，所述待进行文本要素抽取的合同文本包括授信贷款审批意见书。 6.根据权利要求2所述的基于句首语义的文本要素抽取方法，其特征在于，预设字符数量为510个字符。 7.一种基于句首语义的文本要素抽取系统，其特征在于，所述系统包括有：训练文本模块，用于获取进行训练的合同文本，其中，用于训练的合同文本包括：待进行文本要素抽取的合同文本、普通合同文本；文本切分模块，用于根据目标分割符对所述合同文本进行篇章级文本切分，得到分割后的段落文本；编码模块，用于利用预训练模型对分割后的段落文本进行编码；池化模块，用于对编码后的段落文本进行池化；模型训练模块，用于对分割后的段落文本打标签，并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练，得到文本要素抽取模型；文本要素抽取模块，用于利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息，并输出抽取到的篇章级段落文本要素信息。权　利　要　求　书 1/2 页 2 CN 115409021 A 28.根据权利要求7所述的基于句首语义的文本要素抽取系统，其特征在于，所述编码模块利用预训练模型对分割后的段落文本进行编码的过程包括：判断分割后的段落文本是否超过预设字符数量；如果分割后的段落文本超过预设字符数量，则从分割后的段落文本找出第一个句号出现的位置，并以所述位置为界限对分割后的段落文本进行截断，利用预训练模型对截断后的段落文本进行编码；如果分割后的段落文本未超过预设字符数量，则利用预训练模型对分割后的段落文本进行编码。 9.根据权利要求7或8所述的基于句首语义的文本要素抽取系统，其特征在于，所述预训练模型包括ber t模型，所述ber t模型基于语义理解的深度双向预训练Transformer得到。 10.根据权利要求7或8所述的基于句首语义的文本要素抽取系统，其特征在于，基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括：将换行符作为所述目标分割符；利用所述换行符对所述合同文本进行篇章级文本切分，得到分割后的段落文本。权　利　要　求　书 2/2 页 3 CN 115409021 A 3

专利 一种基于句首语义的文本要素抽取方法及系统

专利一种基于句首语义的文本要素抽取方法及系统