专利 一种面向桥梁检测文本的少样本机器阅读理解方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211035572.4 (22)申请日 2022.08.26 (71)申请人重庆交通大学地址 400074 重庆市南岸区学府大道6 6号 (72)发明人李韧　肖桥　杨建喜　张露伊　蒋仕新　王笛　刘新龙　张廷萍　 (74)专利代理机构重庆博凯知识产权代理有限公司 50212 专利代理师黄河 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称一种面向桥梁检测文本的少样本机器阅读理解方法 (57)摘要本发明涉及桥梁文本信息检索技术领域，具体涉及一种面向桥梁检测文本的少样本机器阅读理解方法。本方法中，即使获取到的样本数据并不多，但每一个样本，既可以通过问题分类模型及答案预测模型构建模拟预测数据，同时也可以通过人工标注的方式得到实际训练数据，每一个样本数据均可以得到充分的使用。与现有技术相比，本方法对收集到的文本数据进行了充分的开发使用，通过模拟训练数据及待标注的文本数据，可以让答案抽取模型在预训练Pre ‑Training 后，得到预微调Pre ‑Tuning和微调 Fine‑Tuning 两次训练，与使用预训练+微调的现有训练方式相比，在只能收集到相同数据的文本数据时，同样可以大幅度提升答案抽取模型的训练效果。权利要求书2页说明书8页附图1页 CN 115392255 A 2022.11.25 CN 115392255 A 1.一种面向桥梁检测文本的少样本机器阅读理解方法，其特征在于，包括以下步骤： S1、收集预设数量的带标注的文本数据，以及预设数量的不带标注的文本数据；所述标注包括人工设置的问题及答案； S2、将未标注的文本数据输入问题分类模型得到预测的问题类型，并将该未标注的文本数据及预测的问题类型构建为用于答案预测的伪数据； S3、将用于答案预测的伪数据输入答案预测模型，得到预测的答案； S4、根据未标注的文本数据、对应的预测的问题类型以及预测的答案，构建伪问答对数据，所述伪问答对数据的内容包括该未标注的文本数据、预测的答案以及对应的问题； S5、使用伪问答对数据对通过预训练的答案抽取模型进行预微调； S6、使用带标注的文本数据对通过预微调的答案抽取模型进行微调； S7、使用完成微调的答案抽取模型，进行桥梁检测文本的信息抽取。 2.如权利要求1所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于： S2 中，所述问题分类模型为第一基础模型用带标注的文本数据训练得到；所述第一基础模型的底层模型为中文预训练语言模型MacBERT。 3.如权利要求2所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：所述第一基础模型的训练流程包括： hi＝wMacBERT(si)； pi＝wMacBERTpo oler(hi)； ci＝softmax(l inear(pi))； op＝argmax(ci)； loss＝CrossEntropyLoss(op,og)；其中， si代表一段包含答案的文本， wMacBERT表示MacBERT的编码块，表示经过 MacBERT编码后得到的隐藏层词向量； wMacBRRTpooler表示MacBERTpooler的编码块， MacBERTpooler用于将词向量转化为句向量，表示si的句向量；将编码得到的句向量输入到线性层中，并进行归一化后处理，得到每个问题类别的概率使用argmax (·)函数得到各类别概率最大的标记位置，其对应的问题类别即为该句子中包含的答案所对应的问题类别； loss为训练的损失值，通过交叉熵损失函数计算所得，使用反向传播算法逐步降低损失值的数值大小，达到训练效果。 4.如权利要求3所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于： S3 中，所述答案预测模型为第二基础模型用带标注的文本数据训练得到；所述第二基础模型的底层模型为中文预训练语言模型MacBERT。 5.如权利要求4所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：所述第二基础模型的训练过程包括： hi＝wMacBERT(op,s′i)； p＝softmax(l inear(hi))； loss＝CrossEntropyLoss(Startg,p[0])+Cros sEntropyLoss(Endg,p[1])；其中， wMacBERT表示MacB ERT的编码块，表示经过MacB ERT编码后得到的隐藏层词向量；将编码得到的隐藏层向量输入到线性层中，并进行归一化后处理，得到答案开始位权　利　要　求　书 1/2 页 2 CN 115392255 A 2置与结束位置概率 p[0]表示所有位置中属于答案开始位置的概率， p [1]表示所有位置中属于答案结束位置的概率， Startg表示真实答案的开始位置， Endg表示真实答案的结束位置； loss表示第二基础模型训练时的损失值，通过交叉熵损失函数计算所得，使用反向传播算法更新参数逐步减低损失值的数值大小，达到训练效果。 6.如权利要求5所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于： S4 中，伪问答对数据中答案的生成过程包括： Startp＝argmax(p[0])； Endp＝argmax(p[1])； Answer＝s ′i[Startp:Endp]；其中， Answer 表示伪问答对中的答案。 7.如权利要求6所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于： S1 中，还根据桥梁检测的文本数据的内容，对抽取信息对应的问题类型进行汇总分析，得到问题后缀标记表；问题后缀标记表中包括各种问题类型的后缀标记。 8.如权利要求7所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于： S4 中，伪问答对数据中问题的生成过程包括：将问题分类模型预测得到的问题类型的后缀标记pi，与无标记文本中答案片段之前的一个文本片段span ′i进行拼接，得到对应的问题qi＝ span′i+pi。 9.如权利要求8所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于： S1 中，所述问题类型的后缀标记包括是什么？、是多少？、维修建议？、位于哪里？、的原因？、问题？、以及无明显后缀。 10.如权利要求9所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：所述答案预测模型的底层模型为中文预训练语言模型MacBERT。权　利　要　求　书 2/2 页 3 CN 115392255 A 3

专利 一种面向桥梁检测文本的少样本机器阅读理解方法

专利一种面向桥梁检测文本的少样本机器阅读理解方法