专利 基于上下文记忆的长文本阅读理解方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210984741.2 (22)申请日 2022.08.17 (71)申请人崔家铭地址 200080 上海市虹口区曲阳路街道松花江路2500号复旦大学南区学生公寓 4期4号楼604室 (72)发明人崔家铭　 (74)专利代理机构北京济思达知识产权代理事务所(普通合伙) 16114 专利代理师刘浩 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于上下文记忆的长文本阅读理解方法 (57)摘要本发明提出一种基于上下文记忆的长文本阅读理解方法。本发明的主要技术方案包括： (1) 使用滑动窗口的方式，将滑动窗口的窗口大小和移动步长均设置为句子的数量，以句子为单位将文档进行分割。按照文档分段与问题的相关度，对文档分段进行筛选，缩减候选分段的数量，降低模型的计算复杂度。 (2)将筛选后的分段向量表示输入到双向GRU模型中进行交互融合，再将双向GRU模型输出的结果整合起来作为全局内存。使用注意力机制合并来自当前分段以及全局内存的信息，丰富当前分段的语义表示。 (3)使用 BERT模型抽取分段中的答案区间，并选出概率最高的区间最为最终答案。权利要求书2页说明书8页附图5页 CN 115293171 A 2022.11.04 CN 115293171 A 1.一种基于上下文记忆的长文本阅读理解方法，其特征在于，所述方法包括： S1、使用滑动窗口将长文本划分为若干个分段，利用编码器对问题和分段进行编码； S2、通过编码计算问题与分段之间的相关度，选出与问题语义相关程度较高的TopK个分段； S3、将TopK个分段与问题输入阅读理解模型，阅读理解模型从TopK个分段抽取上下文信息，将上下文信息融入分段的词向量中，并从融合上下文信息的分段中抽取答案。 2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，使用BERT1模型对分段进行编码，具体包括以下步骤： S11、以句子为单位，使用滑动窗口将长文本划分为若干个分段，分割之后的文档D表示为{Doc1,Doc2,…,Dock}，其中， k为分割后的文档分段数量， Doci表示分割后的文档分段， i ∈[1,k]； S12、将每个文档分段Doci分别与问题Q进行拼接以获得文本序列： {[CLS],q1,…,qm,[SEP],doci1,…,docin,[SEP]} 其中， [CLS]用于指示序列的开始，第一个[SEP]用于分隔问题Q和文档分段Segi，第二个 [SEP]用于指示序列的结束。 q表示问题Q中的字符， m表示问题Q的字符总数， doci为文档分段Doci中的字符， n表示文档分段Doci的字符总数； S13、将文本序列输入BERT1模型，输出BERT1中多层双向Transformer网络的最后一层作为文本序列的编码。 3.根据权利要求1所述的方法，其特征在于，所述步骤S2包括：将TCLS作为融合了问题和分段信息的语义表示Rt；将Rt输入相关度评测网络，对文档分段与问题之间的相关度进行打分，计算公式如下： Rt＝TCLS scorei＝softmax(WsRt+bs) 其中， Ws， bs分别为相关度评测网络(由全连接网络实现)的权重参数和偏置参数， scorei代表文档分段Doci与问题Q的相关程度；按照相关度对文档分段排序，选出相关度排名前K的文档分段记为{Seg1,Seg2,…, SegK}。 4.根据权利要求1所述的方法，其特征在于，用交叉熵计算相关度的损失，通过反向传播算法调整BERT1和相关度计算网络的参数，损失函数为：其中， yi表示筛选结果中是否包含答案，包含答案时yi＝1，否则yi＝0。 5.根据权利要求1所述的方法，其特征在于，步骤S3所述的阅读理解模型的训练方法包括： S31、将文档分段{Seg1,Seg2,…,SegK}与问题Q拼接后输入BERT2，获得输入的编码其中文档分段的语义向量表示为TCLS，分段Segi的语义向量记为TCLS,i； S32、从文档分段的编码中选择语义向量，输入到双向GRU网络中进行交互融合，获得上权　利　要　求　书 1/2 页 2 CN 115293171 A 2下文信息的向量表示； S33、将文档分段的编码和上下文信息的向量表示输入注意力机制，获得融入上下文信息的文档表示； S34、从融入上下文信息的文档表示中预测每个位置作为答案起始位置或者终止位置的概率，获得预测的答案； S35、计算预测的答案的损失，利用反向传播算法对阅读理解模型进行参数调整。 6.根据权利要求5所述的方法，其特征在于，所述步骤S32中，将文档分段Segi的语义向量表示表示记作Mi；将文档分段的语义向量表示Mi输入到双向GRU网络，拼接前向GRU和后向GRU的输出得到融合了文档分段的上下文信息 M′i；将双向GRU全部输出结果整合起来作为上下文信息的向量表示M： M＝[M′1； M′2；…； M′N] 7.根据权利要求6所述的方法，其特征在于，所述步骤S33中，使用注意力机制合并文档分段Segi的编码和上下文信息M，将整合后的信息通过残差连接和归一化后输入到BERT3模型中，得到最终的文档表示Hi： 8.根据权利要求7所述的方法，其特征在于，所述步骤S34中，预测每个位置作为答案起始位置或者终止位置的概率的公式为：其中，和分别表示作为答案的起始位置和终止位置的概率值， Wstart和 Wend为权重参数。 9.根据权利要求8所述的方法，其特征在于，损失的计算公式为：权　利　要　求　书 2/2 页 3 CN 115293171 A 3

专利 基于上下文记忆的长文本阅读理解方法

专利基于上下文记忆的长文本阅读理解方法