(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210984741.2
(22)申请日 2022.08.17
(71)申请人 崔家铭
地址 200080 上海市虹口区曲阳路街道 松
花江路2500号复旦大学南区学生 公寓
4期4号楼604室
(72)发明人 崔家铭
(74)专利代理 机构 北京济思达知识产权代理事
务所(普通 合伙) 16114
专利代理师 刘浩
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于上下文记忆的长文本阅读理解方法
(57)摘要
本发明提出一种基于上下文记忆的长文本
阅读理解方法。 本发明的主要 技术方案包括: (1)
使用滑动窗口的方式, 将滑动窗口的窗口大小和
移动步长均设置为句子的数量, 以句子为单位将
文档进行分割。 按照文档分段与问题的相关度,
对文档分段进行筛选, 缩减候选分段的数量, 降
低模型的计算复杂度。 (2)将筛选后的分段向量
表示输入到双向GRU模型中进行交互融合, 再将
双向GRU模型输出的结果整合起来作为全局内
存。 使用注 意力机制合并来自当前分段以及全局
内存的信息, 丰富 当前分段的语义表示。 (3)使用
BERT模型抽取分段中的答案区间, 并选 出概率最
高的区间最 为最终答案 。
权利要求书2页 说明书8页 附图5页
CN 115293171 A
2022.11.04
CN 115293171 A
1.一种基于上 下文记忆的长文本阅读理解方法, 其特 征在于, 所述方法包括:
S1、 使用滑动窗口将长文本划分为若干个分段, 利用编码器对问题和分段进行编码;
S2、 通过编码计算问题与分段之间的相 关度, 选出与问题语义相 关程度较高的TopK个
分段;
S3、 将TopK个分段与问题输入阅读理解模型, 阅读理解模型从TopK个分段抽取上下文
信息, 将上 下文信息融入分段的词向量中, 并从融合上 下文信息的分段中抽取答案 。
2.根据权利要求1所述的方法, 其特征在于, 所述步骤S1中, 使用BERT1模型对分段进行
编码, 具体包括以下步骤:
S11、 以句子为单位, 使用滑动窗口将长文本划分为若干个分段, 分割之后的文档D表示
为{Doc1,Doc2,…,Dock}, 其中, k为分割后的文档分段数量, Doci表示分割后的文档分段, i
∈[1,k];
S12、 将每 个文档分段Doci分别与问题Q进行拼接以获得文本序列:
{[CLS],q1,…,qm,[SEP],doci1,…,docin,[SEP]}
其中, [CLS]用于指示序列的开始, 第一个[SEP]用于分隔问题Q和文档分段Segi, 第二个
[SEP]用于指示序列的结束。 q表示问题Q中的字符, m表示问题Q的字符总 数, doci为文档分
段Doci中的字符, n表示文档分段Doci的字符总数;
S13、 将文本序列输入BERT1模型, 输出BERT1中多层双向Transformer网络的最后一层
作为文本序列的编码。
3.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S2包括:
将TCLS作为融合了问题和分段信息的语义表示Rt;
将Rt输入相关度评测网络, 对文档分段与问题之间的相关度进行打 分, 计算公式如下:
Rt=TCLS
scorei=softmax(WsRt+bs)
其中, Ws, bs分别为相关度评测网络(由全连接网络实现)的权重参数和偏置参数,
scorei代表文档分段Doci与问题Q的相关程度;
按照相关度对文档分段排序, 选出相关度排名前K的文档分段记为{Seg1,Seg2,…,
SegK}。
4.根据权利要求1所述的方法, 其特征在于, 用交叉熵计算相关度的损 失, 通过反向传
播算法调整BERT1和相关度计算网络的参数, 损失函数为:
其中, yi表示筛选结果中是否包 含答案, 包 含答案时yi=1, 否则yi=0。
5.根据权利要求1所述的方法, 其特征在于, 步骤S3所述的阅读理解模型的训练方法包
括:
S31、 将文档分段{Seg1,Seg2,…,SegK}与问题Q拼接后输入BERT2, 获得输入的编码
其中文档分段的语义向量表示为TCLS, 分段Segi的语
义向量记为TCLS,i;
S32、 从文档分段的编码中选择语义向量, 输入到双向GRU网络中进行交互融合, 获得上权 利 要 求 书 1/2 页
2
CN 115293171 A
2下文信息的向量表示;
S33、 将文档分段的编码和上下文信 息的向量表示输入注意力机制, 获得融入上下文信
息的文档表示;
S34、 从融入上下文信息的文档表示中预测每个位置作为答案起始位置或者终止位置
的概率, 获得预测的答案;
S35、 计算预测的答案的损失, 利用反向传播 算法对阅读理解模型进行参数调整。
6.根据权利要求5所述的方法, 其特 征在于, 所述 步骤S32中,
将文档分段Segi的语义向量表示表示记作Mi;
将文档分段的语义向量表示Mi输入到双向GRU网络, 拼接 前向GRU和后向GRU的输 出得到
融合了文档分段的上 下文信息 M′i;
将双向GRU全部 输出结果整合 起来作为上 下文信息的向量表示M:
M=[M′1; M′2;…; M′N]
7.根据权利要求6所述的方法, 其特征在于, 所述步骤S33中, 使用注意力机制合并文档
分段Segi的编码和上下文信 息M, 将整合后的信 息通过残差连接和归一化后输入到BERT3模
型中, 得到最终的文档表示Hi:
8.根据权利要求7所述的方法, 其特征在于, 所述步骤S34中, 预测每个位置作为答案起
始位置或者终止位置的概 率的公式为:
其中,
和
分别表示
作为答案的起始位置和终止位置的概率值, Wstart和
Wend为权重参数。
9.根据权利要求8所述的方法, 其特 征在于, 损失的计算公式为:
权 利 要 求 书 2/2 页
3
CN 115293171 A
3
专利 基于上下文记忆的长文本阅读理解方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:09上传分享