专利 一种基于伪token空间映射的文本表征方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210919049.1 (22)申请日 2022.08.01 (71)申请人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人贾经冬　赵祥　黄坚　 (74)专利代理机构北京科迪生专利代理有限责任公司 1 1251 专利代理师安丽　顾炜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称一种基于伪token空间映射的文本表征方法及系统 (57)摘要本发明涉及一种基于伪token空间映射的文本表征方法及系统，包括：利用预训练模型得到文本的向量表征；构建128维的伪token向量，利用嵌入矩阵将其转换为768维的映射空间；利用 Self‑Attention模块，将伪token映射空间作为 Query，文本向量表征作为Key和Value映射转换到token映射空间，得到含有语义信息的映射向量；再次利用Self ‑Attention模块，将映射向量作为Key和Value，文本向量表征作为Query，得到最终的向量表征；在有监督和无监督任务中使用不同损失函数优化模型。本发明在不改变预训练模型架构且无需重新预训练的情况下，让模型学习到文本的高级语义特征，提高模型对于分类任务，尤其是特定场景如金融场景、城市治理场景下的分类准确率，也提高模型在语义相似任务的准确率。权利要求书2页说明书7页附图2页 CN 115270813 A 2022.11.01 CN 115270813 A 1.一种基于伪token空间映射的文本表征方法，其特征在于，用于文本分类和语义相似任务，包括以下步骤：步骤1：利用BERT预训练模型获取输入文本的向量表征；步骤2：初始化批次大小的伪to ken向量，初始化伪空间嵌入矩阵，构建映射空间；首先初始化批次大小的伪token向量，初始化全为[MASK]的无语义符号，向量的维度为 128维，批次大小用N表示；然后初始化用于伪token向量做空间映射的嵌入矩阵E，嵌入矩阵 E的维度为128*768；最后将N个伪token向量与嵌入矩阵E相乘得到N*768维度的映射空间；无语义的映射空间经过自注意力计算能够让预训练模型得到的向量表征更加平滑，减缓由于预训练模型内部词表分布不均匀带来的语义偏离；步骤3：将预训练模型生成的文本向量表征映射到映射空间中，得到映射空间中的向量表征；在初始化模型的时候初始化构建一个Self ‑Attention模块，将预训练模型生成的批次大小为N，维度为768的文本向量表征作为自注意力Self ‑Attention模块的用于做自注意力匹配的向量Key和用于做自注意力匹配的向量的权重V alue，将步骤2中得到的映射空间作为Self‑Attention模块的用于自注意力做查询的向量Query，经过Sel f‑Attention模块的计算得到在映射空间中的N*768维的向量表征；步骤4：将映射空间中的向量表征进行回映，得到最后的文本向量表征，具体为：在初始化模型的时候初始化构建另一个Self ‑Attention模块，此模块与所述步骤3中的Self‑Attention模块不共享参数，将步骤3中得到的N*768维的向量表征作为此步骤中 Self‑Attention模块的Key和Value，将预训练模型生成的文本向量表征作为Self ‑ Attention模块的Query，经过Self ‑Attention模块的计算，将映射空间中的向量表征进行回映，输出最后的文本向量表征；步骤5：利用最后的文本向量表征进行有监督学习中的文本分类任务，以及无监督学习中的文本语义相似任务，通过梯度回传优化模型，最终得到训练好的模型，利用模型输出的向量表征，在文本分类任务上提高分类准确率，在文本语义相似任务上提高模型对文本高级语义的获取，提高在文本语义相似任务上的准确率。 2.根据权利要求1所述的基于伪token空间映射的文本表征方法，其特征在于，所述步骤1中，利用预训练模型获取输入文本的向量表征，具体为：将所述输入文本按批次输入预训练模型得到一个批次大小的向量矩阵；将所述批次向量矩阵中每一个向量矩阵的第一个向量取出作为文本表征文本的向量表征。 3.根据权利要求1所述的基于伪token空间映射的文本表征方法，其特征在于：步骤5：利用最后的文本向量表征进行有监督学习或者无监督学习，具体步骤为：有监督学习时将标签对应每一个向量表征，利用交叉熵损失函数进行训练；无监督学习时对一个批次中的向量表征利用无监督的对比学习损失函数InfoNCE (Info Noise‑Contrastive Estimati on信息噪声对比估计)进行训练。 4.一种基于伪to ken空间映射的文本表征系统，其特征在于，包括：获取模块，用于获取参与训练的文本语句和文本语句对应的标签，分别对所述文本语句进行预处理，得到处理后的文本序列；向量表征模块，用于将一个批次的文本序列输入至预训练模型BERT进行编码，得到批权　利　要　求　书 1/2 页 2 CN 115270813 A 2次中每个文本序列对应的高维768维特征向量表征；伪token构建模块，用于构建和批次大小相同的伪token向量，并将构建好的伪token向量通过一个嵌入矩阵转换成一个高维768维映射空间；伪空间映射模块，用于将所述预训练模型生成的文本序列的向量表征通过自注意力模块映射到所述伪token向量构建的高维映射空间，通过另一个自注意力模块将所述高维映射空间中的向量回映得到最终向量；所述伪空间映射模块包括：映射模块，用于将所述预训练模型生成的文本序列的向量表征通过自注意力模块映射到所述伪token向量构建的高维映射空间，将所述伪t oken向量构建的高维向量作为自注意力模块的Query输入，将所述预训练模型生成的文本序列的向量表征作为自注意力模块的Key和V alue输入，得到自注意力计算后的文本映射向量；回映模块，用于将所述文本映射向量和所述预训练模型生成的文本序列的向量表征通过另一个自注意力模块回映输出一个带有更高级语义特征信息的最终向量，将所述预训练模型生成的文本序列的向量表征作为自注意力模块的Query输入，将所述文本映射向量作为自注意力模块的K ey和Value输入，得到自注意力计算后的最终向量表征；损失函数模块，用于构建损失函数，在有监督文本分类任务中，根据所述最终向量和对应分类标签构建交叉熵损失函数，在无监督文本语义相似任务中，根据所述最终向量构建信息噪声对比估计I nfoNCE对比损失函数；模型训练模块，用于在文本分类任务和文本语义相似任务中，通过所述损失函数对深度学习模型进行训练，得到基于伪to ken空间映射的文本向量表征。权　利　要　求　书 2/2 页 3 CN 115270813 A 3

专利 一种基于伪token空间映射的文本表征方法及系统

专利一种基于伪token空间映射的文本表征方法及系统