公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210919049.1 (22)申请日 2022.08.01 (71)申请人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 贾经冬 赵祥 黄坚  (74)专利代理 机构 北京科迪生专利代理有限责 任公司 1 1251 专利代理师 安丽 顾炜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称 一种基于伪token空间映射的文本表征方法 及系统 (57)摘要 本发明涉及一种基于伪token空间映射的文 本表征方法及系统, 包括: 利用预训练模型得到 文本的向量表征; 构建128维的伪token向量, 利 用嵌入矩阵将其转换为768维的映射空间; 利用 Self‑Attention模块, 将伪token映射空间作为 Query, 文本向量表征作为Key和Value映射转换 到token映射空间, 得到含有语义信息的映射向 量; 再次利用Self ‑Attention模块, 将映射向量 作为Key和Value, 文本向量表征作为Query, 得到 最终的向量表征; 在有监督和无监督任务中使用 不同损失函数优化模型。 本发明在不改变预训练 模型架构 且无需重新预训练的情况下, 让模型学 习到文本的高级语义特征, 提高模 型对于分类任 务, 尤其是特定场景如金融场景、 城市治理场景 下的分类准确率, 也提高模型在语义相似任务的 准确率。 权利要求书2页 说明书7页 附图2页 CN 115270813 A 2022.11.01 CN 115270813 A 1.一种基于伪token空间 映射的文本表征方法, 其特征在于, 用于文本分类和语义相似 任务, 包括以下步骤: 步骤1: 利用BERT预训练模型获取输入文本的向量表征; 步骤2: 初始化批次大小的伪to ken向量, 初始化伪空间嵌入矩阵, 构建映射空间; 首先初始化批次大小的伪token向量, 初始化全为[MASK]的无语义符号, 向量的维度 为 128维, 批次大小用N表 示; 然后初始化用于伪token向量做空间映射的嵌入矩阵E, 嵌入矩阵 E的维度为128*768; 最后将N个伪token向量与嵌入矩阵E相乘得到N*768维度的映射空间; 无语义的映射空间经过自注意力计算能够让预训练模型得到的向量表征更加平滑, 减缓由 于预训练模型内部词表分布不均匀带来的语义偏离; 步骤3: 将预训练模型生成的文本向量表征映射到映射空间中, 得到映射空间中的向量 表征; 在初始化模型的时候初始化构建一个Self ‑Attention模块, 将预训练模型生成的批 次大小为N, 维度为768的文本向量表征作为自注意力Self ‑Attention模块的用于做自注意 力匹配的向量Key和用于做自注意力匹配的向量的权重V alue, 将步骤2中得到的映射空间 作为Self‑Attention模块的用于自注意力做查询的向量Query, 经过Sel f‑Attention模块 的计算得到在映射空间中的N*768维的向量表征; 步骤4: 将映射空间中的向量表征进行回映, 得到最后的文本向量表征, 具体为: 在初始化模型的时候初始化构建另一个Self ‑Attention模块, 此模块与所述步骤3中 的Self‑Attention模块不共享参数, 将步骤3中得到的N*768维的向量表征作为此步骤中 Self‑Attention模块的Key和Value, 将预训练模型生成的文本向量表征作为Self ‑ Attention模块的Query, 经过Self ‑Attention模块的计算, 将映射空间中的向量表征进行 回映, 输出最后的文本向量表征; 步骤5: 利用最后的文本向量表征进行有监督学习中的文本分类任务, 以及无监督学习 中的文本语义相似任务, 通过梯度回传 优化模型, 最 终得到训练好的模型, 利用模型输出的 向量表征, 在文本分类任务上提高分类准确 率, 在文本语义相似任务上提高模型对文本高 级语义的获取, 提高在文本语义相似 任务上的准确率。 2.根据权利要求1所述的基于伪token空间映射的文本表征方法, 其特征在于, 所述步 骤1中, 利用预训练模型获取输入文本的向量表征, 具体为: 将所述输入文本按批次输入预训练模型 得到一个批次大小的向量矩阵; 将所述批次向量矩阵中每一个向量矩阵的第一个向量取出作为文本表征文本的向量 表征。 3.根据权利要求1所述的基于伪token空间映射的文本表征方法, 其特征在于: 步骤5: 利用最后的文本向量表征进行有监 督学习或者无监 督学习, 具体步骤为: 有监督学习时将标签对应 每一个向量表征, 利用交叉熵损失函数进行训练; 无监督学习时对一个批次中的向量表征利用无监督的对比学习损失函数InfoNCE (Info Noise‑Contrastive Estimati on信息噪声对比估计)进行训练。 4.一种基于伪to ken空间映射的文本表征系统, 其特 征在于, 包括: 获取模块, 用于获取参与训练的文本语句和文本语句对应的标签, 分别对所述文本语 句进行预处理, 得到处 理后的文本序列; 向量表征模块, 用于将一个批次的文本序列输入至预训练模型BERT进行编码, 得到批权 利 要 求 书 1/2 页 2 CN 115270813 A 2次中每个文本序列对应的高维768维特 征向量表征; 伪token构建模块, 用于构建和批次大小相同的伪token向量, 并将构建好的伪token向 量通过一个嵌入矩阵转换成一个高维768维映射空间; 伪空间映射模块, 用于将所述预训练模型生成的文本序列的向量表征通过自注意力模 块映射到所述伪token向量构建的高维映射空间, 通过另一个自注意力模块将所述高维映 射空间中的向量回映得到最终向量; 所述伪空间映射模块包括: 映射模块, 用于将所述预训练模型生成的文本序列的向量 表征通过自注 意力模块映射到所述伪token向量构建的高维映射空间, 将所述伪t oken向量 构建的高维向量作为自注意力模块的Query输入, 将所述预训练模型生成的文本序列的向 量表征作为自注意力模块的Key和V alue输入, 得到自注意力计算后的文本映射 向量; 回映 模块, 用于将所述文本映射向量和所述预训练模型生成的文本序列的向量表征通过另一个 自注意力模块回映输出一个带有 更高级语义特征信息的最终向量, 将所述预训练模型生成 的文本序列的向量表征作为 自注意力模块的Query输入, 将所述文本映射向量作为 自注意 力模块的K ey和Value输入, 得到自注意力计算后的最终向量表征; 损失函数模块, 用于构建损失函数, 在有监督文本分类任务中, 根据 所述最终向量和对 应分类标签构建交叉熵损失函数, 在无监督文本语义相似任务中, 根据所述最终向量构建 信息噪声对比估计I nfoNCE对比损失函数; 模型训练模块, 用于在文本分类任务和文本语义相似任务中, 通过所述损 失函数对深 度学习模型进行训练, 得到基于伪to ken空间映射的文本向量表征。权 利 要 求 书 2/2 页 3 CN 115270813 A 3

PDF文档 专利 一种基于伪token空间映射的文本表征方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于伪token空间映射的文本表征方法及系统 第 1 页 专利 一种基于伪token空间映射的文本表征方法及系统 第 2 页 专利 一种基于伪token空间映射的文本表征方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:21上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。