公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210919049.1 (22)申请日 2022.08.01 (71)申请人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 贾经冬 赵祥 黄坚 (74)专利代理 机构 北京科迪生专利代理有限责 任公司 1 1251 专利代理师 安丽 顾炜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称 一种基于伪token空间映射的文本表征方法 及系统 (57)摘要 本发明涉及一种基于伪token空间映射的文 本表征方法及系统, 包括: 利用预训练模型得到 文本的向量表征; 构建128维的伪token向量, 利 用嵌入矩阵将其转换为768维的映射空间; 利用 Self‑Attention模块, 将伪token映射空间作为 Query, 文本向量表征作为Key和Value映射转换 到token映射空间, 得到含有语义信息的映射向 量; 再次利用Self ‑Attention模块, 将映射向量 作为Key和Value, 文本向量表征作为Query, 得到 最终的向量表征; 在有监督和无监督任务中使用 不同损失函数优化模型。 本发明在不改变预训练 模型架构 且无需重新预训练的情况下, 让模型学 习到文本的高级语义特征, 提高模 型对于分类任 务, 尤其是特定场景如金融场景、 城市治理场景 下的分类准确率, 也提高模型在语义相似任务的 准确率。 权利要求书2页 说明书7页 附图2页 CN 115270813 A 2022.11.01 CN 115270813 A 1.一种基于伪token空间 映射的文本表征方法, 其特征在于, 用于文本分类和语义相似 任务, 包括以下步骤: 步骤1: 利用BERT预训练模型获取输入文本的向量表征; 步骤2: 初始化批次大小的伪to ken向量, 初始化伪空间嵌入矩阵, 构建映射空间; 首先初始化批次大小的伪token向量, 初始化全为[MASK]的无语义符号, 向量的维度 为 128维, 批次大小用N表 示; 然后初始化用于伪token向量做空间映射的嵌入矩阵E, 嵌入矩阵 E的维度为128*768; 最后将N个伪token向量与嵌入矩阵E相乘得到N*768维度的映射空间; 无语义的映射空间经过自注意力计算能够让预训练模型得到的向量表征更加平滑, 减缓由 于预训练模型内部词表分布不均匀带来的语义偏离; 步骤3: 将预训练模型生成的文本向量表征映射到映射空间中, 得到映射空间中的向量 表征; 在初始化模型的时候初始化构建一个Self ‑Attention模块, 将预训练模型生成的批 次大小为N, 维度为768的文本向量表征作为自注意力Self ‑Attention模块的用于做自注意 力匹配的向量Key和用于做自注意力匹配的向量的权重V alue, 将步骤2中得到的映射空间 作为Self‑Attention模块的用于自注意力做查询的向量Query, 经过Sel f‑Attention模块 的计算得到在映射空间中的N*768维的向量表征; 步骤4: 将映射空间中的向量表征进行回映, 得到最后的文本向量表征, 具体为: 在初始化模型的时候初始化构建另一个Self ‑Attention模块, 此模块与所述步骤3中 的Self‑Attention模块不共享参数, 将步骤3中得到的N*768维的向量表征作为此步骤中 Self‑Attention模块的Key和Value, 将预训练模型生成的文本向量表征作为Self ‑ Attention模块的Query, 经过Self ‑Attention模块的计算, 将映射空间中的向量表征进行 回映, 输出最后的文本向量表征; 步骤5: 利用最后的文本向量表征进行有监督学习中的文本分类任务, 以及无监督学习 中的文本语义相似任务, 通过梯度回传 优化模型, 最 终得到训练好的模型, 利用模型输出的 向量表征, 在文本分类任务上提高分类准确 率, 在文本语义相似任务上提高模型对文本高 级语义的获取, 提高在文本语义相似 任务上的准确率。 2.根据权利要求1所述的基于伪token空间映射的文本表征方法, 其特征在于, 所述步 骤1中, 利用预训练模型获取输入文本的向量表征, 具体为: 将所述输入文本按批次输入预训练模型 得到一个批次大小的向量矩阵; 将所述批次向量矩阵中每一个向量矩阵的第一个向量取出作为文本表征文本的向量 表征。 3.根据权利要求1所述的基于伪token空间映射的文本表征方法, 其特征在于: 步骤5: 利用最后的文本向量表征进行有监 督学习或者无监 督学习, 具体步骤为: 有监督学习时将标签对应 每一个向量表征, 利用交叉熵损失函数进行训练; 无监督学习时对一个批次中的向量表征利用无监督的对比学习损失函数InfoNCE (Info Noise‑Contrastive Estimati on信息噪声对比估计)进行训练。 4.一种基于伪to ken空间映射的文本表征系统, 其特 征在于, 包括: 获取模块, 用于获取参与训练的文本语句和文本语句对应的标签, 分别对所述文本语 句进行预处理, 得到处 理后的文本序列; 向量表征模块, 用于将一个批次的文本序列输入至预训练模型BERT进行编码, 得到批权 利 要 求 书 1/2 页 2 CN 115270813 A 2次中每个文本序列对应的高维768维特 征向量表征; 伪token构建模块, 用于构建和批次大小相同的伪token向量, 并将构建好的伪token向 量通过一个嵌入矩阵转换成一个高维768维映射空间; 伪空间映射模块, 用于将所述预训练模型生成的文本序列的向量表征通过自注意力模 块映射到所述伪token向量构建的高维映射空间, 通过另一个自注意力模块将所述高维映 射空间中的向量回映得到最终向量; 所述伪空间映射模块包括: 映射模块, 用于将所述预训练模型生成的文本序列的向量 表征通过自注 意力模块映射到所述伪token向量构建的高维映射空间, 将所述伪t oken向量 构建的高维向量作为自注意力模块的Query输入, 将所述预训练模型生成的文本序列的向 量表征作为自注意力模块的Key和V alue输入, 得到自注意力计算后的文本映射 向量; 回映 模块, 用于将所述文本映射向量和所述预训练模型生成的文本序列的向量表征通过另一个 自注意力模块回映输出一个带有 更高级语义特征信息的最终向量, 将所述预训练模型生成 的文本序列的向量表征作为 自注意力模块的Query输入, 将所述文本映射向量作为 自注意 力模块的K ey和Value输入, 得到自注意力计算后的最终向量表征; 损失函数模块, 用于构建损失函数, 在有监督文本分类任务中, 根据 所述最终向量和对 应分类标签构建交叉熵损失函数, 在无监督文本语义相似任务中, 根据所述最终向量构建 信息噪声对比估计I nfoNCE对比损失函数; 模型训练模块, 用于在文本分类任务和文本语义相似任务中, 通过所述损 失函数对深 度学习模型进行训练, 得到基于伪to ken空间映射的文本向量表征。权 利 要 求 书 2/2 页 3 CN 115270813 A 3
专利 一种基于伪token空间映射的文本表征方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:21
上传分享
举报
下载
原文档
(496.9 KB)
分享
友情链接
NB-T 10561-2021 风力发电机叶片检修规范.pdf
GW0014-2017 国家电子政务工程项目 应用软件第三方测试规范.pdf
QC-T 265-2023 汽车零部件编号规则.pdf
GB-T 18175-2014 水处理剂缓蚀性能的测定 旋转挂片法.pdf
T-ZAWS 002—2023 弧焊设备 物联控制终端 模组 技术要求.pdf
GB-T 10085-2018 圆柱蜗杆传动基本参数.pdf
GB 9706.204-2022 医用电气设备 第2-4部分:心脏除颤器的基本安全和基本性能专用要求.pdf
GB-T 26607-2011 工业用邻苯基苯酚.pdf
WS-T 640-2018 临床微生物学检验样本的采集和转运.pdf
JR-T0171-2020 个人金融信息保护技术规范.pdf
GB-T 42864-2023 液化天然气的取样设施及取样性能检验.pdf
GB-T 35397-2017 科技人才元数据元素集.pdf
GB-T 42860-2023 运载火箭运输通用要求.pdf
GB-T 29529-2013 泵的噪声测量与评价方法.pdf
GB-T 37988-2019 信息安全技术 数据安全能力成熟度模型.pdf
DB32-T 4448-2023 信息系统运行维护体系建设指南 江苏省.pdf
渗透测试战技101.pdf
DB14-T 2984—2024 电子政务外网 接入规范 山西省.pdf
GB-T 42508-2023 投资项目风险评估指南.pdf
GB-Z 28828-2012 信息安全技术 公共及商用服务信息系统个人信息保护指南.pdf
交流群
-->
1
/
12
评价文档
赞助2元 点击下载(496.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。