公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210877997.3 (22)申请日 2022.07.25 (71)申请人 中国人民解 放军军事科学院军事科 学信息研究中心 地址 100000 北京市海淀区阜成路26号 (72)发明人 薛非 李晓松 高强 赵彦飞  刘奇林  (74)专利代理 机构 湖北高韬律师事务所 42 240 专利代理师 张承接 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种基于标签语义学习和注意力调整机制 的文本分类方法 (57)摘要 本发明公开了一种基于标签语义学习和注 意力调整机制的文本分类方法, 所述文本分类方 法主要包括以下步骤: 对文本数据进行预处理, 提取文本语义特征, 文本标签图嵌入, 使用多头 调节注意机制来衡量词与标签 之间的语义关系, 然后多语义整合融合和网络训练, 由此可实现多 标签文本分类, 对模型进行训练, 然后使用训练 后的模型预测一段文本的类别。 本发 明提出一种 多头调整注意的混合BERT模型用于多标签文本 分类框架, 可以有效地从文本内容中提取有用的 特征, 并建立标签和单词之间的语义联系, 获得 特定于标签的单词表示, 由此提高多标签文本分 类性能。 权利要求书3页 说明书9页 附图2页 CN 115221325 A 2022.10.21 CN 115221325 A 1.一种基于标签语义学习和注意力调整机制的文本分类方法, 所述文本为多标签文 本, 其特征在于, 所述文本分类方法包括以下步骤: 1)数据进行预处理, 使用WordPiece分词器对文本进行分词并将所有字符小写,同时将 每个文本表示 为若干个to kens; 对标签所有字符小 写; 2)提取文本语义特征, 对多标签文本数据分别进行编码得到相应的特征表示, 对于数 据中的文本, 使用单词嵌入模块, 将原始单词嵌入到低 维向量中, 可以得到文本语义特征; 使用预训练的BERT模 型计算每个单词的上下文感知表 示, 为不同上下文中的单词生 成不同 的嵌入词; BERT接受序列形式的输入, 并输出序列的表 示形式, 得到最 终文本的语义特征表 示; 3)文本标签图嵌入, 对每个文本对应的标签, 利用标签图来反映标签结构, 将每个标签 视为一个节点, 每个节点收集所有邻居的特征以形成其表示, 每条边反 映了节点之间的语 义相关性, 如果标签共 存, 就有一条边, 最终得到一个低维的潜在空间中表示标签图; 4)使用多头注意力调节机制来衡量词与 标签之间的语义关系, 获得特定于标签的单词 表示, 并对文档中重要的细粒度语义信息进行加权; 5)多语义整合 融合和网络训练, 使用双向长短期记忆网络(Bi ‑LSTM)作为文档编码器, 结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编 码器进行分类, 开始训 练整个模型, 实现多标签文本分类。 2.根据权利要求1所述的一种基于标签语义学习和注意力调整机制的文本分类方法, 其特征在于, 所述数据预处 理的步骤具体为: 对给定的文本内容进行单词嵌入, 将一句话分成若干个单词, 并将单词拆分为子词, 把 词的本身的意思和前缀、 后缀分开, 使得最终的词表变得精简, 得到包含k个单词的输入文 档, 记为[w1,w2,…,wi,…,wk],其中wi指文本中的第i个单词。 3.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方 法, 其特征在于, 所述 提取文本语义特 征的步骤具体为: 设d是一个包含k个单词的输入文本, 记为[w1,w2,...,wi,...,wk],其中wi指文本中的第 i个单词, 将文本d输入到BERT中, 得到每 个输入单词的上 下文表示H=[h1,h1,...,hk]。 4.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方 法, 其特征在于, 所述标签图嵌入的步骤具体为: 定义标签图为g=(V,E), 其节点vi代表标签λi, 边(vi,vj)∈E, A∈RC×C为节点之间的邻 接矩阵, Dii=ΣjAij为节点的度, 邻接矩阵 表示任意两个节点之间的非负权值, 通过数据驱动的方式建立这个邻接矩阵; 首先, 利用样本在训练集中的标签注释, 计算所有 标签对的出现次数, 得到矩阵C∈RC×C, 通过使用这个标签共生矩阵, 根据如下公式得到邻接 矩阵A: A=A+I权 利 要 求 书 1/3 页 2 CN 115221325 A 2其中Cij表示标签 λi和 λj的同时出现, I是单位矩阵, 表示每个节点都与它自己相连; 还构 造了一个词 ‑标签邻接矩阵B, 方法如下: B=B+I 其中Bij为wi与 λj的关系; B的Cij表示样品中wi和 λj的共现, 标签嵌入由标签共存图确定, 并捕获由图结构定义的标签 语义信息; 通过图神经网络传播信息, 学习上下文标签嵌入, 聚合所有邻近节点的值来更新当前 节点; 每个卷积层只处理一阶邻域信息; 在低维潜在空间中表示标签, 使图中两个相 邻的标 签具有相似的表示; 对于每个节点vi∈V, 用一个one ‑hot向量 初始化, 标签嵌入可 以表示为: 是标准化对称邻接矩阵,Θ∈RC×C是一个可训练的权重,N(i)表示邻居节点个数, ρ 是 ReLU激活函数, k设为2, 实现标签嵌入集E=[e1,e2,…,ec]。 5.根据权利要求1 ‑4任一所述的一种基于标签语义学习和注意力调 整机制的文本分类 方法, 其特 征在于, 所述多头注意力调整机制具体为: 将单词空间投射到标签空间中, 使用一个全连接层φ来重新编码字表示, 其公式为:: H*=φ(H) H*∈RK×C,采用注意力操作计 算目标词t与每个标签之间的注意得 分, 即计算 和E之间 的点积, 其公式为: 使用softmax函数对It进行正则化, 其公式为: at=softmax(It) 所述调节注意分为两个阶段; 第一阶段的任务是判断单词和标签之间的相关性, 采用 了sigmoid函数进行判断; 如果相关性得分小于阈值 τ, 则认为该 单词与这些 标签无关; 在第二阶段, 用上述的softmax计算注意得分, 使概 率分布正常化; 操作如下式所示: at=sigmoid(It) 然后, 利用调整注意 量对单词t的标签嵌入量进行加权平均, 其公式为: 权 利 要 求 书 2/3 页 3 CN 115221325 A 3

PDF文档 专利 一种基于标签语义学习和注意力调整机制的文本分类方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于标签语义学习和注意力调整机制的文本分类方法 第 1 页 专利 一种基于标签语义学习和注意力调整机制的文本分类方法 第 2 页 专利 一种基于标签语义学习和注意力调整机制的文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。