专利 一种基于标签语义学习和注意力调整机制的文本分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210877997.3 (22)申请日 2022.07.25 (71)申请人中国人民解放军军事科学院军事科学信息研究中心地址 100000 北京市海淀区阜成路26号 (72)发明人薛非　李晓松　高强　赵彦飞　刘奇林　 (74)专利代理机构湖北高韬律师事务所 42 240 专利代理师张承接 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称一种基于标签语义学习和注意力调整机制的文本分类方法 (57)摘要本发明公开了一种基于标签语义学习和注意力调整机制的文本分类方法，所述文本分类方法主要包括以下步骤：对文本数据进行预处理，提取文本语义特征，文本标签图嵌入，使用多头调节注意机制来衡量词与标签之间的语义关系，然后多语义整合融合和网络训练，由此可实现多标签文本分类，对模型进行训练，然后使用训练后的模型预测一段文本的类别。本发明提出一种多头调整注意的混合BERT模型用于多标签文本分类框架，可以有效地从文本内容中提取有用的特征，并建立标签和单词之间的语义联系，获得特定于标签的单词表示，由此提高多标签文本分类性能。权利要求书3页说明书9页附图2页 CN 115221325 A 2022.10.21 CN 115221325 A 1.一种基于标签语义学习和注意力调整机制的文本分类方法，所述文本为多标签文本，其特征在于，所述文本分类方法包括以下步骤： 1)数据进行预处理，使用WordPiece分词器对文本进行分词并将所有字符小写,同时将每个文本表示为若干个to kens；对标签所有字符小写； 2)提取文本语义特征，对多标签文本数据分别进行编码得到相应的特征表示，对于数据中的文本，使用单词嵌入模块，将原始单词嵌入到低维向量中，可以得到文本语义特征；使用预训练的BERT模型计算每个单词的上下文感知表示，为不同上下文中的单词生成不同的嵌入词； BERT接受序列形式的输入，并输出序列的表示形式，得到最终文本的语义特征表示； 3)文本标签图嵌入，对每个文本对应的标签，利用标签图来反映标签结构，将每个标签视为一个节点，每个节点收集所有邻居的特征以形成其表示，每条边反映了节点之间的语义相关性，如果标签共存，就有一条边，最终得到一个低维的潜在空间中表示标签图； 4)使用多头注意力调节机制来衡量词与标签之间的语义关系，获得特定于标签的单词表示，并对文档中重要的细粒度语义信息进行加权； 5)多语义整合融合和网络训练，使用双向长短期记忆网络(Bi ‑LSTM)作为文档编码器，结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编码器进行分类，开始训练整个模型，实现多标签文本分类。 2.根据权利要求1所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述数据预处理的步骤具体为：对给定的文本内容进行单词嵌入，将一句话分成若干个单词，并将单词拆分为子词，把词的本身的意思和前缀、后缀分开，使得最终的词表变得精简，得到包含k个单词的输入文档，记为[w1,w2,…,wi,…,wk],其中wi指文本中的第i个单词。 3.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述提取文本语义特征的步骤具体为：设d是一个包含k个单词的输入文本，记为[w1,w2,...,wi,...,wk],其中wi指文本中的第 i个单词，将文本d输入到BERT中，得到每个输入单词的上下文表示H＝[h1,h1,...,hk]。 4.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述标签图嵌入的步骤具体为：定义标签图为g＝(V,E)，其节点vi代表标签λi，边(vi,vj)∈E， A∈RC×C为节点之间的邻接矩阵， Dii＝ΣjAij为节点的度，邻接矩阵表示任意两个节点之间的非负权值，通过数据驱动的方式建立这个邻接矩阵；首先，利用样本在训练集中的标签注释，计算所有标签对的出现次数，得到矩阵C∈RC×C，通过使用这个标签共生矩阵，根据如下公式得到邻接矩阵A： A＝A+I权　利　要　求　书 1/3 页 2 CN 115221325 A 2其中Cij表示标签 λi和 λj的同时出现， I是单位矩阵，表示每个节点都与它自己相连；还构造了一个词 ‑标签邻接矩阵B，方法如下： B＝B+I 其中Bij为wi与 λj的关系； B的Cij表示样品中wi和 λj的共现，标签嵌入由标签共存图确定，并捕获由图结构定义的标签语义信息；通过图神经网络传播信息，学习上下文标签嵌入，聚合所有邻近节点的值来更新当前节点；每个卷积层只处理一阶邻域信息；在低维潜在空间中表示标签，使图中两个相邻的标签具有相似的表示；对于每个节点vi∈V，用一个one ‑hot向量初始化，标签嵌入可以表示为: 是标准化对称邻接矩阵,Θ∈RC×C是一个可训练的权重,N(i)表示邻居节点个数, ρ 是 ReLU激活函数， k设为2，实现标签嵌入集E＝[e1,e2,…,ec]。 5.根据权利要求1 ‑4任一所述的一种基于标签语义学习和注意力调整机制的文本分类方法，其特征在于，所述多头注意力调整机制具体为：将单词空间投射到标签空间中，使用一个全连接层φ来重新编码字表示，其公式为:： H*＝φ(H) H*∈RK×C,采用注意力操作计算目标词t与每个标签之间的注意得分，即计算和E之间的点积，其公式为: 使用softmax函数对It进行正则化，其公式为： at＝softmax(It) 所述调节注意分为两个阶段；第一阶段的任务是判断单词和标签之间的相关性，采用了sigmoid函数进行判断；如果相关性得分小于阈值 τ，则认为该单词与这些标签无关；在第二阶段，用上述的softmax计算注意得分，使概率分布正常化；操作如下式所示： at＝sigmoid(It) 然后，利用调整注意量对单词t的标签嵌入量进行加权平均，其公式为: 权　利　要　求　书 2/3 页 3 CN 115221325 A 3

专利 一种基于标签语义学习和注意力调整机制的文本分类方法

专利一种基于标签语义学习和注意力调整机制的文本分类方法