(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210877997.3
(22)申请日 2022.07.25
(71)申请人 中国人民解 放军军事科学院军事科
学信息研究中心
地址 100000 北京市海淀区阜成路26号
(72)发明人 薛非 李晓松 高强 赵彦飞
刘奇林
(74)专利代理 机构 湖北高韬律师事务所 42 240
专利代理师 张承接
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于标签语义学习和注意力调整机制
的文本分类方法
(57)摘要
本发明公开了一种基于标签语义学习和注
意力调整机制的文本分类方法, 所述文本分类方
法主要包括以下步骤: 对文本数据进行预处理,
提取文本语义特征, 文本标签图嵌入, 使用多头
调节注意机制来衡量词与标签 之间的语义关系,
然后多语义整合融合和网络训练, 由此可实现多
标签文本分类, 对模型进行训练, 然后使用训练
后的模型预测一段文本的类别。 本发 明提出一种
多头调整注意的混合BERT模型用于多标签文本
分类框架, 可以有效地从文本内容中提取有用的
特征, 并建立标签和单词之间的语义联系, 获得
特定于标签的单词表示, 由此提高多标签文本分
类性能。
权利要求书3页 说明书9页 附图2页
CN 115221325 A
2022.10.21
CN 115221325 A
1.一种基于标签语义学习和注意力调整机制的文本分类方法, 所述文本为多标签文
本, 其特征在于, 所述文本分类方法包括以下步骤:
1)数据进行预处理, 使用WordPiece分词器对文本进行分词并将所有字符小写,同时将
每个文本表示 为若干个to kens; 对标签所有字符小 写;
2)提取文本语义特征, 对多标签文本数据分别进行编码得到相应的特征表示, 对于数
据中的文本, 使用单词嵌入模块, 将原始单词嵌入到低 维向量中, 可以得到文本语义特征;
使用预训练的BERT模 型计算每个单词的上下文感知表 示, 为不同上下文中的单词生 成不同
的嵌入词; BERT接受序列形式的输入, 并输出序列的表 示形式, 得到最 终文本的语义特征表
示;
3)文本标签图嵌入, 对每个文本对应的标签, 利用标签图来反映标签结构, 将每个标签
视为一个节点, 每个节点收集所有邻居的特征以形成其表示, 每条边反 映了节点之间的语
义相关性, 如果标签共 存, 就有一条边, 最终得到一个低维的潜在空间中表示标签图;
4)使用多头注意力调节机制来衡量词与 标签之间的语义关系, 获得特定于标签的单词
表示, 并对文档中重要的细粒度语义信息进行加权;
5)多语义整合 融合和网络训练, 使用双向长短期记忆网络(Bi ‑LSTM)作为文档编码器,
结合上下文感知特征和标签特殊词汇特征的混合表示被送入文档编 码器进行分类, 开始训
练整个模型, 实现多标签文本分类。
2.根据权利要求1所述的一种基于标签语义学习和注意力调整机制的文本分类方法,
其特征在于, 所述数据预处 理的步骤具体为:
对给定的文本内容进行单词嵌入, 将一句话分成若干个单词, 并将单词拆分为子词, 把
词的本身的意思和前缀、 后缀分开, 使得最终的词表变得精简, 得到包含k个单词的输入文
档, 记为[w1,w2,…,wi,…,wk],其中wi指文本中的第i个单词。
3.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方
法, 其特征在于, 所述 提取文本语义特 征的步骤具体为:
设d是一个包含k个单词的输入文本, 记为[w1,w2,...,wi,...,wk],其中wi指文本中的第
i个单词, 将文本d输入到BERT中, 得到每 个输入单词的上 下文表示H=[h1,h1,...,hk]。
4.根据权利要求1或2所述的一种基于标签语义学习和注意力调整机制的文本分类方
法, 其特征在于, 所述标签图嵌入的步骤具体为:
定义标签图为g=(V,E), 其节点vi代表标签λi, 边(vi,vj)∈E, A∈RC×C为节点之间的邻
接矩阵, Dii=ΣjAij为节点的度, 邻接矩阵
表示任意两个节点之间的非负权值,
通过数据驱动的方式建立这个邻接矩阵; 首先, 利用样本在训练集中的标签注释, 计算所有
标签对的出现次数, 得到矩阵C∈RC×C, 通过使用这个标签共生矩阵, 根据如下公式得到邻接
矩阵A:
A=A+I权 利 要 求 书 1/3 页
2
CN 115221325 A
2其中Cij表示标签 λi和 λj的同时出现, I是单位矩阵, 表示每个节点都与它自己相连; 还构
造了一个词 ‑标签邻接矩阵B, 方法如下:
B=B+I
其中Bij为wi与 λj的关系; B的Cij表示样品中wi和 λj的共现, 标签嵌入由标签共存图确定,
并捕获由图结构定义的标签 语义信息;
通过图神经网络传播信息, 学习上下文标签嵌入, 聚合所有邻近节点的值来更新当前
节点; 每个卷积层只处理一阶邻域信息; 在低维潜在空间中表示标签, 使图中两个相 邻的标
签具有相似的表示; 对于每个节点vi∈V, 用一个one ‑hot向量
初始化, 标签嵌入可
以表示为:
是标准化对称邻接矩阵,Θ∈RC×C是一个可训练的权重,N(i)表示邻居节点个数, ρ 是
ReLU激活函数, k设为2, 实现标签嵌入集E=[e1,e2,…,ec]。
5.根据权利要求1 ‑4任一所述的一种基于标签语义学习和注意力调 整机制的文本分类
方法, 其特 征在于, 所述多头注意力调整机制具体为:
将单词空间投射到标签空间中, 使用一个全连接层φ来重新编码字表示, 其公式为::
H*=φ(H)
H*∈RK×C,采用注意力操作计 算目标词t与每个标签之间的注意得 分, 即计算
和E之间
的点积, 其公式为:
使用softmax函数对It进行正则化, 其公式为:
at=softmax(It)
所述调节注意分为两个阶段; 第一阶段的任务是判断单词和标签之间的相关性, 采用
了sigmoid函数进行判断; 如果相关性得分小于阈值 τ, 则认为该 单词与这些 标签无关;
在第二阶段, 用上述的softmax计算注意得分, 使概 率分布正常化; 操作如下式所示:
at=sigmoid(It)
然后, 利用调整注意 量对单词t的标签嵌入量进行加权平均, 其公式为:
权 利 要 求 书 2/3 页
3
CN 115221325 A
3
专利 一种基于标签语义学习和注意力调整机制的文本分类方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:29上传分享