(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210059578.9
(22)申请日 2022.01.19
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 杜潇 王洁
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
代理人 沈波
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/126(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
基于层次注意力机制的歌词情感分类方法
(57)摘要
本发明公开了基于层次注意力机制的歌词
情感分类方法, 使用层次注意力机制提取歌词段
落间的结构特征, 以关注歌词不同段落之间语义
的差异。 在层次注意力机制的基础上融入歌词的
情感强度特征, 以捕捉歌词不同段落之间情感强
度的变化。 本发 明使用层次注 意力机制对歌词进
行层次化的信息提取, 设计了基于词级别的注意
力机制和基于段落的注意力机制, 提取歌词不同
段落的结构和语义特征, 更好的关注到段落之间
语义的差异, 改善了现有的歌词情感分类方法没
有考虑到歌词结构特征的缺陷, 为情感强度高的
词语和段落赋 予了更高的关注度, 使模型关注到
段落间情感 强度的变化, 提升情感分类的效果。
权利要求书4页 说明书7页 附图4页
CN 114416993 A
2022.04.29
CN 114416993 A
1.基于层次注意力机制的歌词情感分类方法, 其特 征在于: 包括以下步骤:
步骤一: 数据集的建立; 中文歌曲领域缺乏公开数据集, 通过网络爬虫技术在音乐网站
爬取歌词, 构建中文歌词的数据集; 按照VA情感模型进 行情感极性标注, 通过音乐网站的歌
单标签作为情感极性标注的依据;
步骤二: 歌词编码; 将数据集中的歌词进行分段, 对段落中的词语进行词嵌入编码, 获
得词语的向量表示; 然后将词向量依次拼接, 构成歌词段落的向量表示;
步骤三: 词注意力 机制; 歌词段落中不同词语对于情 感极性判定的重要程度不同, 词注
意力层用来学习词语的重要性权重; 使用 词注意力机制, 对步骤二得到的歌词 段落编码进
行上下文学习以获取词语的注意力权重; 计算情感词的情感强度特征, 将情感词的情感强
度特征与词注意力权重结合, 作为段落中词语的最终权重; 将词语特征向量与权重加权求
和, 得到段落的向量表示;
步骤四: 段落注意力 机制; 对歌词的每一段落进行步骤三的特征向量编码, 使用段落注
意力机制对段落特征向量进行上下文学习, 为每一段落赋予权重, 表示对情感极性判定的
重要性; 然后计算每一段落的情感强度特征, 将每一段落的情感强度特征与注意力权重结
合, 以捕捉段落间情感强度的变化; 最后, 将段落特征向量与段落权重加权求和, 得到整首
歌词的特 征向量;
步骤五: 情感分类; 使用softmax函数作为情感分类器, 对步骤四得到的歌词特征向量
进行有监督的情感分类训练; 最终生成中文歌曲情感分类器, 用来对歌词进行情感极性的
判定。
2.根据权利要求1所述的基于层次注意力 机制的歌词情 感分类方法, 其特征在于: 步骤
一中, 构建中文歌词数据集, 通过网络爬虫技术在互联网各大音乐网站爬取中文歌词共
1851首, 按照VA情感模型进行情感极性标注, 通过音乐网站的歌单标签作为情感极性标注
的依据, 并通过多名音乐人士进 行校对; 训练集、 验证集合、 测试集按照8: 1: 1的比例进 行划
分。
3.根据权利要求1所述的基于层次注意力 机制的歌词情 感分类方法, 其特征在于: 步骤
二中, 歌词编 码层用来对分段后的歌词进 行特征向量编 码; 首先, 对段落中的词语进 行词嵌
入编码, 获取词语的向量表示; 然后 将每个词向量依次拼接, 构成段落的向量表 示; 最后, 使
用双向长短期记 忆网络Bi LSTM进行序列化处 理, 学习上 下文之间的语义关联;
词向量表示指的是将词语转换为计算机理解的数值或矩阵;
歌词的段落较长, 使用BiLSTM进行文本的序列化处理; BiLSTM由前向和后向LSTM组成,
实现文本从前向后以及从后向前编码, 关注到文本上 下文之间的关联;
对于一段歌词P=[x1,x2,…,xi,…,xn], 其中, χi表示段落中词语的词向量编 码, i∈(1,
n), n为歌词长度; 使用BiLSTM分别对歌词进行从前向后以及从后向前学习, 获取前向与后
向的编码并整合, 得到 歌词段落的初始特 征向量, 计算过程如式(1) ‑式(4)所示;
权 利 要 求 书 1/4 页
2
CN 114416993 A
2h=[h1, h2, ..., hi, ..., hn] (4)
其中,
表示前向LSTM,
表示后向LST M,
表示t时刻前向LSTM单元的隐藏层
输出,
表示t时刻后向LSTM单元的隐藏层输出, 将二者拼接后得到t时刻对应 的第i个词
语的输出向量hi, 将所有时刻的输出拼接, 得到 歌词段落的特 征向量h。
4.根据权利要求1所述的基于层次注意力 机制的歌词情 感分类方法, 其特征在于: 步骤
三中, 词注意力机制通过对歌词 段落的序列化学习, 来获取词语对于情感极性判定的重要
性权重; 首先使用BiLSTM分别进行从前向后以及从后向前学习, 获取前向与后向编码并整
合; 然后将BiLSTM的输出经过一层全连接层的处理得到每一时刻的状态向量ui, 如式(5)所
示;
ui=tanh(Wthi+bt) (5)
其中, hi表示第i个词语对应的BiLSTM的输出向量, 对hi经过线性函数处理后, 再通过激
活函数tanh将值映射到[ ‑1,1]之间, Wt和bt为模型的训练参数;
为了得到每个词语对于整个段落的重要性, 将状态向量ui经过线性函数处理后再通过
softmax函数进行归一 化处理, 得到第i个词语的权 重值αi, 如式(6)所示;
其中, ui为通过式(5)计算得到的第i个词语的状态向量,
为ui的转置, Ww1和Ww2为模型
的训练参数;
歌词中情感词的情 感强度对分类结果起重要作用, 将词注意力 权重与情感强度 特征相
结合, 使模型更关注于情感强度高的词语; 设计一种基于tf ‑idf规则的情感词情感强度计
算方法, 使用情感词的词频、 语义相似度、 情感极性特征共同计算情感强度; idf表 示逆向文
件频率,用来评估某个词语对于区分特定歌词和其他歌词的重要性; tf的计算如式(7) ‑(8)
所示:
其中, 对于词ωi, Ci表示ωi情感极性与整句歌词的情感极性是否一致, pi表示词频, n为
段落中词语数目, si表示语义相似度, 语义相似度指词ωi与情感词表中对应情感极性词语
的余弦相似度;
idf表示逆向文件频率, 可以评估某个情 感词对于区分特定歌词和其他歌词的重要性,
计算过程如式(9)所示:
其中, |D|表示歌词文档的总数, |{j: tj∈dj}|表示包 含该情感词的歌词文档总数;
对歌词中的所有情感词计算情感强度特征, 并通过softmax函数进行归一化处理, 得到权 利 要 求 书 2/4 页
3
CN 114416993 A
3
专利 基于层次注意力机制的歌词情感分类方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:51上传分享