(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210989284.6
(22)申请日 2022.08.17
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 徐童 陈恩红 谢哲勇 何伟栋
吴世伟
(74)专利代理 机构 北京凯特来知识产权代理有
限公司 1 1260
专利代理师 郑立明 韩珂
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
社交媒体网络用语的语义变化自动检测与
解释方法及系统
(57)摘要
本发明公开了一种社交媒体网络用语的语
义变化自动检测与解释方法及系统, 整个方案两
个阶段, 通过两个阶段自动检测和理解社交媒体
评论中的网络用语语义变化现象, 第一个阶段
中, 通过单词在不同语料库中对应的向量表示的
距离, 可以以找到语义上发生变化的词语(即网
络用语); 第二个阶段, 利用多模态信息可以生成
网络用语的解释文本, 从而准确翻译网络用语的
真实含义。
权利要求书3页 说明书11页 附图2页
CN 115329044 A
2022.11.11
CN 115329044 A
1.一种社交媒体网络用语的语义变化自动检测与解释方法, 其特 征在于, 包括:
网络用语检测阶段: 对于 社交媒体评论语料库Cu中的社交媒体评论文本, 通过给定的通
用语料库Cg对应的单词向量表示集合获得社交媒体评论文本中所有单词的向量表示, 构成
第一文本向量序列, 以及通过社交媒体评论语料库Cu对应的单词向量表示集合, 获得社交
媒体评论文本中所有单词的向量表示, 构成第二文本 向量序列; 对第一文本 向量序列与第
二文本向量序列中相同单词之 间的向量表示的距离进 行度量, 从社交媒体评论文本中选出
距离最大的K个单词作为网络用语;
网络用语解释阶段: 通过基于Transformer模型的编码器分别对社交媒体评论文本对
应的视频帧图像的视觉表征、 网络用语与社交媒体评论文本的文本表征、 以及 网络用语与
社交媒体评论文本的语音表征进行编码, 将编码获得的视频帧图像的图像特征、 网络用语
与社交媒体评论文本的文本表征, 以及 网络用语与社交媒体评论文本的语音特征, 输入至
基于Transformer模型的解码器, 生成自然语言解释文本 。
2.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法, 其
特征在于, 所述单词向量表示集合包含多个单词的向量表示, 每一单词的向量表示均通过
针对文本的预训练模型提取, 对于单词w ′, 其向量表示 为v, 提取 方式表示 为:
v=Wgw
其中, Wg表示针对文本的预训练模型的参数, w表示单词w ′的独热向量;
将通用语料库Cg对应的单词向量表示集合记为
其中,
表示通用语料库Cg
中第l个单词的表示向量, l=1,2, …; 将社交媒体评论语料库Cu对应的单词向量表示集合
记为
其中,
表示社交媒体评论语料库Cu中第t个单词的表示向量, t=1,
2,…。
3.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法, 其
特征在于, 所述对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距
离进行度量包括:
将第一文本向量序列记为
将第二本文向量序列记为
其中, n为社交媒
体评论文本中单词的数目, i 为社交媒体评论文本中单词的序号,
表示通过 给定的通用语
料库Cg对应的单词向量表示集合获得的第i个单词的向量表示,
表示通过社交媒体评论
语料库Cu对应的单词向量表示集合获得的第i个单词的向量表示; 如果第i个单词未出现在
给定的通用语料库Cg中, 则对应的向量表示
为组成第i个单词的所有字符 的表征向量的
平均值;
通过距离函数对第一文本向量序列与第二文本向量序列中相同序号i的向量表示
与
之间的距离进行度量。
4.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法, 其
特征在于, 所述网络用语检测阶段通过图像增强的网络用语检测模块实现, 所述图像增强
的网络用语检测模块包括: 针对文本的预训练模型、 针对图像的预训练模型、 编码器、 解码
器以及提取器; 其中:权 利 要 求 书 1/3 页
2
CN 115329044 A
2所述针对文本的预训练模型, 用于提取给定的通用语料库Cg、 以及社交媒体评论语料库
Cu对应的单词向量表示 集合;
所述提取器, 用于结合社交媒体评论文本获得第一文本向量序列与第二文本向量序
列, 对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度
量, 从社交媒体评论文本中选出距离最大的K个单词作为网络用语;
针对图像的预训练模型、 编码器与解码器仅应用于训练阶段, 训练阶段, 编码器的输入
为第二文本 向量序列, 输出为句 子层面的向量表示, 解码器基于句 子层面的向量表示生成
重构文本, 利用重构文本与社交媒体评论文本的差异计算重构损失
针对图像的预训练
模型的输入为社交媒体评论文本对应的视频帧图像, 输出为整体的视觉表征; 通过正交矩
阵G将句子层面的向量表示从句子语义空间转换至视觉空间后通过距离函数计算与整体的
视觉表征的距离损失
结合重构损失
距离损失
以及正交矩阵G的约束项构建第一
训练损失, 通过第一训练损失训练图像增强的网络用语检测模块中的针对文本的预训练模
型、 编码器与解码器;
测试阶段移除针对图像的预训练模型、 编码器与解码器, 通过针对文本的预训练模型
与提取器 检测网络用语。
5.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法, 其
特征在于, 所述通过基于Tr ansformer模型的编码器分别对社交媒体评论文本对应的视频
帧图像的视觉表征、 网络用语与社交媒体评论文本的文本表征、 以及 网络用语与社交媒体
评论文本的语音表征进行编码包括:
对于社交媒体评论文本对应的视频帧图像, 使用针对图像的预训练模型, 获得整体的
视觉表征以及一系列的局部的视觉表征, 构成视频帧图像的视觉表征, 并输入至基于
Transformer模型的编码器中的第一编码单 元, 获得视 觉特征;
将网络用语与社交媒体评论文本连接起来, 并在连接部分设置分隔符, 获得文本序列;
使用所述针对文本的预训练模型, 获得文本序列中每一单词的向量表示, 构成网络用语与
社交媒体评论文本的文本表征, 并输入至基于Tr ansformer模型的编码器中的第二编码单
元, 获得文本特 征;
将每个单词翻译为对应的音标, 将网络用语中单词的音标与 社交媒体评论文本 中单词
的音标连接起来, 并在连接部分设置 分隔符, 获得音 标序列; 利用可变线性层获得音标序列
中每一音标的特征表示, 构成网络用语与社交媒体评论文本的语音表征, 并输入至基于
Transformer模型的编码器中的第三编码单 元, 获得语音特 征。
6.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法, 其
特征在于, 生成自然语言解释文本的步骤 包括:
将图像特征、 文本特征与语音特征进行连接, 并使用注意力 机制进行融合, 再通过基于
Transformer模型的解码器使用自回归的方式生成每一时刻的单词, 按照时刻顺序将单词
组合为自然语言解释文本 。
7.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法, 其
特征在于, 所述网络用语解释阶段用过网络用语解释任务模块实现, 其包括: 基于
Transformer模型的编码器与基于Transformer模型的解码器; 训练阶段, 根据基于
Transformer模型的解码器生成自然语言解释文本与数据集中的解释文本, 计算交叉熵损权 利 要 求 书 2/3 页
3
CN 115329044 A
3
专利 社交媒体网络用语的语义变化自动检测与解释方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:09上传分享