专利 社交媒体网络用语的语义变化自动检测与解释方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210989284.6 (22)申请日 2022.08.17 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人徐童　陈恩红　谢哲勇　何伟栋　吴世伟　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 专利代理师郑立明　韩珂 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称社交媒体网络用语的语义变化自动检测与解释方法及系统 (57)摘要本发明公开了一种社交媒体网络用语的语义变化自动检测与解释方法及系统，整个方案两个阶段，通过两个阶段自动检测和理解社交媒体评论中的网络用语语义变化现象，第一个阶段中，通过单词在不同语料库中对应的向量表示的距离，可以以找到语义上发生变化的词语(即网络用语)；第二个阶段，利用多模态信息可以生成网络用语的解释文本，从而准确翻译网络用语的真实含义。权利要求书3页说明书11页附图2页 CN 115329044 A 2022.11.11 CN 115329044 A 1.一种社交媒体网络用语的语义变化自动检测与解释方法，其特征在于，包括：网络用语检测阶段：对于社交媒体评论语料库Cu中的社交媒体评论文本，通过给定的通用语料库Cg对应的单词向量表示集合获得社交媒体评论文本中所有单词的向量表示，构成第一文本向量序列，以及通过社交媒体评论语料库Cu对应的单词向量表示集合，获得社交媒体评论文本中所有单词的向量表示，构成第二文本向量序列；对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量，从社交媒体评论文本中选出距离最大的K个单词作为网络用语；网络用语解释阶段：通过基于Transformer模型的编码器分别对社交媒体评论文本对应的视频帧图像的视觉表征、网络用语与社交媒体评论文本的文本表征、以及网络用语与社交媒体评论文本的语音表征进行编码，将编码获得的视频帧图像的图像特征、网络用语与社交媒体评论文本的文本表征，以及网络用语与社交媒体评论文本的语音特征，输入至基于Transformer模型的解码器，生成自然语言解释文本。 2.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法，其特征在于，所述单词向量表示集合包含多个单词的向量表示，每一单词的向量表示均通过针对文本的预训练模型提取，对于单词w ′，其向量表示为v，提取方式表示为： v＝Wgw 其中， Wg表示针对文本的预训练模型的参数， w表示单词w ′的独热向量；将通用语料库Cg对应的单词向量表示集合记为其中，表示通用语料库Cg 中第l个单词的表示向量， l＝1,2, …；将社交媒体评论语料库Cu对应的单词向量表示集合记为其中，表示社交媒体评论语料库Cu中第t个单词的表示向量， t＝1, 2,…。 3.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法，其特征在于，所述对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量包括：将第一文本向量序列记为将第二本文向量序列记为其中， n为社交媒体评论文本中单词的数目， i 为社交媒体评论文本中单词的序号，表示通过给定的通用语料库Cg对应的单词向量表示集合获得的第i个单词的向量表示，表示通过社交媒体评论语料库Cu对应的单词向量表示集合获得的第i个单词的向量表示；如果第i个单词未出现在给定的通用语料库Cg中，则对应的向量表示为组成第i个单词的所有字符的表征向量的平均值；通过距离函数对第一文本向量序列与第二文本向量序列中相同序号i的向量表示与之间的距离进行度量。 4.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法，其特征在于，所述网络用语检测阶段通过图像增强的网络用语检测模块实现，所述图像增强的网络用语检测模块包括：针对文本的预训练模型、针对图像的预训练模型、编码器、解码器以及提取器；其中：权　利　要　求　书 1/3 页 2 CN 115329044 A 2所述针对文本的预训练模型，用于提取给定的通用语料库Cg、以及社交媒体评论语料库 Cu对应的单词向量表示集合；所述提取器，用于结合社交媒体评论文本获得第一文本向量序列与第二文本向量序列，对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量，从社交媒体评论文本中选出距离最大的K个单词作为网络用语；针对图像的预训练模型、编码器与解码器仅应用于训练阶段，训练阶段，编码器的输入为第二文本向量序列，输出为句子层面的向量表示，解码器基于句子层面的向量表示生成重构文本，利用重构文本与社交媒体评论文本的差异计算重构损失针对图像的预训练模型的输入为社交媒体评论文本对应的视频帧图像，输出为整体的视觉表征；通过正交矩阵G将句子层面的向量表示从句子语义空间转换至视觉空间后通过距离函数计算与整体的视觉表征的距离损失结合重构损失距离损失以及正交矩阵G的约束项构建第一训练损失，通过第一训练损失训练图像增强的网络用语检测模块中的针对文本的预训练模型、编码器与解码器；测试阶段移除针对图像的预训练模型、编码器与解码器，通过针对文本的预训练模型与提取器检测网络用语。 5.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法，其特征在于，所述通过基于Tr ansformer模型的编码器分别对社交媒体评论文本对应的视频帧图像的视觉表征、网络用语与社交媒体评论文本的文本表征、以及网络用语与社交媒体评论文本的语音表征进行编码包括：对于社交媒体评论文本对应的视频帧图像，使用针对图像的预训练模型，获得整体的视觉表征以及一系列的局部的视觉表征，构成视频帧图像的视觉表征，并输入至基于 Transformer模型的编码器中的第一编码单元，获得视觉特征；将网络用语与社交媒体评论文本连接起来，并在连接部分设置分隔符，获得文本序列；使用所述针对文本的预训练模型，获得文本序列中每一单词的向量表示，构成网络用语与社交媒体评论文本的文本表征，并输入至基于Tr ansformer模型的编码器中的第二编码单元，获得文本特征；将每个单词翻译为对应的音标，将网络用语中单词的音标与社交媒体评论文本中单词的音标连接起来，并在连接部分设置分隔符，获得音标序列；利用可变线性层获得音标序列中每一音标的特征表示，构成网络用语与社交媒体评论文本的语音表征，并输入至基于 Transformer模型的编码器中的第三编码单元，获得语音特征。 6.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法，其特征在于，生成自然语言解释文本的步骤包括：将图像特征、文本特征与语音特征进行连接，并使用注意力机制进行融合，再通过基于 Transformer模型的解码器使用自回归的方式生成每一时刻的单词，按照时刻顺序将单词组合为自然语言解释文本。 7.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法，其特征在于，所述网络用语解释阶段用过网络用语解释任务模块实现，其包括：基于 Transformer模型的编码器与基于Transformer模型的解码器；训练阶段，根据基于 Transformer模型的解码器生成自然语言解释文本与数据集中的解释文本，计算交叉熵损权　利　要　求　书 2/3 页 3 CN 115329044 A 3

专利 社交媒体网络用语的语义变化自动检测与解释方法及系统

专利社交媒体网络用语的语义变化自动检测与解释方法及系统