公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210921496.0 (22)申请日 2022.08.02 (71)申请人 中国科学院计算 技术研究所 地址 100080 北京市海淀区中关村科 学院 南路6号 (72)发明人 高金华 赵鑫 沈华伟 王永庆 庞亮 孟剑 程学旗 (74)专利代理 机构 北京律诚同业知识产权代理 有限公司 1 1006 专利代理师 祁建国 陈思远 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/258(2020.01) G06F 40/295(2020.01)G06Q 50/00(2012.01) G06N 3/08(2006.01) (54)发明名称 一种基于社交平台元数据的文本主题建模 方法及系统 (57)摘要 本发明提出一种基于社交平台元数据的文 本主题建模 方法和系统, 包括基于文本数据的关 键词, 构建文本数据的词袋表示; 基于文本数据 的元数据类别, 训练对应类别的属性值预测任 务, 以微调预训练语义提取模型, 得到目标语义 提取模型, 使用目标语义提取模 型提取文本数据 的文本语义表 示; 基于文本语义表 示构造语义约 束目标, 以语义约束目标为指导, 以词袋表示作 为输入和重构目标, 训练基于变分自编码器的神 经主题模型, 得到主题提取模型, 并从模型中导 出主题‑关键词分布和主题嵌入表示。 方法及系 统可以对移动应用内广泛存在的短文本消息进 行主题建模, 提取出主题的关键词并学习得到主 题的嵌入表示。 权利要求书2页 说明书8页 附图3页 CN 115391522 A 2022.11.25 CN 115391522 A 1.一种基于社交平台元 数据的文本主题建模方法, 其特 征在于, 包括: 步骤1、 从社交平台获取待 主题建模的文本数据及该文本数据的元 数据; 步骤2、 基于该文本数据的关键词, 构建该文本数据的词袋表示; 步骤3、 基于该元数据的类别, 训练对应类别的属性值预测任务, 以微调预训练语义提 取模型, 得到目标语义提取模型, 使用该目标语义提取模型提取该文本数据的文本语义表 示; 步骤4、 基于该文本语义表示构造语义约束目标, 以该语义约束目标为指导, 以词袋表 示作为输入和重构目标, 训练基于变分自编 码器的神经主题模 型, 得到主题提取模型, 并从 模型中导出主题 ‑关键词分布和主题嵌入表示; 步骤5、 将该主题嵌入表示输入该属性值预测任务, 得到主题在对应属性上的属性值分 布, 根据该属性值分布、 该主题 ‑关键词分布和该主题嵌入表示对相同的主题进行合并, 并 将合并结果作为该文本数据的主题模型。 2.如权利要求1所述的基于社交平台元数据的文本主题建模方法, 其特征在于, 该步骤 3包括: 将元数据的属性分类为离 散型属性、 连续型属性和文本型属性; 对离散型属性, 分别基于语料集中出现过的属性值计数, 按照构造词表的过程, 取出现 次数超过预设阈值的属性值构成属性值集合, 基于该属性值集合构建一个预测属性值的分 类任务, 采用交叉熵作为分类任务的损失函数; 对连续型属性, 将其属性值转换为均值为0, 方差为1的分布; 基于该连续型属性构建一 个预测转换后属性 值的回归 任务, 采用MSE作为该回归 任务的损失函数; 对文本型属性, 将该文本数据与其拼接, 得到拼接文本, 输入该预训练语义提取模型, 产生的文本语义向量; 构建对抗分类任务, 用于判定该文本语义向量的属性类别, 采用交叉熵作为损失函数。 3.如权利要求1所述的基于社交平台元数据的文本主题建模方法, 其特征在于, 该步骤 5包括: 根据该属性值分布, 构建主题各属性的属性值列表; 根据该主题 ‑关键词分布, 构建 关键词列表; 在对主题进行合并时, 使用杰卡德系数分布度量主题的关键词列表间和属性值列表间 的相似度, 得到第一相似度和第二相似度, 使用余弦相似度来度量主题的嵌入表示之间的 相似度, 得到第三相似度; 加权平均第一相似度、 第二相似度和第三相似度, 得到主题间的 最终相似度, 将该最终相似度大于预设值的主题进行合并。 4.如权利要求1所述的基于社交平台元数据的文本主题建模方法, 其特征在于, 该元数 据包括: 发布时间、 发布用户ID、 发布用户个人简介、 @User、 #Ta g和URL。 5.一种基于社交平台元 数据的文本主题建模系统, 其特 征在于, 包括: 初始模块, 用于从社交平台获取待主题建模的文本数据及该文本数据的元数据; 并基 于该文本数据的关键词, 构建该文本数据的词袋表示; 微调模块, 用于根据 该元数据的类别, 训练对应类别的属性值预测任务, 以微调预训练 语义提取模型, 得到目标语义提取模型, 使用该目标语义提取模型提取该文本数据的文本 语义表示; 提取模块, 用于根据 该文本语义表示构造语义约束目标, 以该语义约束目标为指导, 以权 利 要 求 书 1/2 页 2 CN 115391522 A 2词袋表示作为输入和重构目标, 训练基于变分自编码器的神经主题模型, 得到主题提取模 型, 并从模型中导出主题 ‑关键词分布和主题嵌入表示; 合并模块, 用于将该主题嵌入表示输入该属性值预测任务, 得到主题在对应属性上的 属性值分布, 根据该属性值分布、 该主题 ‑关键词分布和该主题嵌入表示对相同的主题进 行 合并, 并将合并结果作为该文本数据的主题模型。 6.如权利要求5所述的基于社交平台元数据的文本主题建模系统, 其特征在于, 该微调 模块具体用于: 将元数据的属性分类为离 散型属性、 连续型属性和文本型属性; 对离散型属性, 分别基于语料集中出现过的属性值计数, 按照构造词表的过程, 取出现 次数超过预设阈值的属性值构成属性值集合, 基于该属性值集合构建一个预测属性值的分 类任务, 采用交叉熵作为分类任务的损失函数; 对连续型属性, 将其属性值转换为均值为0, 方差为1的分布; 基于该连续型属性构建一 个预测转换后属性 值的回归 任务, 采用MSE作为该回归 任务的损失函数; 对文本型属性, 将该文本数据与其拼接, 得到拼接文本, 输入该预训练语义提取模型, 产生的文本语义向量; 构建对抗分类任务, 用于判定该文本语义向量的属性类别, 采用交叉熵作为损失函数。 7.如权利要求5所述的基于社交平台元数据的文本主题建模系统, 其特征在于, 该合并 模块用于: 根据该属性值分布, 构建主题各属性的属性值列表; 根据该主题 ‑关键词分布, 构 建关键词列表; 在对主题进行合并时, 使用杰卡德系数分布度量主题的关键词列表间和属性值列表间 的相似度, 得到第一相似度和第二相似度, 使用余弦相似度来度量主题的嵌入表示之间的 相似度, 得到第三相似度; 加权平均第一相似度、 第二相似度和第三相似度, 得到主题间的 最终相似度, 将该最终相似度大于预设值的主题进行合并。 8.如权利要求5所述的基于社交平台元数据的文本主题建模系统, 其特征在于, 该元数 据包括: 发布时间、 发布用户ID、 发布用户个人简介、 @User、 #Ta g和URL。 9.一种存储介质, 用于存储执行如权利要求1到4所述任意一种基于社交平台元数据的 文本主题建模方法的程序。 10.一种客户端, 用于权利要求5至8中任意一种基于社交平台元数据的文本主题建模 系统。权 利 要 求 书 2/2 页 3 CN 115391522 A 3
专利 一种基于社交平台元数据的文本主题建模方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:20
上传分享
举报
下载
原文档
(668.3 KB)
分享
友情链接
GB-T 32541-2016 热处理质量控制体系.pdf
GA-T 460.4-2020 居民身份证卡体材料及打印薄膜技术规范 第4部分:制卡用模块、线圈承载层白色PETG薄膜.pdf
DB41-T 1435-2017 独山玉饰品质量等级评价 河南省.pdf
GB-T 7699-2022 苎麻.pdf
思度安全-DSMM-013 数据加密管理规范V1.0.pdf
腾讯安全 物联网汽车安全.pdf
GB-T 41703-2022 商业或工业用及类似用途的热泵热水系统设计、安装、验收规范.pdf
DB11-T 1484-2017 固定污染源废气挥发性有机物监测技术规范 北京市.pdf
T BJQC 智能网联汽车信息安全测试方法(征求意见稿).pdf
GB-Z 41313-2022 金刚石圆锯片基体.pdf
GB-T 36896.2-2018 轻型有缆遥控水下机器人 第2部分:机械手与液压系统.pdf
数据安全及备份恢复测评指导书-二级V1.0.doc
GB-T 34432-2017 售后服务基本术语.pdf
TB-T 1720-2017 铁道客车及动车组给水装置.pdf
T-ZGCSC 003—2023 智慧社区评价指标体系.pdf
GB-T 20257.4-2017 国家基本比例尺地图图式 第4部分:1250 000 1500 000 11 000 000地形图图式.pdf
T-CCUA 016—2021 超级计算数据中心设计要求.pdf
DB3206-T 1040-2022 叉车司机实际操作技能考核规范 南通市.pdf
GB-T 25064-2010 信息安全技术 公钥基础设施 电子签名格式规范.pdf
GB-T 2350-2020 流体传动系统及元件 活塞杆螺纹型式和尺寸系列.pdf
交流群
-->
1
/
14
评价文档
赞助2元 点击下载(668.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。