公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211039150.4 (22)申请日 2022.08.29 (71)申请人 北京信息科技大 学 地址 100192 北京市海淀区清河小营东路 12号 (72)发明人 徐雅斌 毛文清 (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 刘芳 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 16/951(2019.01) G06F 16/9536(2019.01) G06Q 50/00(2012.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 40/289(2020.01) G06F 40/247(2020.01) (54)发明名称 一种社交机 器人分类方法及系统 (57)摘要 本发明公开了一种社交机器人分类方法及 系统, 涉及社交机器人检测技术领域, 该方法, 包 括: 获取目标社交机器人关于目标话题的博文内 容; 将博文内容输入社交机器人分类模型得到所 属类别; 社交机器人分类模型包括话题相关性目 标模型和观 点句识别目标模型; 社交机器人分类 模型的确定方法为: 基于迁移学习构建源域数据 集; 基于社交机器人识别模型确定目标域数据 集; 对源域数据集中的设定话题进行扩充和内容 压缩; 根据源域数据集、 目标域数据集、 压缩后的 话题扩充序列和孪生网络确定话题相关性目标 模型; 根据源域数据集、 目标域数据集、 基于规则 的观点句识别方法和文本分类模型确定观点句 识别目标模 型。 本发明能提高分类方法的通用性 和可解释性。 权利要求书3页 说明书13页 附图5页 CN 115329085 A 2022.11.11 CN 115329085 A 1.一种社交机器人分类方法, 其特 征在于, 包括: 获取目标 社交机器人关于目标话题的博文内容; 将所述目标社交机器人关于目标话题的博文内容输入社交机器人分类模型中, 得到所 述目标社 交机器人的类别; 所述类别包括内容污染者、 知识传播者和新闻评论者; 所述社 交 机器人分类模型包括 话题相关性目标模型和观点句识别目标模型; 所述内容污染者表示所述目标社交机器人发布的博文内容与 所述目标话题不相关; 所 述知识传播者表示所述目标社 交机器人发布的博文内容与所述目标话题相关, 且发表意见 以及表达观点; 所述新闻评论者表示所述目标社 交机器人发布的博文内容与所述目标话题 相关, 且传播信息以及说明客观事 件; 其中, 所述社交机器人分类模型的确定方法为: 基于迁移学习的方法构建源域数据集; 所述源域数据集包括第 一类数据集和第 二类数 据集; 所述第一类数据集包括在微博平台上爬取的在设定话题下的账号 发布的原创博文内 容、 在与设定话题相关的话题下 的账号发布的原创博文内容以及对应分类标签; 所述分类 标签包括所述账号属于内容污染者或者所述账号数据知识传播者; 所述第二类数据集包括 由社交机器人样本数据生成模型生成的已标注为 新闻评论 者的账号发布的观点型 博文; 基于社交机器人识别模型确定目标域数据集; 所述目标域数据集包括已标注类别的社 交机器人真实博文内容; 对所述源域数据集中的设定话题进行扩充和话题内容压缩, 得到话题扩充序列; 根据所述源域数据集、 所述目标域数据集、 所述话题扩充序列和孪生网络, 确定所述话 题相关性目标模型; 所述 话题相关性目标模型用于识别内容污染者; 根据所述源域数据集、 所述目标域数据集、 基于规则的观点句识别方法 以及文本分类 模型, 确定所述观点句识别目标模型; 所述观点句识别目标模型用于知识传播者和 新闻评 论者。 2.根据权利要求1所述的一种社交机器人分类方法, 其特征在于, 所述根据所述源域数 据集、 所述 目标域数据集、 所述话题扩充序列和孪生网络, 确定所述话题相关性目标模型, 具体包括: 将所述源域数据集和所述话题扩充序列输入孪生网络, 以均 方差误差函数最小为目标 对所述孪生网络进行初步训练, 确定所述孪生网络的相似度阈值; 所述源域数据集中的账 号属于内容污染者时, 所述原创博文内容与所述话题扩充序列的相似度小于所述相似度阈 值; 初步训练确定好相似度阈值的孪生网络为 话题相关性源 模型; 采用所述目标域数据集和对应的目标域话题填充序列, 对所述话题相关性源模型的相 似度阈值进行微调; 将相似度阈值 微调后的话题相关性源 模型确定为所述 话题相关性目标模型。 3.根据权利要求1所述的一种社交机器人分类方法, 其特征在于, 所述根据所述源域数 据集、 所述目标域数据集、 基于规则的观点句识别方法以及文本 分类模型, 确定所述观点句 识别目标模型, 具体包括: 提取所述源域数据集的句子特征; 所述句子特征包括关键词特征、 位置特征、 语义特征 和长度特 征;权 利 要 求 书 1/3 页 2 CN 115329085 A 2对所述句子特 征进行归一 化处理并加权求和, 得到每条句子的观点句得分; 根据所述观点句得分确定基于规则的观点句识别模型的观点句阈值; 采用所述目标域数据集中观点句得分小于所述观点句阈值的数据对卷积神经网络进 行训练, 并将训练好的卷积神经网络确定为文本分类模型; 观点句阈值确定的基于规则的观点句识别模型和所述文本分类模型构成观点句识别 源模型; 采用所述目标域数据集对所述观点句识别源模型中的观点句阈值和卷积神经网络参 数进行微调; 将微调后的观点句识别源 模型确定为所述观点句识别目标模型。 4.根据权利要求1所述的一种社交机器人分类方法, 其特征在于, 所述对所述源域数据 集中的设定话题进行扩充和话题内容压缩, 得到话题扩充序列, 具体包括: 爬取与所述设定话题相关的话题的导语内容, 并将所有相关话题的导语 内容生成扩充 文档; 采用用于文本的基于图的排序算法对所述扩充 文档抽取关键词, 得到话题扩充序列。 5.根据权利要求1所述的一种社交机器人分类方法, 其特征在于, 所述基于社交机器人 识别模型确定目标域数据集, 具体包括: 采用社交机器人识别模型检验得到社交机器人类型的真实数据; 对所述真实数据进行 人工标注和博文 去重后, 得到有效社交机器人 数据; 将所述有效社交机器人 数据确定为目标域数据集。 6.根据权利要求2所述的一种社交机器人分类方法, 其特征在于, 所述孪生网络为预训 练过的基于Transformer的双向编码器。 7.根据权利要求1所述的一种社交机器人分类方法, 其特征在于, 所述将所述目标社交 机器人关于目标话题的博文内容输入社交机器人分类模型中, 得到所述目标社 交机器人的 类别, 具体包括: 将所述目标社交机器人关于目标话题的博文内容输入话题相关性目标模型, 识别所述 目标社交机器人 是否为内容污染者; 若所述目标社交机器人不为内容污染者, 则将所述目标社交机器人关于目标话题的博 文内容输入所述观点句识别目标模型, 识别所述目标社交机器人是否为知识传播者或为新 闻评论者。 8.一种用于实现权利要求1 ‑7中任意一项所述的方法的社交机器人分类系统, 其特征 在于, 包括: 博文内容获取模块, 用于获取目标 社交机器人关于目标话题的博文内容; 分类识别模块, 用于将所述目标社交机器人关于目标话题的博文内容输入社交机器人 分类模型中, 得到所述目标社 交机器人的类别; 所述类别包括内容污染者、 知识传播者和新 闻评论者; 所述社交机器人分类模型包括 话题相关性目标模型和观点句识别目标模型; 所述内容污染者表示所述目标社交机器人发布的博文内容与 所述目标话题不相关; 所 述知识传播者表示所述目标社 交机器人发布的博文内容与所述目标话题相关, 且发表意见 以及表达观点; 所述新闻评论者表示所述目标社 交机器人发布的博文内容与所述目标话题 相关, 且传播信息以及说明客观事 件;权 利 要 求 书 2/3 页 3 CN 115329085 A 3
专利 一种社交机器人分类方法及系统
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:01
上传分享
举报
下载
原文档
(971.9 KB)
分享
友情链接
MZ-T 152-2020 康复训练器械 主动式上肢关节训练器通用技术条件.pdf
T-SZSMDA 005—2023 广角数码小儿视网膜成像系统眼部彩照采集规范.pdf
GB-T 28608-2012 工业用1,4-氧氮杂环己烷(吗啉).pdf
GB-T 41843-2022 功能、残疾、健康分类的康复组合评定.pdf
GB-T 20000.11-2016 标准化工作指南 第11部分:国家标准的英文译本通用表述.pdf
DB-T 81—2020 活动断层探察 古地震槽探.pdf
GB-T 38548.4-2020 内容资源数字化加工 第4部分:元数据.pdf
T-SSITS 204—2023 工业应用移动机器人与其调度系统数据接口规范.pdf
GB-T 33585-2017 复合磺酸钙基润滑脂.pdf
GB-T 35101-2017 信息安全技术 智能卡读写机具安全技术要求(EAL4增强).pdf
GB-T 24919-2010 工业阀门 安装使用维护 一般要求.pdf
T-GDFZ 0001—2018 无缝压胶服装.pdf
GB-T 25329-2010 企业节能规划编制通则.pdf
DB5223-T 15-2021 新市民家庭经济困难学生资助、补助规范 黔西南布依族苗族自治州.pdf
民航 MH-T 6038-2012 民用航空燃料水路运输质量控制.pdf
数说安全 数据安全市场研究报告 2022-10.pdf
GA-T 460.2-2020 居民身份证卡体材料及打印薄膜技术规范 第2部分:制卡用印刷层白色PETG薄膜.pdf
GB 16669-2010 二氧化碳灭火系统及部件通用技术条件.pdf
奇安信 实战攻防之紫队视角下的实战攻防演习组织.pdf
GB-T 4086.2-1983 统计分布数值表 χ2分布.pdf
交流群
-->
1
/
22
评价文档
赞助2元 点击下载(971.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。