(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210958952.9
(22)申请日 2022.08.10
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市钱塘新区白杨
街道2号大街1 158号
(72)发明人 吴国华 张拓 王玉娟 张祯
杨昌天 云文豪
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于BERT的同质性网络舆论治理系统
和方法
(57)摘要
本发明涉及一种基于BERT的同质性网络舆
论治理系统和方法, 包括步骤一、 获取舆论数据:
步骤二、 训练模型: 步骤三、 计算舆论评分: 步骤
四、 根据评分进行舆论治理。 本发明借助不同维
度的评分计算, 如观点多样性的计算, 对话认同
度的计算等对话观点多样性的推送 等, 量化网络
舆论的同质性, 解决了热点舆论与对立舆论并不
统一的问题, 利用舆论治理模块, 从传播学方面
出发有效突破了过滤气泡, 从心理学方面出发遏
制了回声室效应, 减少了同质性网络言论, 有效
解决了网络 舆论中分裂与对立频发问题。
权利要求书3页 说明书6页 附图5页
CN 115293160 A
2022.11.04
CN 115293160 A
1.一种基于BERT的同质性网络舆论治理系统, 其特征在于: 包括舆论采集单元: 用于对
舆论数据库进行抽取, 并进行文本预处理, 包括分词和去噪声处理, 形成特征词序列, 去 噪
声处理包括去除停用词和标点符号;
模型训练单 元: 用于训练观点抽取模型和仇恨度模型;
舆论分析模块: 用于对待判定舆论计算舆论健康度, 舆论健康度可根据实 际舆论场景
从不同维度进行计算;
舆论治理模块: 利用舆论分析模块的计算结果, 对待判定舆论进行排序, 用户舆论推
送, 以舆论分析的结果作为支撑, 有效突破过 滤气泡。
2.一种根据权利要求1所述的基于BERT的同质性网络舆论治理系统的治理方法, 其特
征在于: 包括以下步骤:
步骤一、 获取舆论数据: 舆论采集单元根据关键词, 从舆论数据库获取包含此关键词的
言论及其评论, 得到言论及评论文本数据, 对所获文本数据预处 理, 并保存至数据库;
步骤二、 训练模型: 模型训练单元使用BERT模型提取所获网络舆论文本特征, 训练得到
满足舆论样本特 征的语言模型;
步骤三、 计算舆论评分: 建立舆论观点库, 包括不同舆论主流及非主流观点, 舆论分析
模块依据舆论观点库, 利用BERT模型从不同维度对网络舆论计算评分, 包括主流观点符合
度, 观点多样性, 对话认同度, 对话 仇恨度, 最终算得舆论 健康度;
步骤四、 根据评分进行舆论治理: 基于舆论健康度评分, 对舆论热度进行调整, 并向用
户定向推送引导舆论, 突破过 滤气泡, 减少回声室效应。
3.根据权利要求2所述的一种基于BERT的同质性网络舆论的治理方法, 其特征在于: 所
述步骤一具体包括:
步骤1.1: 舆论采集单元输入关键词W, 根据关键词W从舆论数据库中抽取对应网络言论
Ki以及对评论Vij, 同时记录其用户标签Useri;
步骤1.2: 使用分词软件对言论Ki以及评论Vij进行分词处理, 基于预设文本长度对分词
处理后的训练文本集进行长度剪裁或补正, 得到标准训练文本集, 将所属分词处理后的训
练文本集中, 小于所述预设长度的训练文本的前端用0补齐, 并序列化得到待训练数据。
4.根据权利要求3所述的一种基于BERT的同质性网络舆论的治理方法, 其特征在于: 所
述步骤二具体包括:
步骤2.1: 训练观点抽取模型, 通过BERT的预训练向量进行embedding, 得到网络舆论的
语义空间向量表示, 将embedding后的所述待抽取网络舆论和所述关键词文本使用BERT的
通用特殊 拼接符[sep]进行拼接, 将拼接后的文本 输入多层t ransformer, 获得待抽取观点。
5.根据权利要求2或3或4所述的一种基于BERT 的同质性网络舆论的治理方法, 其特征
在于: 所述 步骤三具体包括:
步骤3.1: 建立舆论观点库, 存储舆论主流观点以及非主流观点, 并对主流观点设置标
签Pos;
步骤3.2: 不同维度计算 健康度评分, 量 化同质性;
步骤3.3: 计算健康度评分, 根据以上四所获评分综合计算所测舆论健康度Health
degree;
Health degree=β1e1+β2e2+...+βnen权 利 要 求 书 1/3 页
2
CN 115293160 A
2其中βn(1≤i≤n)是n个调节参数,n表示共n个治理维度, 满足β1+β2+...+βn分1。
6.根据权利要求5所述的一种基于BERT的同质性网络舆论的治理方法, 其特征在于: 所
述步骤四具体包括:
步骤4.1: 根据步骤3.3所获Health Degree, 使用排序算法对所有评论Vij进行评分倒序
排序:
Order=sor ted(Vij)
排序结果使用链表存储 并作为评论 区热度顺序返回舆论排序单元, 系统可时事获取新
评论进行计算后插 入链表并返回排序;
步骤4.2: 根据主流观点 符合度sim(Ki, Pos)得分设置阈值Q1, 对于低于Q1的舆论获取其
对应用户标签Useri, 设置增量γ, 定向推送舆论观点库观点, 推送内容初始主流观点符合
度为:
Pushsim=sim(Ki, Pos)+γ
根据Push sim=Push sim+γ渐进递增, 直至Push sim≥Q1;
步骤4.3: 根据对话观点多样性得分Divi设置阈值Q2, 对低于阈值Q2的舆论获取对应的
用户标签Useri, 定向推送舆论观点库中其他舆论观点, 其推送观点的主流观点符合度 应满
足Push sim≥Q1;
步骤4.4: 对于言论仇恨度Hosi设置阈值Q3、 Q4, 对于低于Q3评论, 获取其用户标签
Useri, 建立黑名单, 降低其用户在网络言论中的热度, 其热度根据仇恨度计算有:
设置评分监控, 黑名单Hosi用户持续高于Q 4时移出黑名单。
7.根据权利要求5所述的一种基于BERT的同质性网络舆论的治理方法, 其特征在于: 所
述步骤3.2具体包括:
步骤3.2.1: 计算主流观点符合度: 根据步骤2.1所训练观点抽取模型, 输入观点Ki和其
评论Vij得到对应观点, 使用其词嵌入空间向量与观点库中主流观点计算 余弦相似度:
其中K表示待判断观点的空间向量, Pos表示主流观点的空间向量;
步骤3.2.2: 计算对话观点多样性: 根据步骤2.1所训练观点抽取模型, 输入观点Ki和其
评论Vij得到对应观点, 统计对话所含不同观点数量N=set(Ki, Vi1, Vi2, ..., Vij), 根据步骤
3.2.1所述抽取的主题,查找观 点库中此主题观 点总数Tol, 计算此对话观 点数量N占舆论观
点库比例:
步骤3.2.3: 计算对话认同度: 抽 取对话所述观点, 使用模型计算言论Ki和评论Vij的相
似度作为对话认同度, 得到认同度评分Degij, 其计算公式如下:
步骤3.2.4: 计算对话言论仇恨度: 训练仇恨言论评分模型, 通过BERT的预训练向量对权 利 要 求 书 2/3 页
3
CN 115293160 A
3
专利 一种基于BERT的同质性网络舆论治理系统和方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:15上传分享