专利 一种基于BERT的同质性网络舆论治理系统和方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210958952.9 (22)申请日 2022.08.10 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市钱塘新区白杨街道2号大街1 158号 (72)发明人吴国华　张拓　王玉娟　张祯　杨昌天　云文豪　 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于BERT的同质性网络舆论治理系统和方法 (57)摘要本发明涉及一种基于BERT的同质性网络舆论治理系统和方法，包括步骤一、获取舆论数据：步骤二、训练模型：步骤三、计算舆论评分：步骤四、根据评分进行舆论治理。本发明借助不同维度的评分计算，如观点多样性的计算，对话认同度的计算等对话观点多样性的推送等，量化网络舆论的同质性，解决了热点舆论与对立舆论并不统一的问题，利用舆论治理模块，从传播学方面出发有效突破了过滤气泡，从心理学方面出发遏制了回声室效应，减少了同质性网络言论，有效解决了网络舆论中分裂与对立频发问题。权利要求书3页说明书6页附图5页 CN 115293160 A 2022.11.04 CN 115293160 A 1.一种基于BERT的同质性网络舆论治理系统，其特征在于：包括舆论采集单元：用于对舆论数据库进行抽取，并进行文本预处理，包括分词和去噪声处理，形成特征词序列，去噪声处理包括去除停用词和标点符号；模型训练单元：用于训练观点抽取模型和仇恨度模型；舆论分析模块：用于对待判定舆论计算舆论健康度，舆论健康度可根据实际舆论场景从不同维度进行计算；舆论治理模块：利用舆论分析模块的计算结果，对待判定舆论进行排序，用户舆论推送，以舆论分析的结果作为支撑，有效突破过滤气泡。 2.一种根据权利要求1所述的基于BERT的同质性网络舆论治理系统的治理方法，其特征在于：包括以下步骤：步骤一、获取舆论数据：舆论采集单元根据关键词，从舆论数据库获取包含此关键词的言论及其评论，得到言论及评论文本数据，对所获文本数据预处理，并保存至数据库；步骤二、训练模型：模型训练单元使用BERT模型提取所获网络舆论文本特征，训练得到满足舆论样本特征的语言模型；步骤三、计算舆论评分：建立舆论观点库，包括不同舆论主流及非主流观点，舆论分析模块依据舆论观点库，利用BERT模型从不同维度对网络舆论计算评分，包括主流观点符合度，观点多样性，对话认同度，对话仇恨度，最终算得舆论健康度；步骤四、根据评分进行舆论治理：基于舆论健康度评分，对舆论热度进行调整，并向用户定向推送引导舆论，突破过滤气泡，减少回声室效应。 3.根据权利要求2所述的一种基于BERT的同质性网络舆论的治理方法，其特征在于：所述步骤一具体包括：步骤1.1：舆论采集单元输入关键词W，根据关键词W从舆论数据库中抽取对应网络言论 Ki以及对评论Vij，同时记录其用户标签Useri；步骤1.2：使用分词软件对言论Ki以及评论Vij进行分词处理，基于预设文本长度对分词处理后的训练文本集进行长度剪裁或补正，得到标准训练文本集，将所属分词处理后的训练文本集中，小于所述预设长度的训练文本的前端用0补齐，并序列化得到待训练数据。 4.根据权利要求3所述的一种基于BERT的同质性网络舆论的治理方法，其特征在于：所述步骤二具体包括：步骤2.1：训练观点抽取模型，通过BERT的预训练向量进行embedding，得到网络舆论的语义空间向量表示，将embedding后的所述待抽取网络舆论和所述关键词文本使用BERT的通用特殊拼接符[sep]进行拼接，将拼接后的文本输入多层t ransformer，获得待抽取观点。 5.根据权利要求2或3或4所述的一种基于BERT 的同质性网络舆论的治理方法，其特征在于：所述步骤三具体包括：步骤3.1：建立舆论观点库，存储舆论主流观点以及非主流观点，并对主流观点设置标签Pos；步骤3.2：不同维度计算健康度评分，量化同质性；步骤3.3：计算健康度评分，根据以上四所获评分综合计算所测舆论健康度Health degree； Health degree＝β1e1+β2e2+...+βnen权　利　要　求　书 1/3 页 2 CN 115293160 A 2其中βn(1≤i≤n)是n个调节参数,n表示共n个治理维度，满足β1+β2+...+βn分1。 6.根据权利要求5所述的一种基于BERT的同质性网络舆论的治理方法，其特征在于：所述步骤四具体包括：步骤4.1：根据步骤3.3所获Health Degree，使用排序算法对所有评论Vij进行评分倒序排序： Order＝sor ted(Vij) 排序结果使用链表存储并作为评论区热度顺序返回舆论排序单元，系统可时事获取新评论进行计算后插入链表并返回排序；步骤4.2：根据主流观点符合度sim(Ki， Pos)得分设置阈值Q1，对于低于Q1的舆论获取其对应用户标签Useri，设置增量γ，定向推送舆论观点库观点，推送内容初始主流观点符合度为： Pushsim＝sim(Ki， Pos)+γ 根据Push sim＝Push sim+γ渐进递增，直至Push sim≥Q1；步骤4.3：根据对话观点多样性得分Divi设置阈值Q2，对低于阈值Q2的舆论获取对应的用户标签Useri，定向推送舆论观点库中其他舆论观点，其推送观点的主流观点符合度应满足Push sim≥Q1；步骤4.4：对于言论仇恨度Hosi设置阈值Q3、 Q4，对于低于Q3评论，获取其用户标签 Useri，建立黑名单，降低其用户在网络言论中的热度，其热度根据仇恨度计算有：设置评分监控，黑名单Hosi用户持续高于Q 4时移出黑名单。 7.根据权利要求5所述的一种基于BERT的同质性网络舆论的治理方法，其特征在于：所述步骤3.2具体包括：步骤3.2.1：计算主流观点符合度：根据步骤2.1所训练观点抽取模型，输入观点Ki和其评论Vij得到对应观点，使用其词嵌入空间向量与观点库中主流观点计算余弦相似度：其中K表示待判断观点的空间向量， Pos表示主流观点的空间向量；步骤3.2.2：计算对话观点多样性：根据步骤2.1所训练观点抽取模型，输入观点Ki和其评论Vij得到对应观点，统计对话所含不同观点数量N＝set(Ki， Vi1， Vi2， ...， Vij)，根据步骤 3.2.1所述抽取的主题,查找观点库中此主题观点总数Tol，计算此对话观点数量N占舆论观点库比例：步骤3.2.3：计算对话认同度：抽取对话所述观点，使用模型计算言论Ki和评论Vij的相似度作为对话认同度，得到认同度评分Degij，其计算公式如下：步骤3.2.4：计算对话言论仇恨度：训练仇恨言论评分模型，通过BERT的预训练向量对权　利　要　求　书 2/3 页 3 CN 115293160 A 3

专利 一种基于BERT的同质性网络舆论治理系统和方法

专利一种基于BERT的同质性网络舆论治理系统和方法