专利 基于语义感知的评论分析方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210079218.5 (22)申请日 2022.01.24 (71)申请人中国科学院软件研究所地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人王亚文　王俊杰　石琳　王青　 (74)专利代理机构北京君尚知识产权代理有限公司 11200 专利代理师余长江 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称基于语义感知的评论分析方法及装置 (57)摘要本发明公开了一种基于语义感知的评论分析方法及装置，包括：收集目标应用的评论文本；将每一所述评论文本分成至少一个句子；提取所述评论文本的评论属性；将所述句子中每一单词的向量与所述评论属性的向量进行拼接；基于拼接结果，通过计算单词BIO标签的概率向量，得到所述评论文本中的缺陷特性；对所述缺陷特性进行聚类，得到评论分析结果。本发明将缺陷特性提取任务建模为命名实体识别，通过引入了评论属性的缺陷特性识别模型，来提高短语识别的准确性。权利要求书1页说明书8页附图3页 CN 114490937 A 2022.05.13 CN 114490937 A 1.一种基于语义感知的评论分析方法，其步骤包括：收集目标应用的评论文本，并将每一所述评论文本分成至少一个句子；提取所述评论文本的评论属性；将所述句子中每一单词的向量与所述评论属性的向量进行拼接，并基于拼接结果，通过计算单词BIO标签的概率向量，得到包含缺陷特性的所述评论文本中的缺陷特性；对所述缺陷特性进行聚类，得到评论分析结果。 2.如权利要求1所述的方法，其特征在于，所述目标应用包括：手机AP P应用。 3.如权利要求1所述的方法，其特征在于，将每一所述评论文本分成至少一个句子之后，对所述句子进行预处理；所述预处理方法包括：将单词转换为小写、使用Spacy进行词根化、纠正拼写错误、使用第一特殊符号替换数字和使用第二特殊符号替换目标应用名称。 4.如权利要求3所述的方法，其特征在于，所述第一特殊符号为<number>，所述第二特殊符号为<appname>。 5.如权利要求1所述的方法，其特征在于，所述评论属性包括：目标应用类别和评论描述情感。 6.如权利要求1所述的方法，其特征在于，所述缺陷特性基于一缺陷特性识别模型得到，其中所述缺陷特性识别模型包括：一BERT模型、一Dropout层、一嵌入层、一多层感知机和一CRF层，所述BERT模型用于获取所述句子中每一单词的向量，所述Dropout层用于避免训练缺陷特性识别模型时的过拟合，所述嵌入层用于获取所述评论属性的向量，所述多层感知机用于计算单词BIO标签的概率向量，所述CRF层用于得到所述评论文本中的缺陷特性。 7.如权利要求6所述的方法，其特征在于，训练所述缺陷特性识别模型的损失函数包括：发射分数和转移分数。 8.如权利要求1所述的方法，其特征在于，所述对所述缺陷特性进行聚类，包括： 1)获取所述缺陷特性的缺陷特性向量； 2)基于所述缺陷特性向量，构建一加权无向图，其中所述加权无向图的节点为所述缺陷特性，通过比较任两个所述节点之间的缺陷特性向量相似度，构建所述加权无向图的边； 3)在无向图上执行Chinese Whispers算法，以对缺陷特性进行聚类。 9.如权利要求1所述的方法，其特征在于，所述评论分析结果的可视化视图形式包括：气泡图，其中所述气泡图的y轴表示目标应用名称， x轴表示聚类的id，气泡大小定义为聚类 c中目标应用a的缺陷特性个数与目标应用a 中缺陷特性总数的比值。 10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1 ‑9中任一所述方法。权　利　要　求　书 1/1 页 2 CN 114490937 A 2基于语义感知的评论分析方法及装置技术领域 [0001]本发明属于计算机技术领域，涉及需求工程，自然语言处理等技术，尤其涉及一种基于语义感知的评论分析方法及装置、背景技术 [0002]移动应用(App)开发已经活跃了十多年，产生了数以百万计的可用App，用于处理各种各样的任务，如购物、银行和社交互动。这些移动应用在本发明的日常生活中变得越来越不可或缺，移动应用的重要性促使开发团队竭尽全力地理解用户新需求以及缺陷报告，并开展质量保证和软件维护活动。 [0003]用户通常会在苹果应用商店和谷歌Play等平台上为他们所使用的手机应用撰写评论。这些评论通常是一些简短的文本，这些用户反馈可以为App开发人员提供有价值的信息，如用户体验、缺陷报告和对新功能的需求。充分理解这些评论有助于开发者提高应用质量和用户满意度。然而，人工浏览和分析每个用户评论以收集反馈中有用的信息是非常耗时的，特别是对于那些每天都可能收到数百条评论的热门应用来说代价更甚。 [0004]近年来，用于挖掘App评论的自动化技术引起了广泛关注。研究人员定义了许多任务从不同角度通过多种方式帮助减少理解和分析应用评论所需的工作量，例如主题发现和关键短语提取任务。然而，主题发现任务主要用于识别用户评论中涉及的主题/方面(例如，兼容性、更新、网络等)，但开发人员仍然无法了解用户抱怨的是App的哪些具体特定功能。另一方面，关键短语提取任务主要利用基于启发式的技术(如词性模板、语法解析树和语义依赖图)来提取目标短语，这类技术无法充分地理解评论的语义，因而其准确性不能令人满意。 [0005]本发明涉及的技术包括命名实体识别技术(Named Entity Recognition， NER)和语言模型预训练技术。 [0006]1)NER是自然语言处理(Natural Language Processing， NLP)中序列标注的一个经典任务。其定义为给定一个词序列， NER旨在预测一个词是否属于某个命名实体，例如人名、组织名称、位置等。 NER任务可以通过线性统计模型来解决，例如最大熵马尔可夫模型 (Maximum Entropy Markov models)、隐马尔可夫模型(Hidden Markov Models)和条件随机场(Conditional Random Fields， CRF)。用于解决NER任务的基于深度学习的技术通常使用深度神经网络来捕获句子语义，并使用CRF层来学习句子级标签规则。典型的神经网络结构包括卷积神经网络结合CRF(Conv ‑CRF)、长短期记忆网络结合CRF(LSTM ‑CRF)和双向LSTM 网络结合CRF(BiLSTM ‑CRF)。其中， BiLSTM ‑CRF模型利用双向结构可以同时捕获输入序列前向和后向的信息，通常可以获得比Co nv‑CRF和LSTM ‑CRF更好的性能。 [0007]2)语言模型预训练技术已被证明可有效改善许多NLP任务。 BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer的表示模型，它使用预训练技术首先在原始语料库中进行训练，然后针对下游任务(如NER任务)进行微调。使用BERT代替BiLSTM(简记为BERT ‑CRF)可以进一步提高性能。借助微调技术， BERT ‑CRF模说　明　书 1/8 页 3 CN 114490937 A 3

专利 基于语义感知的评论分析方法及装置

专利基于语义感知的评论分析方法及装置