(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210079218.5
(22)申请日 2022.01.24
(71)申请人 中国科学院软件研究所
地址 100190 北京市海淀区中关村南四街 4
号
(72)发明人 王亚文 王俊杰 石琳 王青
(74)专利代理 机构 北京君尚知识产权代理有限
公司 11200
专利代理师 余长江
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(54)发明名称
基于语义感知的评论分析方法及装置
(57)摘要
本发明公开了一种基于语义感知的评论分
析方法及装置, 包括: 收集目标应用的评论文本;
将每一所述评论文本分成至少一个句子; 提取所
述评论文本的评论属性; 将所述句子中每一单词
的向量与所述评论属性的向量进行拼接; 基于拼
接结果, 通过计算单词BIO标签的概率向量, 得到
所述评论文本中的缺陷特性; 对 所述缺陷特性进
行聚类, 得到评论分析结果。 本发明将缺陷特性
提取任务建模为命名实体识别, 通过引入了评论
属性的缺陷特性识别模型, 来提高短语识别的准
确性。
权利要求书1页 说明书8页 附图3页
CN 114490937 A
2022.05.13
CN 114490937 A
1.一种基于语义感知的评论分析 方法, 其步骤包括:
收集目标应用的评论文本, 并将每一所述评论文本分成至少一个句子;
提取所述评论文本的评论属性;
将所述句子中每一单词的向量与所述评论属性的向量进行拼接, 并基于拼接结果, 通
过计算单词BIO标签的概 率向量, 得到包 含缺陷特性的所述评论文本中的缺陷特性;
对所述缺陷特性进行聚类, 得到 评论分析 结果。
2.如权利要求1所述的方法, 其特 征在于, 所述目标应用包括: 手机AP P应用。
3.如权利要求1所述的方法, 其特征在于, 将每一所述评论文本分成至少一个句子之
后, 对所述句子进 行预处理; 所述预处理方法包括: 将单词转换为小写、 使用Spacy进行词根
化、 纠正拼写错误、 使用第一特殊符号 替换数字和使用第二特殊符号 替换目标应用名称。
4.如权利要求3所述的方法, 其特征在于, 所述第一特殊符号为<number>, 所述第二特
殊符号为<appname>。
5.如权利要求1所述的方法, 其特征在于, 所述评论属性包括: 目标应用类别和评论描
述情感。
6.如权利要求1所述的方法, 其特征在于, 所述缺陷特性基于一缺陷特性识别模型得
到, 其中所述缺陷特性识别模型包括: 一BERT模型、 一Dropout层、 一嵌入层、 一多层感知机
和一CRF层, 所述BERT模型用于获取所述句子中每一单词的向量, 所述Dropout层用于避免
训练缺陷特性识别模型时的过拟合, 所述嵌入层用于获取所述评论属 性的向量, 所述多层
感知机用于计算单词BIO标签的概率向量, 所述CRF层用于得到所述评论文本中的缺陷特
性。
7.如权利要求6所述的方法, 其特征在于, 训练所述缺陷特性识别模型的损失函数包
括: 发射分数和转移分数。
8.如权利要求1所述的方法, 其特 征在于, 所述对所述 缺陷特性进行聚类, 包括:
1)获取所述缺陷特性的缺陷特性向量;
2)基于所述缺陷特性向量, 构建一加权无向图, 其中所述加权无向图的节点为所述缺
陷特性, 通过比较任两个所述节点之间的缺陷特性向量相似度, 构建所述加权无向图的边;
3)在无向图上 执行Chinese Whispers算法, 以对缺陷特性进行聚类。
9.如权利要求1所述的方法, 其特征在于, 所述评论分析结果的可视化视 图形式包括:
气泡图, 其中所述气泡图的y轴表示目标应用名称, x轴表 示聚类的id, 气泡大小定义为聚类
c中目标应用a的缺陷特性个数与目标应用a 中缺陷特性总数的比值。
10.一种电子装置, 包括存储器和 处理器, 所述存储器中存储有计算机程序, 所述处理
器被设置为 运行所述计算机程序以执 行如权利要求1 ‑9中任一所述方法。权 利 要 求 书 1/1 页
2
CN 114490937 A
2基于语义感知的评论分析方 法及装置
技术领域
[0001]本发明属于计算机技术领域, 涉及需求工程, 自然语言处理等技术, 尤其涉及一种
基于语义感知的评论分析 方法及装置、
背景技术
[0002]移动应用(App)开发已经活跃了十多年, 产生了数以百万计的可用App, 用于处理
各种各样的任务, 如购物、 银行和社 交互动。 这些移动应用在本发明的日常生活中变得越来
越不可或缺, 移动应用的重要性促使开发团队竭尽全力地理解用户新需求以及缺陷报告,
并开展质量保证和软件维护活动。
[0003]用户通常会在苹果应用商店和谷歌Play等平台上为他们所使用的手机应用撰写
评论。 这些评论通常是一些简短的文本, 这些用户反馈可以为App开 发人员提供有价值的信
息, 如用户体验、 缺陷报告和对新功能的需求。 充分理解这些评论有助于开 发者提高应用质
量和用户满意度。 然而, 人工浏览和分析每个用户评论以收集反馈中有用的信息是非常耗
时的, 特别是对于那些每天 都可能收到数 百条评论的热门应用来说代价更甚。
[0004]近年来, 用于挖掘App评论的自动化技术引起了广 泛关注。 研究人员定义了许多任
务从不同角度通过多种方式帮助减少理解和分析应用评论所需的工作量, 例如主题发现和
关键短语提取任务。 然而, 主题发现任务主要用于识别用户评论中涉及的主题/方面(例如,
兼容性、 更新、 网络等), 但开发人员仍然无法了解用户抱怨的是App的哪些具体特定功能。
另一方面, 关键 短语提取任务主要利用基于启发式的技术(如词性模板、 语法解析树和语义
依赖图)来提取目标短语, 这类技术无法充分地理解评论的语义, 因而其准确性不能令人满
意。
[0005]本发明涉及的技术包括命名实体识别技术(Named Entity Recognition, NER)和
语言模型 预训练技 术。
[0006]1)NER是自然语言处理(Natural Language Processing, NLP)中序列标注的一个
经典任务。 其定义为给定一个词序列, NER旨在预测一个词是否属于某个命名实体, 例如人
名、 组织名称、 位置等。 NER任务可以通过线性统计模型来解决, 例如最大熵马尔可夫模型
(Maximum Entropy Markov models)、 隐马尔可夫模型(Hidden Markov Models)和条件随
机场(Conditional Random Fields, CRF)。 用于解决NER任务的基于深度学习的技术通 常使
用深度神经网络来捕获句子语义, 并使用CRF层来学习句子级 标签规则。 典型的神经网络结
构包括卷积神经网络结合CRF(Conv ‑CRF)、 长短期记忆网络结合CRF(LSTM ‑CRF)和双向LSTM
网络结合CRF(BiLSTM ‑CRF)。 其中, BiLSTM ‑CRF模型利用双向结构可以同时捕获输入序列前
向和后向的信息, 通常可以获得比Co nv‑CRF和LSTM ‑CRF更好的性能。
[0007]2)语言模型预训练技术已被证明可有效改善许多NLP任务。 BERT(Bidirectional
Encoder Representations from Transformers)是一种基于Transformer的表示模型, 它
使用预训练技术首先在原始语料库中进行训练, 然后针对下游任务(如NER任务)进 行微调。
使用BERT代替BiLSTM(简记为BERT ‑CRF)可以进一步提高性 能。 借助微调技术, BERT ‑CRF模说 明 书 1/8 页
3
CN 114490937 A
3
专利 基于语义感知的评论分析方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:46上传分享