(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211006720.X
(22)申请日 2022.08.22
(71)申请人 桂林电子科技大 学
地址 541004 广西壮 族自治区桂林市七 星
区金鸡路1号
(72)发明人 蔡晓东 蒋鹏
(74)专利代理 机构 北京轻创知识产权代理有限
公司 11212
专利代理师 沈尚林
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06F 40/30(2020.01)
(54)发明名称
一种语义相似度处理方法、 装置、 系统以及
存储介质
(57)摘要
本发明提供一种语义相似度处理方法、 装
置、 系统以及存储介质, 属于语言处理领域, 方法
包括: 对原始句子数据集的筛选得到多个待测句
子组; 对待测句子组的提取关键字分析得到句子
关键信息组以及意图信息组; 对待测句子组、 句
子关键信息组以及意图信息组的隐藏层计算得
到待测句子隐藏层、 句子关键信息隐藏层以及意
图信息隐藏层; 根据待测句子隐藏层、 句子关键
信息隐藏层以及意图信息隐藏层的目标相似度
分数评价分析得到语义相似度处理结果。 本发明
能够免受匹配语句长度的分歧, 利用关键信息和
潜在意图判断句子语义相似, 以及利用最优化中
的单纯形法保证了最优化句子匹配, 提高了语义
相似度结果的准确率, 使得匹配的结果更加理
想。
权利要求书5页 说明书11页 附图3页
CN 115329883 A
2022.11.11
CN 115329883 A
1.一种语义相似度处 理方法, 其特 征在于, 包括如下步骤:
导入原始句子数据集, 并对所述原始句子数据集进行筛选, 得到多个待测句子, 并将多
个所述待测句子 两两组合得到多个待测句子组;
分别对各个所述待测句子组进行提取关键字的分析, 得到各个所述待测句子组 的句子
关键信息组以及意图信息组;
分别对各个所述待测句子组、 各个所述句子关键信 息组以及各个所述意图信 息组进行
隐藏层计算, 得到各个所述待测句 子组的待测句子隐藏层、 句 子关键信息隐藏层以及意图
信息隐藏层;
分别根据与 各个所述待测句子组对应的所述待测句子隐藏层、 所述句子关键信 息隐藏
层以及所述意图信息隐藏层进 行目标相似度分数的评价分析, 得到各个所述待测句子组的
目标相似度分数, 并将所有所述待测句子组的目标相似度分数作为语义相似度处 理结果。
2.根据权利要求1所述的语义相似度处理方法, 其特征在于, 所述对所述原始句子数据
集进行筛 选, 得到多个待测句子的过程包括:
按照多个预设句子长度区间对所述原始句子数据集中的原始句子进行分类, 得到基于
句子长度分类的多个句子分类数据集;
分别对各个所述句子分类数据集中的原始句子进行下采样处理, 得到与各个所述句子
分类数据集 一一对应的待判断句子数据集;
统计各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设
值的待判断句子的数量;
基于第一式, 根据各个所述待判断句子数据集中待判断句子的总数量以及语义相似度
为第一预设值的待判断句子的数量进 行平均正例子率的计算, 得到各个所述待判断句子数
据集的平均正例子率, 所述第一式为:
其中, T为所述待判断句子数据集的平均正例子率, A1为所述待判断句子数据集中语义
相似度为第一预设值的待判断句 子的数量, A为所述待判断句 子数据集中待判断句 子的总
数量;
分别判断各个所述待判断句子数据集的平均正例子率是否等于预设正例子率; 若是,
则将该所述待判断句 子数据集中的待判断句 子作为待测句 子; 若否, 则将该所述待判断句
子数据集删除。
3.根据权利要求1所述的语义相似度处理方法, 其特征在于, 所述待测句子组包括第 一
待测句子和第二待测句 子, 所述分别对各个所述待测句 子组进行提取关键字的分析, 得到
各个所述待测句子组的句子关键信息组以及意图信息组的过程包括:
利用textrank算法分别对各个所述待测句子组中的第一待测句子以及第二待测句子
进行关键字提取, 对应得到各个所述待测句子组中第一待测句子的句子关键信息以及第二
待测句子的句子关键信息;
分别将各个所述待测句子组中第一待测句子的句子关键信息以及第二待测句子的句
子关键信息进行组合, 对应得到各个所述待测句子组的句子关键信息组;
利用TextCNN模型, 分别根据各个所述待测句子组中的第一待测句子及其句子关键信权 利 要 求 书 1/5 页
2
CN 115329883 A
2息进行意图预测, 对应得到各个所述待测句子组中第一待测句子的意图信息;
利用所述TextCNN模型, 分别根据各个所述待测句子组中的第二待测句子及其句子关
键信息进行意图预测, 对应得到各个所述待测句子组中第二待测句子的意图信息;
分别将各个所述待测句子组中第一待测句子的意图信息与第二待测句子的意图信息
进行组合, 对应得到各个所述待测句子组的意图信息组。
4.根据权利要求1所述的语义相似度处理方法, 其特征在于, 所述分别对各个所述待测
句子组、 各个所述句 子关键信息组以及各个所述意图信息组进行隐藏层计算, 得到各个所
述待测句子组的待测句子隐藏层、 句子关键信息隐藏层以及意图信息隐藏层的过程包括:
通过第二式分别对各个所述待测句子组进行隐藏层计算, 得到各个所述待测句子组 的
待测句子隐藏层, 所述第二式为:
Ha,b=PLM([ωcls; Sa,b]),
其中, Ha,b为待测句子隐藏层, PLM为BERT语言模型, Sa,b为待测句子组, ωcls为预设句子
最前端特殊字符;
通过第三式分别对各个所述句子关键信 息组进行隐藏层计算, 得到各个所述待测句子
组的句子关键信息隐藏层, 所述第三式为:
其中,
为句子关键信息隐藏层, PLM为BERT语言模型,
为句子关键信息组, ωcls
为预设句子最前端特殊字符;
通过第四式分别对各个所述意图信 息组进行隐藏层计算, 得到各个所述待测句子组 的
意图信息隐藏层, 所述第四式为:
其中,
为意图信息隐藏层, PLM为BERT 语言模型,
为意图信息组, ωcls为预设句
子最前端特殊字符。
5.根据权利要求4所述的语义相似度处理方法, 其特征在于, 所述分别根据与 各个所述
待测句子组对应的所述待测句子隐藏层、 所述句子 关键信息隐藏层以及所述意图信息隐藏
层进行目标相似度分数的评价分析, 得到各个所述待测句子组的目标相似度分数的过程包
括:
获取第一权重值、 第二权重值以及第 三权重值, 分别对所述第一权重值、 所述第 二权重
值以及所述第三权重值进行随机初始化处理, 得到初始化后第一权重值、 初始化后第二权
重值以及 初始化后第三权 重值;
通过第五式根据 所述初始化后第 一权重值、 所述初始化后第 二权重值以及所述初始化
后第三权 重值进行总权 重矩阵的计算, 得到总权 重矩阵, 所述第五式为:
H=[h,hk,hi],
其中, H为总权重矩阵, h为初始化后第一权重值, hk为初始化后第二权重值, hi为初始化
后第三权 重值;
获取第一可训练权重、 第二可训练权重以及第三可训练权重, 并通过第六式根据所述
第一可训练权重以及各个所述待测句子组的待测句子隐藏层进行第一概率值的计算, 得到权 利 要 求 书 2/5 页
3
CN 115329883 A
3
专利 一种语义相似度处理方法、装置、系统以及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:06上传分享