专利 一种语义相似度处理方法、装置、系统以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211006720.X (22)申请日 2022.08.22 (71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号 (72)发明人蔡晓东　蒋鹏　 (74)专利代理机构北京轻创知识产权代理有限公司 11212 专利代理师沈尚林 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) (54)发明名称一种语义相似度处理方法、装置、系统以及存储介质 (57)摘要本发明提供一种语义相似度处理方法、装置、系统以及存储介质，属于语言处理领域，方法包括：对原始句子数据集的筛选得到多个待测句子组；对待测句子组的提取关键字分析得到句子关键信息组以及意图信息组；对待测句子组、句子关键信息组以及意图信息组的隐藏层计算得到待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；根据待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层的目标相似度分数评价分析得到语义相似度处理结果。本发明能够免受匹配语句长度的分歧，利用关键信息和潜在意图判断句子语义相似，以及利用最优化中的单纯形法保证了最优化句子匹配，提高了语义相似度结果的准确率，使得匹配的结果更加理想。权利要求书5页说明书11页附图3页 CN 115329883 A 2022.11.11 CN 115329883 A 1.一种语义相似度处理方法，其特征在于，包括如下步骤：导入原始句子数据集，并对所述原始句子数据集进行筛选，得到多个待测句子，并将多个所述待测句子两两组合得到多个待测句子组；分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组；分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层；分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数，并将所有所述待测句子组的目标相似度分数作为语义相似度处理结果。 2.根据权利要求1所述的语义相似度处理方法，其特征在于，所述对所述原始句子数据集进行筛选，得到多个待测句子的过程包括：按照多个预设句子长度区间对所述原始句子数据集中的原始句子进行分类，得到基于句子长度分类的多个句子分类数据集；分别对各个所述句子分类数据集中的原始句子进行下采样处理，得到与各个所述句子分类数据集一一对应的待判断句子数据集；统计各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量；基于第一式，根据各个所述待判断句子数据集中待判断句子的总数量以及语义相似度为第一预设值的待判断句子的数量进行平均正例子率的计算，得到各个所述待判断句子数据集的平均正例子率，所述第一式为：其中， T为所述待判断句子数据集的平均正例子率， A1为所述待判断句子数据集中语义相似度为第一预设值的待判断句子的数量， A为所述待判断句子数据集中待判断句子的总数量；分别判断各个所述待判断句子数据集的平均正例子率是否等于预设正例子率；若是，则将该所述待判断句子数据集中的待判断句子作为待测句子；若否，则将该所述待判断句子数据集删除。 3.根据权利要求1所述的语义相似度处理方法，其特征在于，所述待测句子组包括第一待测句子和第二待测句子，所述分别对各个所述待测句子组进行提取关键字的分析，得到各个所述待测句子组的句子关键信息组以及意图信息组的过程包括：利用textrank算法分别对各个所述待测句子组中的第一待测句子以及第二待测句子进行关键字提取，对应得到各个所述待测句子组中第一待测句子的句子关键信息以及第二待测句子的句子关键信息；分别将各个所述待测句子组中第一待测句子的句子关键信息以及第二待测句子的句子关键信息进行组合，对应得到各个所述待测句子组的句子关键信息组；利用TextCNN模型，分别根据各个所述待测句子组中的第一待测句子及其句子关键信权　利　要　求　书 1/5 页 2 CN 115329883 A 2息进行意图预测，对应得到各个所述待测句子组中第一待测句子的意图信息；利用所述TextCNN模型，分别根据各个所述待测句子组中的第二待测句子及其句子关键信息进行意图预测，对应得到各个所述待测句子组中第二待测句子的意图信息；分别将各个所述待测句子组中第一待测句子的意图信息与第二待测句子的意图信息进行组合，对应得到各个所述待测句子组的意图信息组。 4.根据权利要求1所述的语义相似度处理方法，其特征在于，所述分别对各个所述待测句子组、各个所述句子关键信息组以及各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层、句子关键信息隐藏层以及意图信息隐藏层的过程包括：通过第二式分别对各个所述待测句子组进行隐藏层计算，得到各个所述待测句子组的待测句子隐藏层，所述第二式为： Ha,b＝PLM([ωcls； Sa,b])，其中， Ha,b为待测句子隐藏层， PLM为BERT语言模型， Sa,b为待测句子组， ωcls为预设句子最前端特殊字符；通过第三式分别对各个所述句子关键信息组进行隐藏层计算，得到各个所述待测句子组的句子关键信息隐藏层，所述第三式为：其中，为句子关键信息隐藏层， PLM为BERT语言模型，为句子关键信息组， ωcls 为预设句子最前端特殊字符；通过第四式分别对各个所述意图信息组进行隐藏层计算，得到各个所述待测句子组的意图信息隐藏层，所述第四式为：其中，为意图信息隐藏层， PLM为BERT 语言模型，为意图信息组， ωcls为预设句子最前端特殊字符。 5.根据权利要求4所述的语义相似度处理方法，其特征在于，所述分别根据与各个所述待测句子组对应的所述待测句子隐藏层、所述句子关键信息隐藏层以及所述意图信息隐藏层进行目标相似度分数的评价分析，得到各个所述待测句子组的目标相似度分数的过程包括：获取第一权重值、第二权重值以及第三权重值，分别对所述第一权重值、所述第二权重值以及所述第三权重值进行随机初始化处理，得到初始化后第一权重值、初始化后第二权重值以及初始化后第三权重值；通过第五式根据所述初始化后第一权重值、所述初始化后第二权重值以及所述初始化后第三权重值进行总权重矩阵的计算，得到总权重矩阵，所述第五式为： H＝[h,hk,hi]，其中， H为总权重矩阵， h为初始化后第一权重值， hk为初始化后第二权重值， hi为初始化后第三权重值；获取第一可训练权重、第二可训练权重以及第三可训练权重，并通过第六式根据所述第一可训练权重以及各个所述待测句子组的待测句子隐藏层进行第一概率值的计算，得到权　利　要　求　书 2/5 页 3 CN 115329883 A 3

专利 一种语义相似度处理方法、装置、系统以及存储介质

专利一种语义相似度处理方法、装置、系统以及存储介质