(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210935038.2
(22)申请日 2022.08.05
(71)申请人 浪潮软件股份有限公司
地址 271000 山东省泰安市东 岳大街527号
浪潮科技园
(72)发明人 吴俊雄 潘震 仇恒坦 杨春蕾
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 潘悦梅
(51)Int.Cl.
G06F 40/247(2020.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06F 16/33(2019.01)
(54)发明名称
近义词库构建方法及系统、 电子装置及计算
机可读介质
(57)摘要
本发明公开了近义词 库构建方法及系统、 电
子装置及计算机可读介质, 属于自然语 言处理技
术领域, 要解决的技术问题为如何通过自然语言
处理技术, 准确快速的提取近义词、 辅助业务人
员构建近义词库。 包括如下步骤: 通过中分分词
对文本进行关键词提取, 将提取的多个 关键词作
为初始关键词; 对所述多个初始关键词进行预处
理, 去除停用词以及重复词、 并根据词性筛选关
键词, 得到最终的关键词; 基于构建的语义空间
计算每个关键词的词向量, 以词向量之间的余弦
夹角为语义相似度指标, 基于关键词之间的语义
相似度筛 选出近义词、 并构建近义词库。
权利要求书2页 说明书6页 附图1页
CN 115392225 A
2022.11.25
CN 115392225 A
1.一种近义词库构建方法, 其特 征在于应用于政务场景, 包括如下步骤:
通过中分 分词对文本进行关键词提取, 将提取的多个关键词作为初始关键词;
对所述多个初始关键词进行预处理, 去除停用词以及重复词、 并根据词性筛选关键词,
得到最终的关键词;
基于构建的语义空间计算每个关键词的词向量, 以词向量之间的余弦夹角为语义相似
度指标, 基于关键词之间的语义相似度筛 选出近义词、 并构建近义词库。
2.根据权利要求1所述的用于政务场景的近义词库构建方法, 其特征在于通过如下步
骤筛选出近义词:
构建语义空间;
对于每个关键词, 将所述关键词映射到语义空间得到对应的词向量;
基于词向量依次计算任意两个关键词之间的语义相似度, 并将大于 阈值的语义相似度
对应的两个关键词筛 选为近似词。
3.根据权利要求2所述的用于政务场景的近义词库构建方法, 其特征在于对于N个关键
词, 基于词向量依 次计算任意两个关键词之间的语义相似度, 并将大于阈值的语义相似度
对应的两个关键词筛 选为近似词, 包括如下步骤:
对于每个关键词, 基于词向量计算所述关键词与所述N个关键词之间的语义相似度, 得
到N*N的相似度矩阵, 所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与
第b个关键词之间的语义相似度;
设定阈值x, 从所述相似度矩阵中筛 选出语义相似度大于阈值的坐标位置;
对于筛选出的坐标位置, 通过如下步骤进行再次筛选: 去 除行坐标值和列坐标值相同
的坐标位置, 如果两个坐标位置对应的两个关键词相同, 判定所述两个坐标位置为重复位
置, 对于重复位置只保留一个坐标位置;
对于最终的坐标位置, 将所述 坐标位置对应的两个关键词为近义词。
4.根据权利要求1 ‑3任一项所述的用于政务场景的近义词库构建方法, 其特征在于所
述词性包括名词、 介词、 形容词和标点词;
关键词的词性限制为名词、 专有名词、 地址和机构, 不是介词、 形容词和标点词, 基于所
述限制词性, 筛 选出关键词。
5.一种用于政务场景的近义词库构建系统, 其特征在于用于通过如权利要求1 ‑4任一
项所述的一种近义词库构建方法构建应用场景 下的近义词库, 所述系统包括:
关键词提取模块, 所述关键词提取模块用于通过中分分词对文本进行关键词提取, 将
提取的多个关键词作为初始关键词;
预处理模块, 所述预处理模块用于对所述多个初始关键词进行预处理, 去 除停用词以
及重复词、 并根据词性筛 选关键词, 得到最终的关键词;
近义词库构建模块, 所述近义词库构建模块用于基于构建的语义空间计算每个关键词
的词向量, 以词向量之间的余弦夹角为语义相似度指标, 基于关键词之间的语义相似度筛
选出近义词、 并构建近义词库。
6.根据权利要求5所述的用于政务场景的近义词库构建系统, 其特征在于所述近义词
库构建模块用于通过如下步骤筛 选近义词:
构建语义空间;权 利 要 求 书 1/2 页
2
CN 115392225 A
2对于每个关键词, 将所述关键词映射到语义空间得到对应的词向量;
基于词向量依次计算任意两个关键词之间的语义相似度, 并将大于 阈值的语义相似度
对应的两个关键词筛 选为近似词。
7.根据权利要求6所述的用于政务场景的近义词库构建系统, 其特征在于对于N个关键
词, 所述近义词库构建模块用于如下步骤基于词向量依次计算任意两个关键词之 间的语义
相似度, 并将大于阈值的语义相似度对应的两个关键词筛 选为近似词:
对于每个关键词, 基于词向量计算所述关键词与所述N个关键词之间的语义相似度, 得
到N*N的相似度矩阵, 所述相似度矩阵中(a,b)坐标位置的语义相似度表示第a个关键词与
第b个关键词之间的语义相似度;
设定阈值x, 从所述相似度矩阵中筛 选出语义相似度大于阈值的坐标位置;
对于筛选出的坐标位置, 通过如下步骤进行再次筛选: 去 除行坐标值和列坐标值相同
的坐标位置, 如果两个坐标位置对应的两个关键词相同, 判定所述两个坐标位置为重复位
置, 对于重复位置只保留一个坐标位置;
对于最终的坐标位置, 将所述 坐标位置对应的两个关键词为近义词。
8.根据权利要求5 ‑7任一项所述的用于政务场景的近义词库构建系统, 其特征在于所
述词性包括名词、 介词、 形容词和标点词;
所述预处理模块用于将关键词的词性限制为名词、 专有名词、 地址和机构, 不是介词、
形容词和标点词, 并用于基于所述限制词性, 筛 选出关键词。
9.一种电子装置, 其特 征在于, 包括: 至少一个存 储器和至少一个处 理器;
所述至少一个存 储器, 用于存 储机器可读程序;
所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至4中任一所述的
方法。
10.计算机可读介质, 其特征在于, 所述计算机可读介质上存储有计算机指令, 所述计
算机指令在被处 理器执行时, 使所述处 理器执行权利要求1至4任一所述的方法。权 利 要 求 书 2/2 页
3
CN 115392225 A
3
专利 近义词库构建方法及系统、电子装置及计算机可读介质
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:17上传分享