(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210909061.4
(22)申请日 2022.07.29
(71)申请人 北京明略昭辉科技有限公司
地址 100000 北京市海淀区北三环西路25
号27号楼二层2020室
(72)发明人 付金伟 接钧靖
(74)专利代理 机构 北京康盛知识产权代理有限
公司 11331
专利代理师 张宇峰
(51)Int.Cl.
G06F 40/194(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
(54)发明名称
用于计算文本相似度 的方法、 装置、 电子设
备和存储介质
(57)摘要
本申请涉及数据能力技术领域, 公开一种用
于计算文本相似度的方法, 包括: 提取第一文本
中的第一特征词和第二文本中的第二特征词; 为
各第一特征词和各第二特征词分别赋予对应的
权重; 其中, 各第一特征词和各第二特征词所对
应的权重根据词性和词频确定; 根据特征词和权
重生成第一指纹向量和第二指纹向量; 再计算第
一指纹向量和第二指纹向量之间的海明距离, 获
得第一文本和第二文本的相似度。 本申请考虑到
文本中不同词性所能表达文本内容的能力并不
相同, 因此根据不同词性赋予了不同的加权值。
进而计算出来的指纹向量, 能更准确地表达文本
的含义, 使文本相似度的分析更加精准。 本申请
还公开一种用于计算文本相似度的装置、 电子设
备和存储介质。
权利要求书2页 说明书7页 附图4页
CN 115130454 A
2022.09.30
CN 115130454 A
1.一种用于计算文本相似度的方法, 其特 征在于, 包括:
提取第一文本中的多个第一特 征词和第二文本中的多个第二特 征词;
为各第一特征词和各第二特征词分别赋予对应的权重; 其中, 各第一特征词和各第二
特征词所对应的权 重根据特 征词的词性和词频计算确定;
利用各第一特 征词和各第一特 征词的权 重生成第一指纹向量;
利用各第二特 征词和各第二特 征词的权 重生成第二指纹向量;
计算所述第 一指纹向量和所述第 二指纹向量之间的海明距离, 获得所述第 一文本和所
述第二文本的相似度。
2.根据权利要求1所述的方法, 其特征在于, 所述为各第 一特征词和各第 二特征词分别
赋予对应的权 重, 包括:
根据各第一特 征词和各第二特 征词的词性类型, 赋予对应于所述词性类型的加权值;
根据各第一特征词的加权值和各第 一特征词在所述第 一文本中的出现频次, 计算各第
一特征词在所述第一文本中的权 重;
根据各第二特征词的加权值和各第 二特征词在所述第 二文本中的出现频次, 计算各第
二特征词在所述第二文本中的权 重。
3.根据权利要求2所述的方法, 其特 征在于,
所述权重的计算方法包括:
weight(w,d)=tf(w,d)*l og(N/nw+0.01)*wpos
式中weight(w,d)表示特征词w在文本d中的权重; tf(w,d)表示特征词w在文本d中 的出
现频次; N表示文本的词语总数, nw表示文本中出现关键词w的句子数量; wpos表示词性类型
的加权值;
其中, 在特征词的词性类 型为动词或名词的情况下, wpos=n1; 在特征词的词性类型为其
他词性的情况 下, wpos=n2; n1、 n2均为预设值且为大于 0的整数, n1>n2。
4.根据权利要求1所述的方法, 其特征在于, 所述提取第 一文本中的多个第 一特征词和
第二文本中的多个第二特 征词, 包括:
对所述第一文本和所述第二文本进行分词、 去停用词处理, 提取出所述第一文本中的
多个第一特 征词和所述第二文本中的多个第二特 征词。
5.根据权利要求1所述的方法, 其特征在于, 所述利用各第 一特征词和各第 一特征词的
权重生成第一指纹向量, 包括:
将各第一特征词和各第 一特征词的权重输入词向量转化模型, 计算各第 一特征词的向
量值;
根据各第一特 征词的向量 值和各第一特 征词的权 重, 计算得到所述第一指纹向量。
6.根据权利要求5所述的方法, 其特征在于, 所述根据各第 一特征词的向量值和各第 一
特征词的权 重, 计算得到所述第一指纹向量, 包括:
将各第一特征词的向量值和各第 一特征词对应的权重相乘, 并对所有的相乘结果进行
位的纵向累加, 得到所述第一文本的初始指纹向量;
对所述第一文本的初始指纹向量进行二 值处理, 得到所述第一文本的指纹向量。
7.根据权利要求1至6 中任一项所述的方法, 其特征在于, 在对第一文本进行预设处理,
提取特征词之前, 还 包括:权 利 要 求 书 1/2 页
2
CN 115130454 A
2确定指纹向量的位数。
8.一种用于计算文本相似度的装置, 包括处理器和存储有程序指令的存储器, 其特征
在于, 所述处理器被配置为在运行所述程序指令时, 执行如权利要求1至7任一项所述的用
于计算文本相似度的方法。
9.一种电子设备, 其特 征在于, 包括:
如权利要求8所述的用于计算文本相似度的装置 。
10.一种存储介质, 存储有程序指令, 其特征在于, 所述程序指令在运行时, 执行如权利
要求1至7任一项所述的用于计算文本相似度的方法。权 利 要 求 书 2/2 页
3
CN 115130454 A
3
专利 用于计算文本相似度的方法、装置、电子设备和存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:24上传分享