公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210909061.4 (22)申请日 2022.07.29 (71)申请人 北京明略昭辉科技有限公司 地址 100000 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人 付金伟 接钧靖  (74)专利代理 机构 北京康盛知识产权代理有限 公司 11331 专利代理师 张宇峰 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) (54)发明名称 用于计算文本相似度 的方法、 装置、 电子设 备和存储介质 (57)摘要 本申请涉及数据能力技术领域, 公开一种用 于计算文本相似度的方法, 包括: 提取第一文本 中的第一特征词和第二文本中的第二特征词; 为 各第一特征词和各第二特征词分别赋予对应的 权重; 其中, 各第一特征词和各第二特征词所对 应的权重根据词性和词频确定; 根据特征词和权 重生成第一指纹向量和第二指纹向量; 再计算第 一指纹向量和第二指纹向量之间的海明距离, 获 得第一文本和第二文本的相似度。 本申请考虑到 文本中不同词性所能表达文本内容的能力并不 相同, 因此根据不同词性赋予了不同的加权值。 进而计算出来的指纹向量, 能更准确地表达文本 的含义, 使文本相似度的分析更加精准。 本申请 还公开一种用于计算文本相似度的装置、 电子设 备和存储介质。 权利要求书2页 说明书7页 附图4页 CN 115130454 A 2022.09.30 CN 115130454 A 1.一种用于计算文本相似度的方法, 其特 征在于, 包括: 提取第一文本中的多个第一特 征词和第二文本中的多个第二特 征词; 为各第一特征词和各第二特征词分别赋予对应的权重; 其中, 各第一特征词和各第二 特征词所对应的权 重根据特 征词的词性和词频计算确定; 利用各第一特 征词和各第一特 征词的权 重生成第一指纹向量; 利用各第二特 征词和各第二特 征词的权 重生成第二指纹向量; 计算所述第 一指纹向量和所述第 二指纹向量之间的海明距离, 获得所述第 一文本和所 述第二文本的相似度。 2.根据权利要求1所述的方法, 其特征在于, 所述为各第 一特征词和各第 二特征词分别 赋予对应的权 重, 包括: 根据各第一特 征词和各第二特 征词的词性类型, 赋予对应于所述词性类型的加权值; 根据各第一特征词的加权值和各第 一特征词在所述第 一文本中的出现频次, 计算各第 一特征词在所述第一文本中的权 重; 根据各第二特征词的加权值和各第 二特征词在所述第 二文本中的出现频次, 计算各第 二特征词在所述第二文本中的权 重。 3.根据权利要求2所述的方法, 其特 征在于, 所述权重的计算方法包括: weight(w,d)=tf(w,d)*l og(N/nw+0.01)*wpos 式中weight(w,d)表示特征词w在文本d中的权重; tf(w,d)表示特征词w在文本d中 的出 现频次; N表示文本的词语总数, nw表示文本中出现关键词w的句子数量; wpos表示词性类型 的加权值; 其中, 在特征词的词性类 型为动词或名词的情况下, wpos=n1; 在特征词的词性类型为其 他词性的情况 下, wpos=n2; n1、 n2均为预设值且为大于 0的整数, n1>n2。 4.根据权利要求1所述的方法, 其特征在于, 所述提取第 一文本中的多个第 一特征词和 第二文本中的多个第二特 征词, 包括: 对所述第一文本和所述第二文本进行分词、 去停用词处理, 提取出所述第一文本中的 多个第一特 征词和所述第二文本中的多个第二特 征词。 5.根据权利要求1所述的方法, 其特征在于, 所述利用各第 一特征词和各第 一特征词的 权重生成第一指纹向量, 包括: 将各第一特征词和各第 一特征词的权重输入词向量转化模型, 计算各第 一特征词的向 量值; 根据各第一特 征词的向量 值和各第一特 征词的权 重, 计算得到所述第一指纹向量。 6.根据权利要求5所述的方法, 其特征在于, 所述根据各第 一特征词的向量值和各第 一 特征词的权 重, 计算得到所述第一指纹向量, 包括: 将各第一特征词的向量值和各第 一特征词对应的权重相乘, 并对所有的相乘结果进行 位的纵向累加, 得到所述第一文本的初始指纹向量; 对所述第一文本的初始指纹向量进行二 值处理, 得到所述第一文本的指纹向量。 7.根据权利要求1至6 中任一项所述的方法, 其特征在于, 在对第一文本进行预设处理, 提取特征词之前, 还 包括:权 利 要 求 书 1/2 页 2 CN 115130454 A 2确定指纹向量的位数。 8.一种用于计算文本相似度的装置, 包括处理器和存储有程序指令的存储器, 其特征 在于, 所述处理器被配置为在运行所述程序指令时, 执行如权利要求1至7任一项所述的用 于计算文本相似度的方法。 9.一种电子设备, 其特 征在于, 包括: 如权利要求8所述的用于计算文本相似度的装置 。 10.一种存储介质, 存储有程序指令, 其特征在于, 所述程序指令在运行时, 执行如权利 要求1至7任一项所述的用于计算文本相似度的方法。权 利 要 求 书 2/2 页 3 CN 115130454 A 3

PDF文档 专利 用于计算文本相似度的方法、装置、电子设备和存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于计算文本相似度的方法、装置、电子设备和存储介质 第 1 页 专利 用于计算文本相似度的方法、装置、电子设备和存储介质 第 2 页 专利 用于计算文本相似度的方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:24上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。