公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210965570.9 (22)申请日 2022.08.12 (71)申请人 首都师范大学 地址 100089 北京市海淀区西三环北路10 5 号 (72)发明人 齐军华 张凯 周建设 王伟丽  (74)专利代理 机构 北京清控智云知识产权代理 事务所 (特殊普通合伙) 11919 专利代理师 管士涛 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种语义检索方法、 系统及计算机存 储介质 (57)摘要 本申请一种语义检索方法、 系统及计算机存 储介质, 将在计算机相关技术基础之上应用统计 学的相关知识和本申请提出的等同关系特征加 权、 相关关系特征加权和等级系数计算自动识别 汽车专利领域内词与词之间的等同、 相关和等级 关系, 根据这三种词间关系自动构建一部汽车专 利相关领域主题词表。 相比于现有技术, 无需手 工构建主题语表, 构建及更新速度更快, 避免了 不同工作人员的经历、 知识不统一引起构建的标 准不一的问题。 权利要求书2页 说明书6页 附图2页 CN 115329043 A 2022.11.11 CN 115329043 A 1.一种语义检索方法, 其特 征在于, 所述方法包括: S1、 构建属于检索领域的主题词表; S2、 响应于内容检索请求, 确定所述检索请求中的至少一个 检索关键词; S3、 基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词; S4、 分别基于所述至少一个目标检索词进行内容检索, 得到多条检索结果; S5、 将所述多条检索结果 合并为一条检索结果进行输出。 2.根据权利要求1所述的语义检索方法, 其特征在于: 步骤S1中构建属于检索领域的主 题词表, 包括: S11, 对预定领域专利文本进行预处理: 首先提取各专利文本中的子句; 其次, 对每个子 句, 结合属性词本体词库, 进行分词, 从而构建初步主题词集; S12, 对所述初步主题词集进行等同关系识别、 相关 关系识别、 等级关系识别; S13, 基于所述识别得 出的等同关系 、 相关关系、 等级关系, 构建主题词表。 3.根据权利要求2所述的语义检索方法, 其特征在于: 所述步骤S12中的等同关系识别, 包括: 根据共现分析和字面相似度计算加权的方法来识别词间的等同关系, 计算方法如下: Sim(Ti, Tj)=α·W(Ti, Tj)+β·S(Ti, Tj) 其中, Ti、 Tj为两个不相同的词, Sim(Ti, Tj)为两词间的相似度; W(Ti, Tj)为两词间的共 现权重; S(Ti, Tj)为两词间的字面相似度; α 、 β 为权 重因子且α +β =1。 4.根据权利要求2所述的语义检索方法, 其特 征在于: 所述共现权 重的计算方法为: 其中, W(T1, T2)为词T1和T2的距离, 表征两词间的共现权重; T1、 T2为两个不相同的词, K 表示特征向量的维数; W1i表示词T1的特征向量第i维的值; W2i表示词T2的特征向量第i维的 值。 5.根据权利要求2所述的语义检索方法, 其特 征在于: 所述字面相似度计算方法下: 其中, Ti、 Tj为两个不相同的词, S(Ti, Tj)是词间的字面相似度; Lij为词Ti和Tj中相同字 的个数; Li、 Lj分别为词Ti和Tj的长度。 6.根据权利要求2所述的语义检索方法, 其特征在于: 所述步骤S12中的相关关系识别, 包括: 采用如下公式来识别术语之间的关联度: Rel(Ti, Tj)=γ·W(Ti, Tj)+δ·Dice(Ti, Tj) 其中, Ti、 Tj为两个不相同的词, Rel(Ti, Tj)为两词间的相关度; W(Ti, Tj)为两词间的共 现权重; Dice(Ti, Tj)为两词间的Dice测试权 重; γ、 δ 为权 重因子且γ+δ =1; 所述两词间的Dice测试权 重的计算方式如下: Dice(Ti, Tj)=2F(Ti, Tj)/(F(Ti)+F(Tj)) 其中, Ti、 Tj为两个不相同的词, Dice(Ti, Tj)表示词Ti与词Tj的Dice测度值; F(Ti, Tj)表 示词Ti与词Tj共同出现的文章总数; F(Ti)表示出现词Ti的文章总数; F(Tj)表示出现词Tj的权 利 要 求 书 1/2 页 2 CN 115329043 A 2文章总数。 7.根据权利要求2所述的语义检索方法, 其特征在于: 所述步骤S12中的等级关系识别, 采用如下公式: idf(Ti)= log(N/ni) 其中, H(Ti)为词汇的等级系数; Freq(Ti)为词汇Ti的总词频, len(Ti)表示词汇Ti的长 度; idf(Ti)为词汇的逆文档频率; N表示文档总数; ni指出现词汇Ti的文档数。 8.一种语义检索系统, 所述系统包括: 构建模块, 用于构建属于检索领域的主题词表; 检索词提取模块一, 用于响应于内容检索请求, 确定所述检索请求中的至少一个检索 关键词; 检索词提取模块二、 基于主题词表获取与 所述检索 关键词的语义相匹配的至少一个目 标检索词; 检索模块, 用于分别基于所述至少一个目标检索词进行内容检索, 得到多条检索结果; 检索输出模块, 用于将所述多条检索结果 合并为一条检索结果进行输出。 9.一种语义检索设备, 其特 征在于, 所述设备包括: 存储有可执行程序代码的存 储器; 与所述存 储器耦合的处 理器; 所述处理器调用所述存储器中存储的所述可执行程序代码, 执行如权利要求1 ‑7任一 项的语义检索方法。 10.一种存储介质, 其特征在于, 所述存储介质存储有计算机指令, 所述计算机指令被 调用时, 用于执 行如权利要求1 ‑7任一项所述的语义检索方法。权 利 要 求 书 2/2 页 3 CN 115329043 A 3

PDF文档 专利 一种语义检索方法、系统及计算机存储介质

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种语义检索方法、系统及计算机存储介质 第 1 页 专利 一种语义检索方法、系统及计算机存储介质 第 2 页 专利 一种语义检索方法、系统及计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。