公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210965570.9 (22)申请日 2022.08.12 (71)申请人 首都师范大学 地址 100089 北京市海淀区西三环北路10 5 号 (72)发明人 齐军华 张凯 周建设 王伟丽 (74)专利代理 机构 北京清控智云知识产权代理 事务所 (特殊普通合伙) 11919 专利代理师 管士涛 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种语义检索方法、 系统及计算机存 储介质 (57)摘要 本申请一种语义检索方法、 系统及计算机存 储介质, 将在计算机相关技术基础之上应用统计 学的相关知识和本申请提出的等同关系特征加 权、 相关关系特征加权和等级系数计算自动识别 汽车专利领域内词与词之间的等同、 相关和等级 关系, 根据这三种词间关系自动构建一部汽车专 利相关领域主题词表。 相比于现有技术, 无需手 工构建主题语表, 构建及更新速度更快, 避免了 不同工作人员的经历、 知识不统一引起构建的标 准不一的问题。 权利要求书2页 说明书6页 附图2页 CN 115329043 A 2022.11.11 CN 115329043 A 1.一种语义检索方法, 其特 征在于, 所述方法包括: S1、 构建属于检索领域的主题词表; S2、 响应于内容检索请求, 确定所述检索请求中的至少一个 检索关键词; S3、 基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词; S4、 分别基于所述至少一个目标检索词进行内容检索, 得到多条检索结果; S5、 将所述多条检索结果 合并为一条检索结果进行输出。 2.根据权利要求1所述的语义检索方法, 其特征在于: 步骤S1中构建属于检索领域的主 题词表, 包括: S11, 对预定领域专利文本进行预处理: 首先提取各专利文本中的子句; 其次, 对每个子 句, 结合属性词本体词库, 进行分词, 从而构建初步主题词集; S12, 对所述初步主题词集进行等同关系识别、 相关 关系识别、 等级关系识别; S13, 基于所述识别得 出的等同关系 、 相关关系、 等级关系, 构建主题词表。 3.根据权利要求2所述的语义检索方法, 其特征在于: 所述步骤S12中的等同关系识别, 包括: 根据共现分析和字面相似度计算加权的方法来识别词间的等同关系, 计算方法如下: Sim(Ti, Tj)=α·W(Ti, Tj)+β·S(Ti, Tj) 其中, Ti、 Tj为两个不相同的词, Sim(Ti, Tj)为两词间的相似度; W(Ti, Tj)为两词间的共 现权重; S(Ti, Tj)为两词间的字面相似度; α 、 β 为权 重因子且α +β =1。 4.根据权利要求2所述的语义检索方法, 其特 征在于: 所述共现权 重的计算方法为: 其中, W(T1, T2)为词T1和T2的距离, 表征两词间的共现权重; T1、 T2为两个不相同的词, K 表示特征向量的维数; W1i表示词T1的特征向量第i维的值; W2i表示词T2的特征向量第i维的 值。 5.根据权利要求2所述的语义检索方法, 其特 征在于: 所述字面相似度计算方法下: 其中, Ti、 Tj为两个不相同的词, S(Ti, Tj)是词间的字面相似度; Lij为词Ti和Tj中相同字 的个数; Li、 Lj分别为词Ti和Tj的长度。 6.根据权利要求2所述的语义检索方法, 其特征在于: 所述步骤S12中的相关关系识别, 包括: 采用如下公式来识别术语之间的关联度: Rel(Ti, Tj)=γ·W(Ti, Tj)+δ·Dice(Ti, Tj) 其中, Ti、 Tj为两个不相同的词, Rel(Ti, Tj)为两词间的相关度; W(Ti, Tj)为两词间的共 现权重; Dice(Ti, Tj)为两词间的Dice测试权 重; γ、 δ 为权 重因子且γ+δ =1; 所述两词间的Dice测试权 重的计算方式如下: Dice(Ti, Tj)=2F(Ti, Tj)/(F(Ti)+F(Tj)) 其中, Ti、 Tj为两个不相同的词, Dice(Ti, Tj)表示词Ti与词Tj的Dice测度值; F(Ti, Tj)表 示词Ti与词Tj共同出现的文章总数; F(Ti)表示出现词Ti的文章总数; F(Tj)表示出现词Tj的权 利 要 求 书 1/2 页 2 CN 115329043 A 2文章总数。 7.根据权利要求2所述的语义检索方法, 其特征在于: 所述步骤S12中的等级关系识别, 采用如下公式: idf(Ti)= log(N/ni) 其中, H(Ti)为词汇的等级系数; Freq(Ti)为词汇Ti的总词频, len(Ti)表示词汇Ti的长 度; idf(Ti)为词汇的逆文档频率; N表示文档总数; ni指出现词汇Ti的文档数。 8.一种语义检索系统, 所述系统包括: 构建模块, 用于构建属于检索领域的主题词表; 检索词提取模块一, 用于响应于内容检索请求, 确定所述检索请求中的至少一个检索 关键词; 检索词提取模块二、 基于主题词表获取与 所述检索 关键词的语义相匹配的至少一个目 标检索词; 检索模块, 用于分别基于所述至少一个目标检索词进行内容检索, 得到多条检索结果; 检索输出模块, 用于将所述多条检索结果 合并为一条检索结果进行输出。 9.一种语义检索设备, 其特 征在于, 所述设备包括: 存储有可执行程序代码的存 储器; 与所述存 储器耦合的处 理器; 所述处理器调用所述存储器中存储的所述可执行程序代码, 执行如权利要求1 ‑7任一 项的语义检索方法。 10.一种存储介质, 其特征在于, 所述存储介质存储有计算机指令, 所述计算机指令被 调用时, 用于执 行如权利要求1 ‑7任一项所述的语义检索方法。权 利 要 求 书 2/2 页 3 CN 115329043 A 3
专利 一种语义检索方法、系统及计算机存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:12
上传分享
举报
下载
原文档
(471.3 KB)
分享
友情链接
GB-T 28521-2012 通信局站用智能新风节能系统.pdf
DB37-T 3802-2019 花生品种鉴定技术规程 SSR标记法 山东省.pdf
DB14-T 2841-2023 政务云平台 运维规范 山西省.pdf
中国人工智能系列白皮书 大模型技术白皮书2023版.pdf
DL-T 920-2019 六氟化硫气体中空气、四氟化碳、六氟乙烷和八氟丙烷的测定 气相色谱法.pdf
关于规范金融业开源技术应用与发展的意见.pdf
DB3301-T 0278-2019 小城镇环境综合整治长效管理规范 杭州市.pdf
DB37-T 3160-2018 渔港安全管理规范 山东省.pdf
GB-T 29000-2012 单板干燥节能技术规范.pdf
GB-T 4831-2016 旋转电机产品型号编制方法.pdf
国君计算机 ChatGPT研究框架 ChatGPT-生成式AI迎来拐点,商用落地前景可期.pdf
GB-T 38542-2020 信息安全技术 基于生物特征识别的移动智能终端身份鉴别技术框架.pdf
IEC62443-3-2 2020-06.pdf
GB-T 42760-2023 智慧城市 感知终端应用指南.pdf
GM-T 0125.4-2022 JSON Web 密码应用语法规范 第4部分:密钥.pdf
GB-T 39477-2020 信息安全技术 政务信息共享 数据安全技术要求.pdf
T-CEC 694—2022 变电站二次系统数字化设计编码规范.pdf
GB-T 39505-2020 家用电理发剪及修发器性能测试方法.pdf
GB-T 26006-2010 船用铝合金挤压管、棒、型材.pdf
GB-T 34079.2-2021 基于云计算的电子政务公共平台服务规范 第2部分:应用部署和数据迁移.pdf
交流群
-->
1
/
11
评价文档
赞助2元 点击下载(471.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。