公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210970275.2 (22)申请日 2022.08.12 (71)申请人 中科云谷科技有限公司 地址 201306 上海市浦东 新区南汇新城镇 环湖西二路8 88号C楼 (72)发明人 周阳 廖登 周志忠 童兴 宦瑞坤 (74)专利代理 机构 北京润平知识产权代理有限 公司 11283 专利代理师 张乐 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 用于优化语义搜索的方法、 处理器及机器可 读存储介质 (57)摘要 本发明涉及人工智能技术领域, 公开了一种 用于优化语义搜索的方法、 处理器及机器可读存 储介质, 获取专业领域知识库中的专业语料数 据, 从预处理后的专业语料数据中确定第一语料 数据、 第二语料数据以及第三语料数据, 并将第 一语料数据、 第二语料数据以及第三语料数据输 入至待训练模型, 以得到语义训练模型, 基于语 义训练模型确定专业语料数据对应的第一语义 向量, 在获取搜索请求时, 将搜索请求中的搜索 语料数据输入至语义训练模型, 以得到第二语义 向量, 基于第一语义向量和第二语义向量确定搜 索请求对应的搜索结果, 有效提升语义搜索的效 率和精准度, 可适配不同的知识库, 并可针对专 业领域知识库持续的优化, 提高了中小型专业库 搜索引擎的适配度。 权利要求书2页 说明书10页 附图3页 CN 115408533 A 2022.11.29 CN 115408533 A 1.一种用于优化语义搜索的方法, 其特 征在于, 所述方法包括: 获取专业领域知识库中的专业语料 数据; 从预处理后的所述专业语料数据中确定第 一语料数据、 第 二语料数据以及第 三语料数 据, 所述第一语料数据与所述第二语料数据属于同类语料, 所述第一语料数据与所述第三 语料数据属于异类 语料; 将所述第一语料数据、 所述第二语料数据以及所述第三语料数据输入至待训练模型, 以得到语义训练模型; 基于所述语义训练模型确定所述专业语料 数据对应的第一语义向量; 获取搜索请求; 将所述搜索请求中的搜索语料 数据输入至所述语义训练模型, 以得到第二语义向量; 基于所述第一语义向量和所述第二语义向量确定所述搜索请求对应的搜索结果。 2.根据权利要求1所述的方法, 其特 征在于, 所述待训练模型基于以下步骤建立: 获取通用领域知识库的通用语料 数据; 将所述通用语料 数据输入至预设的中文预训练模型, 以得到目标 预训练模型; 将所述目标预训练模型作为三元组网络Triplet network模型的编码层, 以确定所述 待训练模型。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 一语义向量和所述第 二语 义向量确定所述搜索请求对应的搜索结果, 包括: 对所有的专业语料 数据对应的第一语义向量进行双重降维, 得到目标向量矩阵; 基于所述目标向量矩阵和所述第二语义向量确定所述搜索请求对应的搜索结果。 4.根据权利要求3所述的方法, 其特征在于, 所述对所有的专业语料数据对应的第 一语 义向量进行双重降维, 得到目标向量矩阵, 包括: 基于主成分分析技术PCA对所有的专业语料数据对应的第一语义向量进行第一次降 维, 得到各 所述第一语义向量对应的特 征向量矩阵; 将所有的特 征向量矩阵进行组合, 确定二维特 征向量矩阵; 基于降维算法UMAP对所述 二维特征向量矩阵进行第二次降维, 得到目标向量矩阵。 5.根据权利要求3所述的方法, 其特征在于, 所述基于所述目标向量矩阵和所述第 二语 义向量确定所述搜索请求对应的搜索结果, 包括: 将所述目标向量矩阵按照与专业语料 数据的对应关系进行拆分; 得到与专业语料 数据关联的目标语义向量; 将所有的目标语义向量分别与所述第二语义向量进行内积运 算; 按照进行所述内积运算的结果对所述专业语料数据进行排序, 以生成所述搜索请求对 应的搜索结果。 6.根据权利要求1所述的方法, 其特征在于, 所述从预处理后的所述专业语料数据中确 定第一语料 数据、 第二语料 数据以及第三语料 数据, 包括: 获取预处理后的专业语料 数据; 确定待训练模型支持的预设语料长度; 确定所述预处理后的专业语料数据中语料长度大于所述预设语料长度的第一专业语 料数据;权 利 要 求 书 1/2 页 2 CN 115408533 A 2根据所述预设语料长度对所述第一专业语料 数据进行采样处 理; 确定所述预处理后的专业语料数据中语料长度小于或等于所述预设语料长度的第二 专业语料 数据; 基于所述第二专业语料数据和进行采样处理后的第一专业语料数据确定第一语料数 据、 第二语料 数据以及第三语料 数据。 7.根据权利要求1所述的方法, 其特征在于, 所述将所述第一语料数据、 第二语料数据 以及第三语料 数据输入至待训练模型中, 以得到语义训练模型, 包括: 确定所述第一语料 数据与所述第二语料 数据之间的第一欧式距离; 确定所述第一语料 数据与所述第三语料 数据之间的第二欧式距离; 基于所述第一欧式距离与所述第二欧式距离确定目标损失函数; 根据专业语料 数据和所述目标损失函数确定所述待训练模型中的训练参数; 基于所述训练参数确定语义训练模型。 8.根据权利要求1所述的方法, 其特 征在于, 所述预处 理的步骤, 包括: 基于预制的分词模块, 对所述专业语料 数据进行关键词提取和分词处 理。 9.一种处理器, 其特征在于, 被配置成执行根据权利要求1至8中任意一项所述的用于 优化语义搜索的方法。 10.一种机器可读存储介质, 所述机器可读存储介质上存储有指令, 其特征在于, 所述 指令在被处理器执行时使得所述处理器执行根据权利要求1至8 中任意一项的用于优化语 义搜索的方法。权 利 要 求 书 2/2 页 3 CN 115408533 A 3
专利 用于优化语义搜索的方法、处理器及机器可读存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:12
上传分享
举报
下载
原文档
(678.9 KB)
分享
友情链接
DB52-T 1741-2023 快递绿色包装使用评价规范 贵州省.pdf
DB14-T 1720-2018 黄土公路隧道工程监测技术规程 山西省.pdf
T-CSAE 72—2018 汽车涂层耐紫外线穿透性能测试及评价方法.pdf
GB-T 37655-2019 光伏与建筑一体化发电系统验收规范.pdf
GB-T 27926.8-2021 金融服务 金融业通用报文方案 第8部分:ASN.1生成.pdf
GB-T 36470-2018 信息安全技术 工业控制系统现场测控设备通用安全功能要求.pdf
DB12-T 724.35-2021 安全生产等级评定技术规范 第35部分:医药制造企业 天津市.pdf
GM-T 0071-2019 电子文件密码应用指南.pdf
SY-T 6643-2021 陆上多波多分量地震资料采集技术规程.pdf
GB-T 25205-2010 雨淋喷头.pdf
GM-T 0005-2021 随机性检测规范.pdf
GB-T 14331-2017 自动卷簧机 精度.pdf
GB-T 17116.3-2018 管道支吊架 第3部分:中间连接件和建筑结构连接件.pdf
GB-T 15320-2001节能产品评价导则.pdf
专利 电力系统信息网络仿真平台的运行管理方法.PDF
T-SDL 3.4—2021 10 kV智能电缆系统技术规范 第4部分 10 kV交联聚乙烯绝缘智能电力电缆附件.pdf
GB-T 31505-2015 信息安全技术 主机型防火墙安全技术要求和测试评价方法.pdf
GB-T 28447-2012 信息安全技术 电子认证服务机构运营管理规范.pdf
GB-T 32918.1-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第1部分:总则.pdf
TB-T 2231.2-2018 铁道车辆制动系统 第2部分:货车.pdf
交流群
-->
1
/
16
评价文档
赞助2元 点击下载(678.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。