公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210970275.2 (22)申请日 2022.08.12 (71)申请人 中科云谷科技有限公司 地址 201306 上海市浦东 新区南汇新城镇 环湖西二路8 88号C楼 (72)发明人 周阳 廖登 周志忠 童兴  宦瑞坤  (74)专利代理 机构 北京润平知识产权代理有限 公司 11283 专利代理师 张乐 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 用于优化语义搜索的方法、 处理器及机器可 读存储介质 (57)摘要 本发明涉及人工智能技术领域, 公开了一种 用于优化语义搜索的方法、 处理器及机器可读存 储介质, 获取专业领域知识库中的专业语料数 据, 从预处理后的专业语料数据中确定第一语料 数据、 第二语料数据以及第三语料数据, 并将第 一语料数据、 第二语料数据以及第三语料数据输 入至待训练模型, 以得到语义训练模型, 基于语 义训练模型确定专业语料数据对应的第一语义 向量, 在获取搜索请求时, 将搜索请求中的搜索 语料数据输入至语义训练模型, 以得到第二语义 向量, 基于第一语义向量和第二语义向量确定搜 索请求对应的搜索结果, 有效提升语义搜索的效 率和精准度, 可适配不同的知识库, 并可针对专 业领域知识库持续的优化, 提高了中小型专业库 搜索引擎的适配度。 权利要求书2页 说明书10页 附图3页 CN 115408533 A 2022.11.29 CN 115408533 A 1.一种用于优化语义搜索的方法, 其特 征在于, 所述方法包括: 获取专业领域知识库中的专业语料 数据; 从预处理后的所述专业语料数据中确定第 一语料数据、 第 二语料数据以及第 三语料数 据, 所述第一语料数据与所述第二语料数据属于同类语料, 所述第一语料数据与所述第三 语料数据属于异类 语料; 将所述第一语料数据、 所述第二语料数据以及所述第三语料数据输入至待训练模型, 以得到语义训练模型; 基于所述语义训练模型确定所述专业语料 数据对应的第一语义向量; 获取搜索请求; 将所述搜索请求中的搜索语料 数据输入至所述语义训练模型, 以得到第二语义向量; 基于所述第一语义向量和所述第二语义向量确定所述搜索请求对应的搜索结果。 2.根据权利要求1所述的方法, 其特 征在于, 所述待训练模型基于以下步骤建立: 获取通用领域知识库的通用语料 数据; 将所述通用语料 数据输入至预设的中文预训练模型, 以得到目标 预训练模型; 将所述目标预训练模型作为三元组网络Triplet  network模型的编码层, 以确定所述 待训练模型。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 一语义向量和所述第 二语 义向量确定所述搜索请求对应的搜索结果, 包括: 对所有的专业语料 数据对应的第一语义向量进行双重降维, 得到目标向量矩阵; 基于所述目标向量矩阵和所述第二语义向量确定所述搜索请求对应的搜索结果。 4.根据权利要求3所述的方法, 其特征在于, 所述对所有的专业语料数据对应的第 一语 义向量进行双重降维, 得到目标向量矩阵, 包括: 基于主成分分析技术PCA对所有的专业语料数据对应的第一语义向量进行第一次降 维, 得到各 所述第一语义向量对应的特 征向量矩阵; 将所有的特 征向量矩阵进行组合, 确定二维特 征向量矩阵; 基于降维算法UMAP对所述 二维特征向量矩阵进行第二次降维, 得到目标向量矩阵。 5.根据权利要求3所述的方法, 其特征在于, 所述基于所述目标向量矩阵和所述第 二语 义向量确定所述搜索请求对应的搜索结果, 包括: 将所述目标向量矩阵按照与专业语料 数据的对应关系进行拆分; 得到与专业语料 数据关联的目标语义向量; 将所有的目标语义向量分别与所述第二语义向量进行内积运 算; 按照进行所述内积运算的结果对所述专业语料数据进行排序, 以生成所述搜索请求对 应的搜索结果。 6.根据权利要求1所述的方法, 其特征在于, 所述从预处理后的所述专业语料数据中确 定第一语料 数据、 第二语料 数据以及第三语料 数据, 包括: 获取预处理后的专业语料 数据; 确定待训练模型支持的预设语料长度; 确定所述预处理后的专业语料数据中语料长度大于所述预设语料长度的第一专业语 料数据;权 利 要 求 书 1/2 页 2 CN 115408533 A 2根据所述预设语料长度对所述第一专业语料 数据进行采样处 理; 确定所述预处理后的专业语料数据中语料长度小于或等于所述预设语料长度的第二 专业语料 数据; 基于所述第二专业语料数据和进行采样处理后的第一专业语料数据确定第一语料数 据、 第二语料 数据以及第三语料 数据。 7.根据权利要求1所述的方法, 其特征在于, 所述将所述第一语料数据、 第二语料数据 以及第三语料 数据输入至待训练模型中, 以得到语义训练模型, 包括: 确定所述第一语料 数据与所述第二语料 数据之间的第一欧式距离; 确定所述第一语料 数据与所述第三语料 数据之间的第二欧式距离; 基于所述第一欧式距离与所述第二欧式距离确定目标损失函数; 根据专业语料 数据和所述目标损失函数确定所述待训练模型中的训练参数; 基于所述训练参数确定语义训练模型。 8.根据权利要求1所述的方法, 其特 征在于, 所述预处 理的步骤, 包括: 基于预制的分词模块, 对所述专业语料 数据进行关键词提取和分词处 理。 9.一种处理器, 其特征在于, 被配置成执行根据权利要求1至8中任意一项所述的用于 优化语义搜索的方法。 10.一种机器可读存储介质, 所述机器可读存储介质上存储有指令, 其特征在于, 所述 指令在被处理器执行时使得所述处理器执行根据权利要求1至8 中任意一项的用于优化语 义搜索的方法。权 利 要 求 书 2/2 页 3 CN 115408533 A 3

PDF文档 专利 用于优化语义搜索的方法、处理器及机器可读存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于优化语义搜索的方法、处理器及机器可读存储介质 第 1 页 专利 用于优化语义搜索的方法、处理器及机器可读存储介质 第 2 页 专利 用于优化语义搜索的方法、处理器及机器可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:12上传分享
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。