专利 用于优化语义搜索的方法、处理器及机器可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210970275.2 (22)申请日 2022.08.12 (71)申请人中科云谷科技有限公司地址 201306 上海市浦东新区南汇新城镇环湖西二路8 88号C楼 (72)发明人周阳　廖登　周志忠　童兴　宦瑞坤　 (74)专利代理机构北京润平知识产权代理有限公司 11283 专利代理师张乐 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称用于优化语义搜索的方法、处理器及机器可读存储介质 (57)摘要本发明涉及人工智能技术领域，公开了一种用于优化语义搜索的方法、处理器及机器可读存储介质，获取专业领域知识库中的专业语料数据，从预处理后的专业语料数据中确定第一语料数据、第二语料数据以及第三语料数据，并将第一语料数据、第二语料数据以及第三语料数据输入至待训练模型，以得到语义训练模型，基于语义训练模型确定专业语料数据对应的第一语义向量，在获取搜索请求时，将搜索请求中的搜索语料数据输入至语义训练模型，以得到第二语义向量，基于第一语义向量和第二语义向量确定搜索请求对应的搜索结果，有效提升语义搜索的效率和精准度，可适配不同的知识库，并可针对专业领域知识库持续的优化，提高了中小型专业库搜索引擎的适配度。权利要求书2页说明书10页附图3页 CN 115408533 A 2022.11.29 CN 115408533 A 1.一种用于优化语义搜索的方法，其特征在于，所述方法包括：获取专业领域知识库中的专业语料数据；从预处理后的所述专业语料数据中确定第一语料数据、第二语料数据以及第三语料数据，所述第一语料数据与所述第二语料数据属于同类语料，所述第一语料数据与所述第三语料数据属于异类语料；将所述第一语料数据、所述第二语料数据以及所述第三语料数据输入至待训练模型，以得到语义训练模型；基于所述语义训练模型确定所述专业语料数据对应的第一语义向量；获取搜索请求；将所述搜索请求中的搜索语料数据输入至所述语义训练模型，以得到第二语义向量；基于所述第一语义向量和所述第二语义向量确定所述搜索请求对应的搜索结果。 2.根据权利要求1所述的方法，其特征在于，所述待训练模型基于以下步骤建立：获取通用领域知识库的通用语料数据；将所述通用语料数据输入至预设的中文预训练模型，以得到目标预训练模型；将所述目标预训练模型作为三元组网络Triplet network模型的编码层，以确定所述待训练模型。 3.根据权利要求1所述的方法，其特征在于，所述基于所述第一语义向量和所述第二语义向量确定所述搜索请求对应的搜索结果，包括：对所有的专业语料数据对应的第一语义向量进行双重降维，得到目标向量矩阵；基于所述目标向量矩阵和所述第二语义向量确定所述搜索请求对应的搜索结果。 4.根据权利要求3所述的方法，其特征在于，所述对所有的专业语料数据对应的第一语义向量进行双重降维，得到目标向量矩阵，包括：基于主成分分析技术PCA对所有的专业语料数据对应的第一语义向量进行第一次降维，得到各所述第一语义向量对应的特征向量矩阵；将所有的特征向量矩阵进行组合，确定二维特征向量矩阵；基于降维算法UMAP对所述二维特征向量矩阵进行第二次降维，得到目标向量矩阵。 5.根据权利要求3所述的方法，其特征在于，所述基于所述目标向量矩阵和所述第二语义向量确定所述搜索请求对应的搜索结果，包括：将所述目标向量矩阵按照与专业语料数据的对应关系进行拆分；得到与专业语料数据关联的目标语义向量；将所有的目标语义向量分别与所述第二语义向量进行内积运算；按照进行所述内积运算的结果对所述专业语料数据进行排序，以生成所述搜索请求对应的搜索结果。 6.根据权利要求1所述的方法，其特征在于，所述从预处理后的所述专业语料数据中确定第一语料数据、第二语料数据以及第三语料数据，包括：获取预处理后的专业语料数据；确定待训练模型支持的预设语料长度；确定所述预处理后的专业语料数据中语料长度大于所述预设语料长度的第一专业语料数据；权　利　要　求　书 1/2 页 2 CN 115408533 A 2根据所述预设语料长度对所述第一专业语料数据进行采样处理；确定所述预处理后的专业语料数据中语料长度小于或等于所述预设语料长度的第二专业语料数据；基于所述第二专业语料数据和进行采样处理后的第一专业语料数据确定第一语料数据、第二语料数据以及第三语料数据。 7.根据权利要求1所述的方法，其特征在于，所述将所述第一语料数据、第二语料数据以及第三语料数据输入至待训练模型中，以得到语义训练模型，包括：确定所述第一语料数据与所述第二语料数据之间的第一欧式距离；确定所述第一语料数据与所述第三语料数据之间的第二欧式距离；基于所述第一欧式距离与所述第二欧式距离确定目标损失函数；根据专业语料数据和所述目标损失函数确定所述待训练模型中的训练参数；基于所述训练参数确定语义训练模型。 8.根据权利要求1所述的方法，其特征在于，所述预处理的步骤，包括：基于预制的分词模块，对所述专业语料数据进行关键词提取和分词处理。 9.一种处理器，其特征在于，被配置成执行根据权利要求1至8中任意一项所述的用于优化语义搜索的方法。 10.一种机器可读存储介质，所述机器可读存储介质上存储有指令，其特征在于，所述指令在被处理器执行时使得所述处理器执行根据权利要求1至8 中任意一项的用于优化语义搜索的方法。权　利　要　求　书 2/2 页 3 CN 115408533 A 3

专利 用于优化语义搜索的方法、处理器及机器可读存储介质

专利用于优化语义搜索的方法、处理器及机器可读存储介质