公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210975825.X (22)申请日 2022.08.15 (71)申请人 南京烽火星空通信发展 有限公司 地址 210019 江苏省南京市 建邺区云龙山 路88号烽火科技大厦A栋26F (72)发明人 穆宁 汪健 张晓燕 孙宗飞  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 韩天宇 (51)Int.Cl. G06F 40/18(2020.01) G06F 40/194(2020.01) G06F 40/247(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 基于多路召回和ESIM精排的表格相关性推 荐方法 (57)摘要 本发明公开了一种基于多路召回和ESIM精 排的表格相关性推荐 方法, 首先对输入表进行预 处理, 清洗表名、 字段中的噪声内容, 并整理成模 型的输入格式; 然后使用jaccard相似度、 BM25算 法、 预训练词向量模型对输入表的文本进行多路 召回, 寻找每个算法下与输入表 最相似的若干候 选表; 将多种召回结果进行合并, 使用投票策略 做初步的粗排; 将粗排结果格式化为模型输入并 送入ESIM模型进行预测, 模型将 对输入进行精排 序, 并按照相似程度从大到小输出为表推荐结 果。 本发明解决了现有技术中判断语义相似能力 的不足、 单词语序导致的错误、 文本推荐的机械 化流程和低效率的技 术问题。 权利要求书2页 说明书6页 附图3页 CN 115510826 A 2022.12.23 CN 115510826 A 1.一种基于多路召回和ESIM精排的表格相关性推荐方法, 其特 征在于包括以下步骤: 步骤S1, 对输入表进行预处理, 清洗去除表名或字段中的噪声内容, 并整理成模型的输 入格式; 步骤S2, 通过jaccard相似系数、 BM25算法、 预训练词向量模型分别对输入表的文本进 行多路召回, 得到每种算法下与输入表最相似的若干候选表; 步骤S3, 将步骤S2得到多种召回结果进行合并, 使用投票策略做初步的粗 排; 步骤S4, 将步骤S3得到的粗排结果格式化为模型输入, 并送入ESIM模型进行预测, 模型 对输入进行精排序, 并按照相似程度从大到小输出为表推荐结果。 2.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于: 步骤S2中所述通过jaccard相似系数的算法对输入表的文本进行多路召回的具体过程如 下: 首先, 由表名、 字段中文名、 数据元标识符的jieba分词组成分别得到STG表和ODS表的 关键词集 合, 并以STG表和OD S表的关键词集 合作为输入; 然后, 通过式(1)计算STG表和所有ODS的jaccar d相似系数J(A,B)并进行排序, 得到相 似程度最高的top ‑k个召回结果; 式中, 集合A和B分别代表STG表和ODS表的关键词集合; 当集合A和B均为 时, 定义J(A, B)=1。 3.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于: 步骤S2中所述预训练词向量算法, 根据单词词性赋予不同权重, 通过加权求和的方式得到 文本的向量表示, 并以向量 余弦距离来度量表之间的相似程度。 4.根据权利要求3所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于: 所述预训练词向量 算法的具体过程如下: (1)首先, 提取表格特征向量, 按照粒度划分生成不同粒度下的特征向量, 并进行拼接, 形成单张表的表征向量; 所述表征向量包括表粒度和字段粒度, 表粒度表示表中文名和表 名概述, 字段粒度表示字段中文名, 字段描述, 数据源和限定词; (2)内部权重: 对表名和字段部分分别进行分词并获取词向量, 对词向量根据词性赋予 不同的词性权 重, 将这些 带权向量累加得到对应的表名向量和字段向量; (3)外部权重: 外部权重是将表名向量和字段向量分别赋予不同的权重, 并通过式(2) 计算整个表的向量vectable, vectable=wi*vecname+wj*vecfield     (2) vecname为表名的向量表示; wi表示表名向量所占权重; vecfield为字段的向量表示; wj表 示字段向量所占权 重; (4)最后, 通过计算STG表表示向量与ODS候选表集合的表示矩阵的余弦相似度, 并从大 到小输出top ‑k个召回结果。 5.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于: 步骤S2中所述BM25算法的具体过程如下: 给定STG表和ODS表 候选集, 通过计算STG中每个单权 利 要 求 书 1/2 页 2 CN 115510826 A 2词的分数并累加, 得到ODS表与文档之间的得分, 得分越大则相 似度越高, 并根据相 似度从 大到小排序得到top ‑k个召回结果。 6.根据权利要求5所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于: 计算STG中每个单词的分数时, 通过使用表名和字段的所有切词结果作为语料的全语料模 型, 和/或通过只使用表名切词结果作为语料的表名模型。 7.根据权利要求6所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于: 当STG字段缺 失时, 采用表名模 型; 当STG信息完整时, 同时采用表名模 型和全语料模 型计算 得分, 根据得分从大到小排序得到top ‑k个召回结果。 8.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于: 步骤S3中, 对 所有的多种召回结果按照统计频次进 行初筛, 选取 统计频次最高的t op‑k个找 回结果作为 候选表集 合。 9.根据权利要求8所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于: 步骤S4中, 基于ESIM文本排序模型对步骤S3经过初筛的候选表集合进行精排序, 具体方法 如下: 对于输入层, 将原始的文本对调整为单个STG和对应的候选项集, 并标注对应的正例索 引; 损失函数以l ist‑wise最大正例似然函数作为损失函数l oss, 如式(3)所示: 式中, logits为模型最终的分类预测值, targets为真实排序样本标签, 其默认为长度 为top_k的列表, 正例为1, 负例为0; 经过模型训练, 对于输入的STG表和召回的ODS候选表集合, 输出每个位置的ODS表对应 的概率值, 根据概 率值进行降序排序, 即作为相似度排序结果。权 利 要 求 书 2/2 页 3 CN 115510826 A 3

PDF文档 专利 基于多路召回和ESIM精排的表格相关性推荐方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多路召回和ESIM精排的表格相关性推荐方法 第 1 页 专利 基于多路召回和ESIM精排的表格相关性推荐方法 第 2 页 专利 基于多路召回和ESIM精排的表格相关性推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。