(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210975825.X
(22)申请日 2022.08.15
(71)申请人 南京烽火星空通信发展 有限公司
地址 210019 江苏省南京市 建邺区云龙山
路88号烽火科技大厦A栋26F
(72)发明人 穆宁 汪健 张晓燕 孙宗飞
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 韩天宇
(51)Int.Cl.
G06F 40/18(2020.01)
G06F 40/194(2020.01)
G06F 40/247(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
基于多路召回和ESIM精排的表格相关性推
荐方法
(57)摘要
本发明公开了一种基于多路召回和ESIM精
排的表格相关性推荐 方法, 首先对输入表进行预
处理, 清洗表名、 字段中的噪声内容, 并整理成模
型的输入格式; 然后使用jaccard相似度、 BM25算
法、 预训练词向量模型对输入表的文本进行多路
召回, 寻找每个算法下与输入表 最相似的若干候
选表; 将多种召回结果进行合并, 使用投票策略
做初步的粗排; 将粗排结果格式化为模型输入并
送入ESIM模型进行预测, 模型将 对输入进行精排
序, 并按照相似程度从大到小输出为表推荐结
果。 本发明解决了现有技术中判断语义相似能力
的不足、 单词语序导致的错误、 文本推荐的机械
化流程和低效率的技 术问题。
权利要求书2页 说明书6页 附图3页
CN 115510826 A
2022.12.23
CN 115510826 A
1.一种基于多路召回和ESIM精排的表格相关性推荐方法, 其特 征在于包括以下步骤:
步骤S1, 对输入表进行预处理, 清洗去除表名或字段中的噪声内容, 并整理成模型的输
入格式;
步骤S2, 通过jaccard相似系数、 BM25算法、 预训练词向量模型分别对输入表的文本进
行多路召回, 得到每种算法下与输入表最相似的若干候选表;
步骤S3, 将步骤S2得到多种召回结果进行合并, 使用投票策略做初步的粗 排;
步骤S4, 将步骤S3得到的粗排结果格式化为模型输入, 并送入ESIM模型进行预测, 模型
对输入进行精排序, 并按照相似程度从大到小输出为表推荐结果。
2.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于:
步骤S2中所述通过jaccard相似系数的算法对输入表的文本进行多路召回的具体过程如
下:
首先, 由表名、 字段中文名、 数据元标识符的jieba分词组成分别得到STG表和ODS表的
关键词集 合, 并以STG表和OD S表的关键词集 合作为输入;
然后, 通过式(1)计算STG表和所有ODS的jaccar d相似系数J(A,B)并进行排序, 得到相
似程度最高的top ‑k个召回结果;
式中, 集合A和B分别代表STG表和ODS表的关键词集合; 当集合A和B均为
时, 定义J(A,
B)=1。
3.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于:
步骤S2中所述预训练词向量算法, 根据单词词性赋予不同权重, 通过加权求和的方式得到
文本的向量表示, 并以向量 余弦距离来度量表之间的相似程度。
4.根据权利要求3所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于:
所述预训练词向量 算法的具体过程如下:
(1)首先, 提取表格特征向量, 按照粒度划分生成不同粒度下的特征向量, 并进行拼接,
形成单张表的表征向量; 所述表征向量包括表粒度和字段粒度, 表粒度表示表中文名和表
名概述, 字段粒度表示字段中文名, 字段描述, 数据源和限定词;
(2)内部权重: 对表名和字段部分分别进行分词并获取词向量, 对词向量根据词性赋予
不同的词性权 重, 将这些 带权向量累加得到对应的表名向量和字段向量;
(3)外部权重: 外部权重是将表名向量和字段向量分别赋予不同的权重, 并通过式(2)
计算整个表的向量vectable,
vectable=wi*vecname+wj*vecfield (2)
vecname为表名的向量表示; wi表示表名向量所占权重; vecfield为字段的向量表示; wj表
示字段向量所占权 重;
(4)最后, 通过计算STG表表示向量与ODS候选表集合的表示矩阵的余弦相似度, 并从大
到小输出top ‑k个召回结果。
5.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于:
步骤S2中所述BM25算法的具体过程如下: 给定STG表和ODS表 候选集, 通过计算STG中每个单权 利 要 求 书 1/2 页
2
CN 115510826 A
2词的分数并累加, 得到ODS表与文档之间的得分, 得分越大则相 似度越高, 并根据相 似度从
大到小排序得到top ‑k个召回结果。
6.根据权利要求5所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于:
计算STG中每个单词的分数时, 通过使用表名和字段的所有切词结果作为语料的全语料模
型, 和/或通过只使用表名切词结果作为语料的表名模型。
7.根据权利要求6所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于:
当STG字段缺 失时, 采用表名模 型; 当STG信息完整时, 同时采用表名模 型和全语料模 型计算
得分, 根据得分从大到小排序得到top ‑k个召回结果。
8.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于:
步骤S3中, 对 所有的多种召回结果按照统计频次进 行初筛, 选取 统计频次最高的t op‑k个找
回结果作为 候选表集 合。
9.根据权利要求8所述基于多路召回和ESIM精排的表格相关性推荐方法, 其特征在于:
步骤S4中, 基于ESIM文本排序模型对步骤S3经过初筛的候选表集合进行精排序, 具体方法
如下:
对于输入层, 将原始的文本对调整为单个STG和对应的候选项集, 并标注对应的正例索
引; 损失函数以l ist‑wise最大正例似然函数作为损失函数l oss, 如式(3)所示:
式中, logits为模型最终的分类预测值, targets为真实排序样本标签, 其默认为长度
为top_k的列表, 正例为1, 负例为0;
经过模型训练, 对于输入的STG表和召回的ODS候选表集合, 输出每个位置的ODS表对应
的概率值, 根据概 率值进行降序排序, 即作为相似度排序结果。权 利 要 求 书 2/2 页
3
CN 115510826 A
3
专利 基于多路召回和ESIM精排的表格相关性推荐方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:11上传分享