公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210891291.2 (22)申请日 2022.07.27 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市江干区下沙高 教园区 (72)发明人 王俊美 盛锦华 曾静  (74)专利代理 机构 杭州杭诚专利事务所有限公 司 33109 专利代理师 王江成 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于预训练语言模型的对话式信息检索方 法 (57)摘要 本发明涉及信息检索方法技术领域, 公开了 基于预训练语 言模型的对话式信息检索方法。 通 过筛选介词相关的历史查询信息, 通过双塔式细 粒度语义交互模 型, 解决了 现有技术的检索容易 无视语义关系, 造成查询结果正确性不足的问 题。 权利要求书2页 说明书5页 CN 115391500 A 2022.11.25 CN 115391500 A 1.一种基于预训练语言模型的对话式信息检索方法, 其特 征在于: S1: 利用现有的文本表示模型BERT得到文档的编码表示; S2: 对于一组对话式查询Q1: k, 针对第k轮次的查询qk, 找到与该查询需求相关的历 史查 询qk‑i, (0<i<k); 将两者 拼接后输入文本表示模型BERT; S3: 通过对比学习, 使学习后模型构建的查询的编码的表示, 接近手工重写的查询的编 码表示; S4: 一组对话式查询的每一条查询语句及其历史相关的查询拼接后输入S3训练好的模 型进行编码, 计算与S1得到的文档编码表示的语义相似度, 并按由大至小对文档进行排序; S5: 利用对比学习方法构 建双塔式细粒度语义交互模型, 利用S4构建的集合训练, 交叉 熵损失计算模型的排序损失; S6: 利用S5训练好的模型对测试集 查询进行检索, 得到排序结果。 2.根据权利要求1所述的一种基于预训练语言模型的对话式信息检索方法, 其特征在 于: S2中所述的与该查询需求相关的历史查询qk‑i, (0<i<k), 以如下规则对历史信息进 行选择: 对于当前查询qk, 如果出现代词, 则把当前查询 与上一个历史查询qk‑1拼接, 另外检 查查询qk‑1是否同样出现相 似代词, 如有, 则继续往上一个历史信息追溯, 并把上一个历史 查询qk‑2与当前的查询拼接起 来; 如果没有, 则不再往前追溯; 其中qk‑i为与查询qk相关的历史轮次的查询批; 而对于手工 重写的查询, 仅使用单 条查询记录即可 得到编码表示, 如下 所示: 3.根据权利要求2所述的一种基于预训练语言模型的对话式信息检索方法, 其特征在 于: S2中公式 中查询和文档的编码表示, 为隐藏层每 个结点的输出; 保留隐藏层的输出。 4.根据权利要求1所述的一种基于预训练语言模型的对话式信息检索方法, 其特征在 于: S3所述的对比学习, 损失函数 具体为: 其中N为查询的最大允许输入长度, q*为手工重写的查询的编码表示, q ′为查询的编码 表示; 该损失函数表示查询的表示与手工重写的查询的编码表示之间的差距, 通过该损失 函数降低两者的差距, 细化训练模型; 利用对比学习, 对手工重写的查询的编码表示 q*和构 建的查询的编 码表示q′分别进行训练, 使训练后模型生 成的查询的编码表示逼近手工重写 的查询的编码表示。 5.根据权利要求1所述的一种基于预训练语言模型的对话式信息检索方法, 其特征在权 利 要 求 书 1/2 页 2 CN 115391500 A 2于: S4利用S3训练好的模型执行会话式检索, 对查询的结果进行排序, 在查询结果中截取 最相近的N篇文档, 对文档进行标注, 从排序最接近的前n个结果中选择与查询相关的正例 和与查询不相关的负例, 构建排序模型的训练数据集; 根据该 结果构建排序模型的三元组: <qk, D+, D‑> 其中D+为标注为与查询qk相关的文档, 而D‑为一组负相关的文档。 6.根据权利要求5所述的一种基于预训练语言模型的对话式信息检索方法, 其特征在 于: 其中与查询不相关的负例数量应控制在20 0个以内, 优选为5 0‑100个。 7.根据权利要求1所述的一种基于预训练语言模型的对话式信息检索方法, 其特征在 于: S5, 利用BERT构建双塔式语义匹配模型, 利用S4构 建的训练集训练模型M3; 其中通过交 叉熵损失计算出模型排序损失为: 其中d′+和d′‑分别是查询qk的相关文档和不相关文档的编码表示; sin(q ′k, d′+)表示查 询和正例文档的相似度, sim(q ′k, d′‑)表示查询和负例文档的相似度。 8.根据权利要求1所述的一种基于预训练语言模型的对话式信息检索方法, 其特征在 于: S6中, 使用训练好的模型执行会话式检索; 查询q和文档d的语义相似度的计算方式为: 一方面, 计算文档中与每个查询词最相 近的词的语义相似度的累加和, 有助于捕获与查询 的细粒度相关性; 另一方面, 计算查询和文档的平均向量表 示的相似度; 再将两者相加作为 查询和文档的语义相似度; 其计算方式为: 其中q′i为输入查询q的第i个查询词的编码表示, d ′j为输入查询d的第j个词的编码表 示; len(q ′)为查询token的个数; len(d ′)为文档to ken的个数; 通过相似度的值对结果进行排序, 得到优化后的会话式检索结果。权 利 要 求 书 2/2 页 3 CN 115391500 A 3

PDF文档 专利 基于预训练语言模型的对话式信息检索方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于预训练语言模型的对话式信息检索方法 第 1 页 专利 基于预训练语言模型的对话式信息检索方法 第 2 页 专利 基于预训练语言模型的对话式信息检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。