(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210067908.9
(22)申请日 2022.01.20
(66)本国优先权数据
202110791028.1 2021.07.13 CN
(71)申请人 北京金山数字 娱乐科技有限公司
地址 100085 北京市海淀区西二 旗中路33
号院5号楼1 1层002号
(72)发明人 吴思远 李长亮 李小龙
(74)专利代理 机构 北京智信禾专利代理有限公
司 11637
代理人 刘晓楠
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 40/216(2020.01)G06F 16/33(2019.01)
G06F 16/332(2019.01)
(54)发明名称
词权重生 成模型训练方法及装置、 词权重生
成方法及装置
(57)摘要
本申请提供词权重生成模型训练方法及装
置、 词权重生成方法及装置, 其中所述词权重生
成模型训练方法包括: 获取目标问题和所述目标
问题对应的目标答案; 提取所述目标问题的至少
一个关键词组合, 根据所述至少一个 关键词组合
确定初始文档集合; 根据所述目标答案和所述初
始文档集合确定目标文档集合和目标关键词组
合; 根据所述目标关键词组合确定所述目标问题
中的每个关键词对应的词权重; 根据所述目标问
题、 所述每个 关键词和所述每个关键词对应的词
权重训练词权重生成模型, 直至达到训练停止条
件。 通过本申请提供的词权重生成模 型训练方法
得到训练完成的词权重生 成模型, 有效避免某些
垂直领域搭建的数据库中关键词TF ‑IDF与人的
先验知识不匹配的问题。
权利要求书2页 说明书17页 附图5页
CN 114417863 A
2022.04.29
CN 114417863 A
1.一种词权 重生成模型训练方法, 其特 征在于, 包括:
获取目标问题和所述目标问题对应的目标答案;
提取所述目标问题的至少一个关键词组合, 根据 所述至少一个关键词组合确定初始文
档集合;
根据所述目标答案和所述初始文档集 合确定目标文档集 合和目标关键词组合;
根据所述目标关键词组合确定所述目标问题中的每 个关键词对应的词权 重;
根据所述目标问题、 所述每个关键词和所述每个关键词对应的词权重训练词权重生成
模型, 直至 达到训练停止条件。
2.如权利要求1所述的方法, 其特征在于, 提取所述目标问题的至少一个关键词组合,
包括:
提取所述目标问题的至少一个关键词;
根据所述至少一个关键词确定 至少一个关键词组合。
3.如权利要求2所述的方法, 其特 征在于, 提取 所述目标问题的至少一个关键词, 包括:
对所述目标问题进行分词处 理, 得到所述目标问题的至少一个关键词。
4.如权利要求3所述的方法, 其特征在于, 对所述目标问题进行分词处理, 得到所述目
标问题的至少一个关键词, 包括:
对所述目标问题进行分词处 理, 得到初始关键词集 合;
过滤所述初始关键词集 合中的停用词, 得到所述目标问题的至少一个关键词。
5.如权利要求1所述的方法, 其特征在于, 根据所述至少一个关键词组合确定初始文档
集合, 包括:
搜索所述每 个关键词组合对应的初始文档;
将所述每 个关键词组合对应的初始文档组合成为初始文档集 合。
6.如权利要求1所述的方法, 其特征在于, 根据所述目标答案和所述初始文档集合确定
目标文档集 合和目标关键词组合, 包括:
根据所述目标答案和所述文档集 合确定目标文档集 合;
根据所述目标文档集 合确定目标关键词组合。
7.如权利要求6所述的方法, 其特征在于, 根据所述目标答案和所述文档集合确定目标
文档集合, 包括:
将所述目标答案与所述文档集 合中的文档进行匹配;
确定与所述目标答案匹配的文档为目标文档, 由所述目标文档组合生成目标文档集
合。
8.如权利要求6所述的方法, 其特征在于, 根据所述目标文档集合确定目标关键词组
合, 包括:
确定所述目标文档集 合中每篇目标文档对应的关键词组合 为目标关键词组合。
9.如权利要求1所述的方法, 其特征在于, 根据所述目标关键词组合确定所述目标问题
中的每个关键词对应的词权 重, 包括:
获取所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词
组合中的出现次数;
根据所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词权 利 要 求 书 1/2 页
2
CN 114417863 A
2组合中的出现次数确定所述目标问题中的每 个关键词对应的词权 重。
10.如权利要求1所述的方法, 其特征在于, 根据所述目标问题、 所述每个关键词和所述
每个关键词对应的词权 重训练词权 重生成模型, 包括:
将所述目标问题输入词权 重生成模型;
所述词权重生成模型响应于所述目标问题作为输入而生成至少一个预测关键词和所
述至少一个预测关键词对应的预测词权 重;
根据所述至少一个预测关键词和所述至少一个预测关键词对应的预测词权重与每个
目标关键词和每 个目标关键词对应的词权 重计算损失值;
根据所述损失值调整所述词权 重生成模型的参数。
11.一种词权 重生成方法, 其特 征在于, 包括:
获取待处 理问题;
将所述待处理问题输入至预先训练好的词权重生成模型, 其中, 所述词权重生成模型
是通过上述权利要求1 ‑10任意一项词权 重生成模型训练方法训练得到的;
所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述
至少一个关键词的对应的词权 重。
12.一种词权 重生成模型训练装置, 其特 征在于, 包括:
第一获取模块, 被 配置为获取目标问题和所述目标问题对应的目标答案;
提取模块, 被配置为提取所述目标问题的至少一个关键词组合, 根据所述至少一个关
键词组合确定初始文档集 合;
确定模块, 被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标
关键词组合;
权重模块, 被配置为根据所述目标关键词组合确定所述目标问题中的每个关键词对应
的词权重;
训练模块, 被配置为根据所述目标问题、 所述每个关键词和所述每个关键词对应的词
权重训练词权 重生成模型, 直至 达到训练停止条件。
13.一种词权 重生成装置, 其特 征在于, 包括:
第二获取模块, 被 配置为获取待处 理问题;
输入模块, 被配置为将所述待处理问题输入至预先训练好的词权重生成模型, 其中, 所
述词权重生成模型是通过上述权利要求1 ‑10任意一项词权重生成模型训练方法训练得到
的;
生成模块, 被配置为所述词权重生成模型响应于所述待处理问题作为输入而生成至少
一个关键词和所述至少一个关键词的对应的词权 重。
14.一种计算设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算
机指令, 其特征在于, 所述处理器执行所述指令时实现权利要求1 ‑10或者11任意一项所述
方法的步骤。
15.一种计算机可读存储介质, 其存储有计算机指令, 其特征在于, 该指令被处理器执
行时实现权利要求1 ‑10或者11任意一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 114417863 A
3
专利 词权重生成模型训练方法及装置、词权重生成方法及装置
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:50上传分享