专利 词权重生成模型训练方法及装置、词权重生成方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210067908.9 (22)申请日 2022.01.20 (66)本国优先权数据 202110791028.1 2021.07.13 CN (71)申请人北京金山数字娱乐科技有限公司地址 100085 北京市海淀区西二旗中路33 号院5号楼1 1层002号 (72)发明人吴思远　李长亮　李小龙　 (74)专利代理机构北京智信禾专利代理有限公司 11637 代理人刘晓楠 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01)G06F 16/33(2019.01) G06F 16/332(2019.01) (54)发明名称词权重生成模型训练方法及装置、词权重生成方法及装置 (57)摘要本申请提供词权重生成模型训练方法及装置、词权重生成方法及装置，其中所述词权重生成模型训练方法包括：获取目标问题和所述目标问题对应的目标答案；提取所述目标问题的至少一个关键词组合，根据所述至少一个关键词组合确定初始文档集合；根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重；根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型，直至达到训练停止条件。通过本申请提供的词权重生成模型训练方法得到训练完成的词权重生成模型，有效避免某些垂直领域搭建的数据库中关键词TF ‑IDF与人的先验知识不匹配的问题。权利要求书2页说明书17页附图5页 CN 114417863 A 2022.04.29 CN 114417863 A 1.一种词权重生成模型训练方法，其特征在于，包括：获取目标问题和所述目标问题对应的目标答案；提取所述目标问题的至少一个关键词组合，根据所述至少一个关键词组合确定初始文档集合；根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重；根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型，直至达到训练停止条件。 2.如权利要求1所述的方法，其特征在于，提取所述目标问题的至少一个关键词组合，包括：提取所述目标问题的至少一个关键词；根据所述至少一个关键词确定至少一个关键词组合。 3.如权利要求2所述的方法，其特征在于，提取所述目标问题的至少一个关键词，包括：对所述目标问题进行分词处理，得到所述目标问题的至少一个关键词。 4.如权利要求3所述的方法，其特征在于，对所述目标问题进行分词处理，得到所述目标问题的至少一个关键词，包括：对所述目标问题进行分词处理，得到初始关键词集合；过滤所述初始关键词集合中的停用词，得到所述目标问题的至少一个关键词。 5.如权利要求1所述的方法，其特征在于，根据所述至少一个关键词组合确定初始文档集合，包括：搜索所述每个关键词组合对应的初始文档；将所述每个关键词组合对应的初始文档组合成为初始文档集合。 6.如权利要求1所述的方法，其特征在于，根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合，包括：根据所述目标答案和所述文档集合确定目标文档集合；根据所述目标文档集合确定目标关键词组合。 7.如权利要求6所述的方法，其特征在于，根据所述目标答案和所述文档集合确定目标文档集合，包括：将所述目标答案与所述文档集合中的文档进行匹配；确定与所述目标答案匹配的文档为目标文档，由所述目标文档组合生成目标文档集合。 8.如权利要求6所述的方法，其特征在于，根据所述目标文档集合确定目标关键词组合，包括：确定所述目标文档集合中每篇目标文档对应的关键词组合为目标关键词组合。 9.如权利要求1所述的方法，其特征在于，根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重，包括：获取所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词组合中的出现次数；根据所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词权　利　要　求　书 1/2 页 2 CN 114417863 A 2组合中的出现次数确定所述目标问题中的每个关键词对应的词权重。 10.如权利要求1所述的方法，其特征在于，根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型，包括：将所述目标问题输入词权重生成模型；所述词权重生成模型响应于所述目标问题作为输入而生成至少一个预测关键词和所述至少一个预测关键词对应的预测词权重；根据所述至少一个预测关键词和所述至少一个预测关键词对应的预测词权重与每个目标关键词和每个目标关键词对应的词权重计算损失值；根据所述损失值调整所述词权重生成模型的参数。 11.一种词权重生成方法，其特征在于，包括：获取待处理问题；将所述待处理问题输入至预先训练好的词权重生成模型，其中，所述词权重生成模型是通过上述权利要求1 ‑10任意一项词权重生成模型训练方法训练得到的；所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述至少一个关键词的对应的词权重。 12.一种词权重生成模型训练装置，其特征在于，包括：第一获取模块，被配置为获取目标问题和所述目标问题对应的目标答案；提取模块，被配置为提取所述目标问题的至少一个关键词组合，根据所述至少一个关键词组合确定初始文档集合；确定模块，被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；权重模块，被配置为根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重；训练模块，被配置为根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型，直至达到训练停止条件。 13.一种词权重生成装置，其特征在于，包括：第二获取模块，被配置为获取待处理问题；输入模块，被配置为将所述待处理问题输入至预先训练好的词权重生成模型，其中，所述词权重生成模型是通过上述权利要求1 ‑10任意一项词权重生成模型训练方法训练得到的；生成模块，被配置为所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述至少一个关键词的对应的词权重。 14.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1 ‑10或者11任意一项所述方法的步骤。 15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1 ‑10或者11任意一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114417863 A 3

专利 词权重生成模型训练方法及装置、词权重生成方法及装置

专利词权重生成模型训练方法及装置、词权重生成方法及装置