公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210075687.X (22)申请日 2022.01.22 (71)申请人 企知道网络技 术有限公司 地址 518051 广东省深圳市南 山区西丽 街 道西丽社区留仙大道创智云城1标段1 栋D座2201 (72)发明人 黄威威 蔡子哲  (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 一种功效词抽取方法、 模型训练方法、 电子 设备及介质 (57)摘要 本申请涉及一种功效词抽取方法、 模 型训练 方法、 装置、 电子设备及介质, 涉及计算机技术领 域, 该功效词抽取方法可 以包括: 获取目标文本 信息, 然后将所述目标文本信息通过功效词抽取 模型进行功效词抽取, 得到所述目标文本信息对 应的标准功效词; 其中, 所述功效词抽取模型为 基于多个文本样本以及各自对应的标准功效词 进行训练后得到的。 本申请涉及的功效词抽取方 法、 模型训练方法、 装置、 电子设备及介质可以减 少功效词抽取时间, 并且可以提高功效词抽取的 准确度。 权利要求书3页 说明书13页 附图4页 CN 114611503 A 2022.06.10 CN 114611503 A 1.一种功效词抽取 方法, 其特 征在于, 包括: 获取目标文本信息; 将所述目标文本信 息通过功效词抽取模型进行功效词抽取, 得到所述目标文本信 息对 应的标准功效词; 其中, 所述功效词抽取模型为基于多个文本样本以及各自对应的标准功效词进行训练 后得到的。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述目标文本信 息通过功效词抽取 模型进行功效词抽取, 得到所述目标文本信息对应的标准功效词, 包括: 对所述目标文本信息进行编码处 理, 得到目标文本信息的文本语义表示; 对所述文本语义表示进行解码处 理, 得到所述目标文本信息对应的标准功效词。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述目标文本信息进行编码处理, 得到目标文本信息的文本语义表示, 包括: 将所述目标文本信息中的每 个字转换为字向量、 位置向量以及文本向量; 将每个字对应的字向量、 位置向量以及文本向量进行拼接处理以生成输入向量, 得到 输入向量 集合; 将所述输入向量 集合进行编码处 理, 得到所述目标文本信息的文本语义表示。 4.根据权利要求1所述的方法, 其特征在于, 所述将所述目标文本信 息通过功效词抽取 模型进行功效词抽取, 得到所述目标文本信息对应的标准功效词, 之前还 包括: 对所述目标文本信息进行文本预处理, 得到预处理后的文本信息, 所述文本预处理包 括: 去除停用词处 理、 去除表达式处 理以及去除特殊符号处 理中的至少一项; 其中, 所述将所述目标文本信息通过功效词抽取模型进行功效词抽取, 得到所述目标 文本信息对应的标准功效词, 包括: 将所述预处理后的文本信 息通过功效词抽取模型进行功效词抽取, 得到所述目标文本 信息对应的标准功效词。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述目标文本信 息通过功效词抽取 模型进行功效词抽取, 得到所述目标文本信息对应的标准功效词, 之前还 包括: 获取初始模型, 所述初始模型包括: 初始编码模型; 基于所述多个文本样本对所述初始编码模型进行训练, 得到预训练编码模型。 6.根据权利要求5所述的方法, 其特征在于, 所述初始模型还包括: 解码模型; 所述方法 还包括: 将各文本样本输入至所述预训练编码模型, 得到各文本样本分别对应的文本语义表 示; 将各文本语义表示输入至所述初始解码模型, 得到各文本样本分别对应的标准功效 词; 根据各标准功效词以及各自对应的标准功效词标签, 确定训练损失值; 根据所述训练损失值和所述训练样本对所述预训练网络进行迭代训练, 直至所述训练 损失值符合训练结束条件时, 将训练结束时的网络确定为所述功效性抽取模型。 7.一种模型训练方法, 其特 征在于, 包括: 获取训练样本, 所述训练样本包括: 多个文本信息以及各自对应的标准功效词标签;权 利 要 求 书 1/3 页 2 CN 114611503 A 2基于所述训练样本对初始模型进行训练, 得到功效词抽取模型, 以用于抽取标准功效 词。 8.根据权利要求7所述的方法, 其特征在于, 所述初始模型包括: 初始编码模型以及初 始解码模型, 其中, 所述基于所述训练样本对初始模型进行训练, 得到所述功效词抽取模型, 包括: 将各文本样本 输入至初始编码模型, 得到各文本样本分别对应的文本语义表示; 将各文本语义表示输入至所述初始解码模型, 得到各文本样本分别对应的标准功效 词; 根据各标准功效词以及各自对应的标准功效词标签, 确定训练损失值; 根据所述训练损失值和所述训练样本对所述初始模型进行迭代训练, 直至所述训练损 失值符合训练结束条件时, 将训练结束时的网络确定为所述功效性抽取模型。 9.根据权利要求8所述的方法, 其特征在于, 所述将各文本样本输入至初始编码模型, 之前还包括: 基于所述多个文本样本对所述初始编码模型进行训练, 得到预训练编码模型; 其中, 所述将各文本样本输入至初始编码模型, 得到各文本样本分别对应的文本语义 表示, 包括: 将所述多个文本样本输入至所述预训练编码模型, 得到各文本样本分别对应的文本语 义表示。 10.一种功效词抽取装置, 其特 征在于, 包括: 第一获取模块, 用于获取目标文本信息; 功效词抽取模块, 用于将所述目标文本信息通过功效词抽取模型进行功效词抽取, 得 到所述目标文本信息对应的标准功效词; 其中, 所述功效词抽取模型为基于多个文本样本以及各自对应的标准功效词进行训练 后得到的。 11.一种模型训练装置, 其特 征在于, 包括: 第三获取模块, 用于获取训练样本, 所述训练样本包括: 多个文本信 息以及各自对应的 标准功效词标签; 第三训练模块, 用于基于所述训练样本对初始模型进行训练, 得到功效词抽取模型, 以 用于抽取 标准功效词。 12.一种电子设备, 其特 征在于, 包括: 至少一个处 理器; 存储器; 至少一个应用程序, 其中所述至少一个应用程序被存储在所述存储器中并被配置为由 所述至少一个处理器执行, 所述至少一个应用程序配置用于: 执行根据权利要求1至6任一 项所述的一种功效词抽取 方法。 13.一种电子设备, 其特 征在于, 包括: 至少一个处 理器; 存储器; 至少一个应用程序, 其中所述至少一个应用程序被存储在所述存储器中并被配置为由权 利 要 求 书 2/3 页 3 CN 114611503 A 3

PDF文档 专利 一种功效词抽取方法、模型训练方法、电子设备及介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种功效词抽取方法、模型训练方法、电子设备及介质 第 1 页 专利 一种功效词抽取方法、模型训练方法、电子设备及介质 第 2 页 专利 一种功效词抽取方法、模型训练方法、电子设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。