公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211027968.4 (22)申请日 2022.08.25 (71)申请人 北京达佳互联信息技 术有限公司 地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人 白雪 王子琦  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 邓丹 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/126(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 7/10(2017.01) (54)发明名称 标题简化方法、 装置、 设备和存 储介质 (57)摘要 本公开关于一种标题简化方法、 装置、 电子 设备和存储介质。 所述方法包括: 获取资源对象 待简化的原始标题和资源对象的配图; 对配图进 行图像分割, 并基于分割后得到的各个图像块对 应的图像块特征以及各个图像块的自注意力权 重, 获取表征配图语义的配图编码特征; 获取表 征原始标题语义的标题编码特征, 并对标题编码 特征和配图编码特征进行融合, 得到语义编码特 征; 根据语义编码特征获取资源对象简化后的标 题。 本公开中, 既可 以获取能够准确表征配图语 义的配图编码特征, 又可以通过结合配图编码特 征和标题编码特征所生成语义编码特征获取简 化后的标题, 确保在保留关键信息的同时将无关 信息去除, 提高标题简化 准确率。 权利要求书3页 说明书17页 附图4页 CN 115270778 A 2022.11.01 CN 115270778 A 1.一种标题简化方法, 其特 征在于, 包括: 获取资源 对象待简化的原 始标题和所述资源 对象的配图; 对所述配图进行图像分割, 并基于分割后得到的各个图像块对应的图像块特征以及各 个图像块的自注意力权重, 获取表征所述配图语义的配图编码特征; 每个图像块的自注意 力权重为基于所述图像块与所述配图中的其 他图像块的关联度确定的权 重; 获取表征所述原始标题语义的标题编码特征, 并对所述标题编码特征和所述配图编码 特征进行融合, 得到语义编码特 征; 根据所述语义编码特 征获取所述资源 对象简化后的标题。 2.根据权利要求1所述的方法, 其特征在于, 所述基于分割后得到的各个图像块对应的 图像块特征以及各个图像块的自注意力权重, 获取表征所述配图语义的配图编码特征, 包 括: 将多个图像块特征输入到训练好的图像编码网络; 所述图像编码网络中包括多个具有 不同模块 参数的特 征提取模块; 由所述图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注 意力权重, 基于所述多个图像块特征各自的自注 意力权重和输入的多个图像块特征确定对 应的配图特征, 并将所述配图特征作为多个图像块特征输入到所述图像编 码网络中的下一 特征提取模块, 以触发将所述图像编 码网络中的下一特征提取模块作为当前的特征提取模 块, 返回执行所述获取输入的多个图像块特征各自的自注意力权重的步骤, 直到所述图像 编码网络中的最后一个特 征提取模块输出对应的图像块特 征; 基于各所述特征提取模块输出的配图特征和各所述特征提取模块的模块权重, 获取表 征所述配图语义的配图编码特 征。 3.根据权利要求2所述的方法, 其特征在于, 所述由所述图像编码网络中当前的特征提 取模块获取输入的多个图像块特征各自的自注意力权重, 基于所述多个图像块特征各自的 自注意力权 重和输入的多个图像块特 征确定对应的配图特 征, 包括: 基于当前的特征提取模块对应的第一变换矩阵对输入的多个图像块特征进行变换处 理, 得到输入的多个图像块特 征对应的查询特 征矩阵、 键特 征矩阵和值特 征矩阵; 基于所述多个图像块特征对应的查询特征矩阵和键特征矩阵, 确定各图像块特征的自 注意力权 重; 基于所述各图像块特征的自注意力 权重和所述多个图像块特征对应的值特征矩阵, 获 取当前的特 征提取模块确定的配图特 征。 4.根据权利要求1所述的方法, 其特征在于, 所述获取表征所述原始标题语义的标题编 码特征, 包括: 对所述原 始标题进行分词处 理, 并获取 所述原始标题中各个分词对应的分词特 征; 基于所述各个分词的分词特征和各个分词的自注意力 权重, 获取表征所述原始标题语 义的标题编 码特征; 每个分词的自注意力权重为基于所述分词 与所述原始标题中的其他分 词的关联度确定的权 重。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述各个分词的分词特征和各个 分词的自注意力权 重, 获取表征 所述原始标题语义的标题编码特 征, 包括: 将多个分词特征输入到训练好的文本处理网络的编码器, 所述编码器中包括多个具有权 利 要 求 书 1/3 页 2 CN 115270778 A 2不同模块 参数的特 征提取模块; 由所述文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的 自注意力权重, 基于所述多个分词特征各自的自注意力权重和输入的多个分词特征确定对 应的标题特征, 并将所述标题特征作为多个分词特征输入到所述编 码器中的下一特征提取 模块, 以触发将所述编码器中的下一特征提取模块作为当前 的特征提取模块, 返回执行所 述获取输入的多个分词特征各自的自注意力权重的步骤, 直到所述编 码器中的最后一个特 征提取模块输出对应的分词特 征; 基于所述编码器中各特征提取模块输出的标题特征和所述编码器中各特征提取模块 的模块权 重, 获取表征 所述原始标题语义的标题编码特 征。 6.根据权利要求5所述的方法, 其特征在于, 所述由所述文本处理网络编码器中当前的 特征提取模块获取输入的多个分词特征各自的自注意力权重, 基于所述多个分词特征各自 的自注意力权 重和输入的多个分词特 征确定对应的标题特 征, 包括: 基于当前的特征提取模块对应的第 二变换矩阵对输入的多个分词特征进行变换处理, 得到输入的多个分词特 征对应的查询特 征矩阵、 键特 征矩阵和值特 征矩阵; 基于所述多个分词特征对应的查询特征矩阵和键特征矩阵, 确定各分词特征的自注意 力权重; 基于各分词特征的自注意力 权重和所述多个分词特征对应的值特征矩阵, 获取所述编 码器当前的特 征提取模块确定的标题特 征。 7.根据权利要求5所述的方法, 其特征在于, 所述文本处理网络还包括解码器, 所述根 据所述语义编码特 征获取所述资源 对象简化后的标题, 包括: 将所述语义编码特征输入到所述训练好的文本处理网络的解码器, 由所述解码器获取 所述语义编码特 征对应的解码结果; 基于所述 解码结果得到所述资源 对象简化后的标题。 8.根据权利要求7所述的方法, 其特征在于, 在所述获取资源对象待简化的原始标题和 所述资源 对象的配图之前, 还 包括: 获取训练资源对象待简化的原始训练标题中各个分词对应的训练分词特征, 以及, 获 取训练配图编 码特征; 所述训练配图编 码特征用于表征所述训练资源对象的配图对应的语 义; 将多个训练分词特征输入到预训练 的文本处理网络, 由所述预训练的文本处理网络中 的编码器对所述多个训练分词特征进 行编码, 得到表征所述原始训练标题语义的训练标题 编码特征; 对所述训练配图编码特征和所述训练标题编码特征进行融合, 并将融合后的编码特征 输入到所述预训练的文本处理网络的解码器, 由所述解码器对所述融合后的编码特征解 码, 得到预测的简化标题; 基于所述预测的简化标题与 所述训练资源对象的简化标题标签之间的差异, 调 整所述 预训练的文本处 理网络的模型参数, 直到满足训练结束条件, 得到训练好的文本处 理网络。 9.一种标题简化装置, 其特 征在于, 包括: 配图获取单元, 被配置为执行获取资源对象待简化的原始标题和所述资源对象的配 图;权 利 要 求 书 2/3 页 3 CN 115270778 A 3

PDF文档 专利 标题简化方法、装置、设备和存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 标题简化方法、装置、设备和存储介质 第 1 页 专利 标题简化方法、装置、设备和存储介质 第 2 页 专利 标题简化方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。