专利 一种语音视频定位模型及其构建方法、装置及应用

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210997946.4 (22)申请日 2022.08.19 (71)申请人浙江理工大学地址 310018 浙江省杭州市下沙高教园区2 号大街928号 (72)发明人张易诚　 (74)专利代理机构杭州汇和信专利代理有限公司 33475 专利代理师董超 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01)G10L 15/02(2006.01) G10L 15/16(2006.01) G10L 15/18(2013.01) G10L 19/16(2013.01) (54)发明名称一种语音视频定位模型及其构建方法、装置及应用 (57)摘要本申请提出了一种语音视频定位模型及其构建方法、装置及应用，包括以下步骤：构建语音视频定位模型，所述语音视频定位模型包括依次连接的编码层、语义聚合模块以及音视频定位预测模块，其中所述编码层内包括并行的视频编码器和音频编码器，所述训练样本中在所述视频编码器和所述音频编码器中分别进行特征提取，得到视频特征向量和音频特征向量；所述视频特征向量和所述音频特征向量在所述语义聚合模块内进行语义聚合，得到三维2D时刻特征图，将所述三维2D时刻特征图送入音视频定位预测器中得到音视频定位结果。本方案使用了端到端的语音视频定位方法，并实现了基于弱监督的语音视频定位。权利要求书2页说明书9页附图4页 CN 115359398 A 2022.11.18 CN 115359398 A 1.一种语音视频定位模型的构建方法，其特征在于，包括以下步骤：获取至少一音频 ‑视频文件，标记所述音频 ‑视频文件的音频信息和视频信息，将相匹配的音频信息和视频信息作为正样本，不匹配的音频信息和视频信息作为负样本；构建语音视频定位模型，所述语音视频定位模型包括依次连接的编码层、语义聚合模块以及音视频定位预测模块，其中所述编码层内包括并行的视频编码器和音频编码器，所述训练样本中在所述视频编码器和所述音频编码器中分别进行特征提取，得到视频特征向量和音频特征向量；所述视频特征向量和所述音频特征向量在所述语义聚合模块内进行语义聚合，得到三维2D时刻特征图，将所述三维2D时刻特征图送入音视频定位预测器中得到音视频定位结果。 2.根据权利要求1所述的一种语音视频定位模型的构建方法，其特征在于，所述语音视频定位模型由视频编码器、音频编码器、语义聚合模块、音视频定位预测器组成，所述视频编码模块用于对所述训练样本中的视频信息进行编码，得到包含上下文信息的视频特征向量；所述音频编码器用于对所述训练样本中的音频信息进行编码，得到包含上下文信息的音频特征向量；所述语义聚合模块用于将所述视频特征向量和所述音频特征向量进行语义聚合，得到语义聚合特征向量；所述音视频定位预测器根据所述语义聚合特征向量对视频进行定位得到音视频定位结果。 3.根据权利要求2所述的一种语音视频定位模型的构建方法，其特征在于，所述视频编码器由3D卷积神经网络、时序均值采样层、线性层、 QA编码模块依次顺序连接，所述3D卷积神经网络对所述视频信息提取视觉特征，所述时序均值采样层对所述视觉特征进行基于时序信息的特征提取，得到片段视频特征，所述线性层对所述片段视频特征进行维度统一后，送入QA编码模块进行编码，得到包含上下文信息的视频特征向量。 4.根据权利要求3所述的一种语音视频定位模型的构建方法，其特征在于，所述QA编码模块由4个卷积层、 1个多头注意力层和1个前馈层依次顺序连接。 5.根据权利要求2所述的一种语音视频定位模型的构建方法，其特征在于，所述音频特征编码器由2D卷积模块、多层Transformer编码器、 Bi ‑GRU网络依次顺序连接，将所述音频信息转换为对数梅尔滤波特征后，输入到所述2D卷积模块中获取片段音频特征，将所述片段音频特征输入到所述多层Transformer编码器中获取高质量片段音频特征向量，将所述高质量片段音频特征向量传入所述Bi ‑GRU网络获取包含上下文信息的音频特征向量。 6.根据权利要求2所述的一种语音视频定位模型的构建方法，其特征在于，所述语义聚合模块由注意力切片模块、多模态模块、时刻特征图模块依次顺序连接，所述注意力切片模块用来对所述视频特征向量和音频特征向量进行注意力切片，得到切片视频特征向量和切片音频特征向量，所述多模态模块用来对所述切片视频特征向量和所述切片音频特征向量进行多模态聚合，得到多模态特征向量，所述时刻特征图模块将所述多模态特征向量转换为三维2D时刻特征图。 7.根据权利要求2所述的一种语音视频定位模型的构建方法，其特征在于，所述音视频定位预测模块由一个卷积神经网络和一个全连接层顺序连接组成，所述卷积神经网络将所述三维2D时刻特征图转换为定位特征向量，所述定位特征向量输入到所述全连接层中完成视频定位。权　利　要　求　书 1/2 页 2 CN 115359398 A 28.一种语音视频定位模型，其特征在于，所述语音视频定位模型使用权利要求1 ‑7任意一种构建方法进行构建得到。 9.一种语音视频定位方法，获取一待定位音频 ‑视频文件，将所述待定位音频 ‑视频文件送入所述语音视频定位模型中，所述语音视频定位模型对所述待定位音频 ‑视频文件进行特征提取，得到视频特征向量和音频特征向量，将所述视频特征向量和所述音频特征向量进行语义聚合，得到三维2D时刻特征图，将所述三维2D时刻图送入音视频定位预测模块中得到音视频定位结果。 10.一种语音视频定位模型的构建装置，其特征在于，包括：获取模块：获取至少一音频 ‑视频文件，标记所述音频 ‑视频文件的音频信息和视频信息，将相匹配的音频信息和视频信息作为正样本，不匹配的音频信息和视频信息作为负样本；构建模块：构建语音视频定位模型，所述语音视频定位模型包括依次连接的编码层、语义聚合模块以及音视频定位预测模块，其中所述编码层内包括并行的视频编码器和音频编码器，所述训练样本中在所述视频编码器和所述音频编码器中分别进行特征提取，得到视频特征向量和音频特征向量；定位模块：所述视频特征向量和所述音频特征向量在所述语义聚合模块内进行语义聚合，得到三维2D时刻特征图，将所述三维2D时刻特征图送入音视频定位预测器中得到音视频定位结果。 11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1 ‑7任一所述的一种语音视频定位模型的构建方法或权利要求9所述的一种语音视频定位方法。 12.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1 ‑7任一所述的一种语音视频定位模型的构建方法或权利要求9所述的一种语音视频定位方法。权　利　要　求　书 2/2 页 3 CN 115359398 A 3

专利 一种语音视频定位模型及其构建方法、装置及应用

专利一种语音视频定位模型及其构建方法、装置及应用