(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210997946.4
(22)申请日 2022.08.19
(71)申请人 浙江理工大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街928号
(72)发明人 张易诚
(74)专利代理 机构 杭州汇和信专利代理有限公
司 33475
专利代理师 董超
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06F 40/30(2020.01)G10L 15/02(2006.01)
G10L 15/16(2006.01)
G10L 15/18(2013.01)
G10L 19/16(2013.01)
(54)发明名称
一种语音视频定位模 型及其构建方法、 装置
及应用
(57)摘要
本申请提出了一种语音视频定位模型及其
构建方法、 装置及应用, 包括以下步骤: 构建语音
视频定位模 型, 所述语音视频定位模 型包括依次
连接的编码层、 语义聚合模块以及音视频定位预
测模块, 其中所述编码层内包括并行的视频编码
器和音频编码器, 所述训练样 本中在所述视频编
码器和所述音频编码器中分别进行特征提取, 得
到视频特征向量和音 频特征向量; 所述视频特征
向量和所述音频特征向量在所述语义聚合模块
内进行语义聚合, 得到三维2D时刻特征图, 将所
述三维2D时刻特征图送入音视频定位预测器中
得到音视频定位结果。 本方案使用了端到端的语
音视频定位方法, 并实现了基于弱监督的语音视
频定位。
权利要求书2页 说明书9页 附图4页
CN 115359398 A
2022.11.18
CN 115359398 A
1.一种语音视频定位模型的构建方法, 其特 征在于, 包括以下步骤:
获取至少一音频 ‑视频文件, 标记所述音频 ‑视频文件的音频信息和视频信息, 将相匹
配的音频信息和视频信息作为 正样本, 不匹配的音频信息和视频信息作为负 样本;
构建语音视频定位模型, 所述语音视频定位模型包括依次连接的编码层、 语义聚合模
块以及音视频定位预测模块, 其中所述编码层内包括并行 的视频编码器和音频编码器, 所
述训练样本中在所述视频编 码器和所述音频编 码器中分别进 行特征提取, 得到视频特征向
量和音频 特征向量;
所述视频特征向量和所述音频特征向量在所述语义 聚合模块内进行语义 聚合, 得到三
维2D时刻特征图, 将所述三维2D时刻特征图送入音视频定位预测器中得到音视频定位结
果。
2.根据权利要求1所述的一种语音视频定位模型的构建方法, 其特征在于, 所述语音视
频定位模型由视频编码器、 音频编码器、 语义聚合模块、 音视频定位预测器组成, 所述视频
编码模块用于对所述训练样本中的视频信息进行编 码, 得到包含上下文信息的视频特征向
量; 所述音频编码器用于对所述训练样本中的音频信息进行编码, 得到包含上下文信息的
音频特征向量; 所述语义聚合模块用于将所述视频特征向量和所述音频特征向量进行语义
聚合, 得到语义聚合特征向量; 所述音视频定位预测器根据所述语义聚合特征向量对视频
进行定位得到音视频定位结果。
3.根据权利要求2所述的一种语音视频定位模型的构建方法, 其特征在于, 所述视频编
码器由3D卷积神经网络、 时序均值采样层、 线性层、 QA编码模块依次顺序连接, 所述3D卷积
神经网络对所述视频信息提取视觉特征, 所述时序均值采样层 对所述视觉特征进 行基于时
序信息的特征提取, 得到片段视频特征, 所述线性层 对所述片段视频特征进行维度统一后,
送入QA编码模块进行编码, 得到包 含上下文信息的视频 特征向量。
4.根据权利要求3所述的一种语音视频定位模型的构建方法, 其特征在于, 所述QA编码
模块由4个卷积层、 1个多头注意力层和1个前馈层依次顺序连接 。
5.根据权利要求2所述的一种语音视频定位模型的构建方法, 其特征在于, 所述音频特
征编码器由2D卷积模块、 多层Transformer编码器、 Bi ‑GRU网络依次顺序连接, 将所述音频
信息转换为对数梅尔滤波特征后, 输入到所述2D卷积模块中获取片段音频特征, 将所述片
段音频特征输入到所述多层Transformer编码器中获取高质量片段音频特征向量, 将所述
高质量片段音频 特征向量传入所述Bi ‑GRU网络获取包 含上下文信息的音频 特征向量。
6.根据权利要求2所述的一种语音视频定位模型的构建方法, 其特征在于, 所述语义 聚
合模块由注意力切片模块、 多模态模块、 时刻特征图模块依次顺序连接, 所述注意力切片模
块用来对所述视频特征向量和音频特征向量进行注意力切片, 得到切片视频特征向量和切
片音频特征向量, 所述多模态模块用来对所述切片 视频特征向量和所述切片音频特征向量
进行多模态 聚合, 得到多模态特征向量, 所述时刻特征图模块将所述多模态特征向量转换
为三维2D时刻特 征图。
7.根据权利要求2所述的一种语音视频定位模型的构建方法, 其特征在于, 所述音视频
定位预测模块由一个卷积神经网络和一个全连接层顺序连接组成, 所述卷积神经网络将所
述三维2D时刻特征图转换为定位特征向量, 所述定位特征向量输入到所述全连接层中完成
视频定位。权 利 要 求 书 1/2 页
2
CN 115359398 A
28.一种语音视频定位模型, 其特征在于, 所述语音视频定位模型使用权利要求1 ‑7任意
一种构建方法进行构建得到 。
9.一种语音视频定位方法, 获取一待定位音频 ‑视频文件, 将所述待定位音频 ‑视频文
件送入所述语音视频定位模型中, 所述语音视频定位模型对所述待定位音频 ‑视频文件进
行特征提取, 得到视频特征向量和音频特征向量, 将所述视频特征向量和所述音频特征向
量进行语义聚合, 得到三维2D时刻特征图, 将所述三维2D时刻图送入音视频定位预测模块
中得到音视频定位结果。
10.一种语音视频定位模型的构建装置, 其特 征在于, 包括:
获取模块: 获取至少一音频 ‑视频文件, 标记所述音频 ‑视频文件的音频信息和视频信
息, 将相匹配的音频信息和视频信息作为正样本, 不匹配的音频信息和视频信息作为负样
本;
构建模块: 构建语音视频定位模型, 所述语音视频定位模型包括依次连接的编码层、 语
义聚合模块以及音视频定位预测模块, 其中所述编 码层内包括并行的视频编码器和音频编
码器, 所述训练样本中在所述视频编码器和所述音频编码器中分别进行特征提取, 得到视
频特征向量和音频 特征向量;
定位模块: 所述视频特征向量和所述音频特征向量在所述语义 聚合模块内进行语义 聚
合, 得到三维2D时刻特征图, 将所述三维2D时刻特征图送入音视频定位预测 器中得到音视
频定位结果。
11.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程
序, 所述处理器被设置为运行所述计算机程序以执行权利要求1 ‑7任一所述的一种语音视
频定位模型的构建方法或权利要求9所述的一种语音视频定位方法。
12.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计
算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1 ‑7任一
所述的一种语音视频定位模型的构建方法或权利要求9所述的一种语音视频定位方法。权 利 要 求 书 2/2 页
3
CN 115359398 A
3
专利 一种语音视频定位模型及其构建方法、装置及应用
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:07上传分享