1. 首页
  2. 数据库
  3. 其它
  4. Modaily Aware Audio Visual Video Parsing:CVPR 2021纸代码探索弱监督的视听视频解析的异构线索 源码

Modaily Aware Audio Visual Video Parsing:CVPR 2021纸代码探索弱监督的视听视频解析的异构线索 源码

上传者: 2021-04-26 07:37:08上传 ZIP文件 834.67KB 热度 8次
探索用于弱监督的视听视频解析的异构线索 CVPR 2021纸代码 视听视频解析任务 我们旨在识别视频中的声音和可见事件及其时间位置。 请注意,视觉和音频事件可能是异步的。 准备数据 请参阅以下载LLP数据集和预处理的音频和视频功能。 把下载的r2plus1d_18 , res152 , vggish功能集成到了feats文件夹中。 培训渠道 培训包括三个阶段。 训练基本模型 我们首先使用MIL和我们建议的对比学习来训练基本模型。 cd step1_train_base_model python main_avvp.py --mode train --audio_dir ../feats/vggish/ --video_dir ../feats/res152/ --st_dir ../feats/r2plus1d_18 生成模态感知标签 然后,我们冻结训练后的模型,并通过将其音频和视频轨道
下载地址
用户评论