avel专题

多模态任务之视听事件定位(AVEL)算法解读及源码——Cross-modal Background Suppression for Audio-Visual Event Localization

数据及源码链接见文末                视听事件定位,即以视频信息和音频信息作为输入,模型确定事件的存在和可见事件,并将其定位在时间维度上的边界。其主要的挑战有: i).在合并互补的音频和视觉特征时,同时保留特定于模态的信息并不是简单的。ii).无约束视频中存在的突发噪声和复杂背景会阻碍对事件类别的预测。iii).视听信息不同步的问题会误导事件边界预测。