avel专题

多模态任务之视听事件定位（AVEL）算法解读及源码——Cross-modal Background Suppression for Audio-Visual Event Localization

数据及源码链接见文末视听事件定位，即以视频信息和音频信息作为输入，模型确定事件的存在和可见事件，并将其定位在时间维度上的边界。其主要的挑战有： i).在合并互补的音频和视觉特征时，同时保留特定于模态的信息并不是简单的。ii).无约束视频中存在的突发噪声和复杂背景会阻碍对事件类别的预测。iii).视听信息不同步的问题会误导事件边界预测。