vmsmo专题

EMNLP 2020 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles

动机 多模态新闻能够显著提高用户对信息性的满意度。目前流行的一种多媒体新闻形式是为用户提供一段生动的视频和一篇相应的新闻文章,这种形式被CNN、BBC等有影响力的新闻媒体以及Twitter、Weibo等社交媒体所采用。自动生成多模态摘要,即选择合适的视频封面帧,生成合适的文章文本摘要,可以帮助编辑节省时间,读者更有效地做出决策。在实际应用中,输入通常是由数百帧组成的视频,且通常需要选择封面图