timesformer专题

51-15 视频理解串讲—TimeSformer论文精读

今天读的论文题目是Is Space-Time Attention All You Need for Video Understanding? Facebook AI提出了一种称为TimeSformer视频理解的新架构，这个架构完全基于transformer，不使用卷积层。它通过分别对视频的时间和空间维度应用自注意力机制，有效地捕捉动作的时空特征。自transformer提出以来，在NLP领域得到