tubevit专题

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning（TubeViT论文翻译）

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning AJ Piergiovanni Weicheng Kuo Anelia Angelova 论文链接 Abstract 我们提出了一个将ViT编码器变成一个有效的视频模型的方法，它可以无缝地处理图像和视频输入。通过对输入进行稀疏采样，该模型能