lavit专题

LaViT：Less-Attention Vision Transformer的特性与优点

引言 https://arxiv.org/pdf/2406.00427 随着计算机视觉领域的发展，视觉Transformer（ViTs）逐渐成为一项重要技术。尽管ViTs在捕捉图像中的长距离依赖关系方面表现出色，但其沉重的计算负担和潜在的注意力饱和问题一直是实际应用的障碍。为解决这些问题，微软提出了Less-Attention Vision Transformer（LaViT），旨在通过引入一种

北京大学快手发布统一的图文视频生成大模型Video-LaVIT

随着多模态大语言模型（LLMs）的新发展，人们越来越关注如何将它们从图像-文本数据扩展到更具信息量的真实世界视频。与静态图像相比，视频为有效的大规模预训练带来了独特的挑战，因为需要对其时空动态进行建模。针对视频与语言联合预训练的挑战，文章提出了高效的视频分解方法，将视频表示为关键帧和时间运动，并设计分词器适配LLM，实现视频、图像和文本的统一生成预训练。应用时，生成的标记被恢复为像素空间，用于