谷歌用专题

【深度学习】谷歌用「钞」能力放大招：扩展到220亿参数的巨大视觉 Transformer...

作者丨科技猛兽编辑丨极市平台导读本文提出了迄今为止最大的密集视觉 ViT 模型 ViT- 22B，具有220亿参数。并发现超大 ViT 病态训练的不稳定性，这种不稳定性组织了模型尺度的进一步扩展。作者通过仔细设计模型，以较高的效率实现模型并行训练。本文目录 52 扩展到220亿参数的巨大视觉 Transformer(来自谷歌，含 ViT 作者)52 ViT-22B 论文解读