谷歌用专题

【深度学习】谷歌用「钞」能力放大招:扩展到220亿参数的巨大视觉 Transformer...

作者丨科技猛兽    编辑丨极市平台 导读  本文提出了迄今为止最大的密集视觉 ViT 模型 ViT- 22B,具有220亿参数。并发现超大 ViT 病态训练的不稳定性,这种不稳定性组织了模型尺度的进一步扩展。作者通过仔细设计模型,以较高的效率实现模型并行训练。  本文目录 52 扩展到220亿参数的巨大视觉 Transformer(来自谷歌,含 ViT 作者)52 ViT-22B 论文解读