《预训练周刊》第31期：OpenAI发表可定制版GPT3、谷歌提出精简自注意力算法

本文主要是介绍《预训练周刊》第31期：OpenAI发表可定制版GPT3、谷歌提出精简自注意力算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

No.31

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

本期周刊，我们选择了12篇预训练相关的论文，涉及模型规模、表情符号生成、零样本图像生成、自注意力、语言模型、视频理解、多模态、对比学习、分子表征、抗体预测、蛋白作用预测和多模态测评的探索。此外，在研究动态方面，我们选择了1篇预训练资讯，将介绍大模型微调方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：Deepmind|Scaling Language Models: Methods, Analysis & Insights from Training Gopher（扩展语言模型：来自训练2800亿参数Gopher的方法、分析与见解）了解详情

作者：Jack W. Rae, Sebastian Borgeaud等

简介：本文介绍了尺度对于语言模型的影响。利用人类书面知识的存储库大数据，语言建模向智能通信系统迈进了一步，以更好地预测和理解世界。在本文中，作者对基于变换器的语言模型在各种模型尺度中的性能进行分析——从具有数千万参数的模型到2800亿参数的模型，名为Gopher。这些模型在152个不同的任务上进行了评估，实现了大多数任务的最先进性能。尺度收益于阅读理解、事实核查和识别有毒语言任务，但逻辑和数学推理看不到好处。作者提供对训练数据集和模型行为的整体分析，包括偏见和毒性。最后，作者讨论了语言模型在AI安全以及减轻下游危害中的应用。

论文下载：https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf

标题：Sber AI, 莫斯科物理技术大学|Emojich – zero-shot emoji generation using Russian language: a technical report（Emojich – 使用俄语的零样本表情符号生成：技术报告）了解详情

作者：Alex Shonenkov, Aleksandr Nikolich等

简介：本文介绍了一种表情符号生成方法。本文展示了一个使用俄语标题作为条件，生成表情符号的文本到图像的神经网络“Emojich”。作者目标是在微调阶段保留预训练大模型的泛化能力，维持ruDALL-E Malevich (XL) 1.3B的参数，同时赋予生成图像特殊风格。这里介绍一些工程方法，代码实现，所有用于复制的超参数结果以及演示了通过“Emojich”模型获得的一些新生成的表情符号。

代码下载：https://www.kaggle.com/shonenkov/emojich-rudall-e

论文下载：https://arxiv.org/pdf/2112.02448v1.pdf

标题：德克萨斯大学、加利福尼亚大学｜FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization（FuseDream：无需训练的文本到图像生成具有改进的 CLIP+GAN 空间优化）了解详情

作者：Xingchao Liu, Chengyue Gong, Qiang Liu等

简介：本文介绍了一种自然语言生成图像算法。作者使用CLIP+GAN方法处理文本到图像的生成，其中在现成的GAN的潜在空间中进行优化，使用CLIP模型测量的给定输入文本，以找到达到最大语义相关性分数的图像。与从头开始训练从文本到图像映射的生成模型的传统方法相比，CLIP+GAN方法是免训练的、零样本的，并且可以使用不同的生成器轻松定制。然而，在GAN 空间中优化CLIP分数会产生一个极具挑战性的优化问题，以及现成的Adam等优化器未能产生令人满意的结果。当被不同的输入文本提示时，FuseDream可以生成没有出现在GAN的训练数据，具有不同对象、背景、艺术风格和新颖反事实概念的高质量图像。从数量上讲，FuseDream生成的图像在MS COCO数据集，无需额外架构设计或训练。

代码下载：https://github.com/gnobitab/FuseDream

论文下载：https://arxiv.org/pdf/2112.01573v1.pdf

标题：谷歌｜SELF-ATTENTION DOES NOT NEED O(n^2) MEMORY(自注意力不需要 O(n^2）内存)了解详情

作者：Markus N. Rabe, Charles Staats

简介：本文提出一个精简的自注意力算法。作者提出了一个非常简单的注意力算法，对于符号序列需要O(1)内存，扩展到注意力算法，则需要O(logn)内存。这与经常陈述的观念，即自注意力需要O(n^2)内存不一致。虽然时间复杂度是还是O(n^2)，相比计算能力，加速器设备内存通常是现代技术的限制因素。因此，减少注意力的内存需求，允许处理更长的时间序列可能是可行的。作者为加速器提供了实际的实现需要O(√n) 内存，在数值上是稳定的，并且在标准注意力执行运行时间的百分之几以内。作者还演示了如何对函数求导，并维持存储效率。对于序列长度16384，自注意力的内存开销在推理时减少了59倍，求导时减少了32倍。

论文下载：https://arxiv.org/pdf/2112.05682v1.pdf

标题：DeepMind | Improving language models by retrieving from trillions of tokens（通过从数万亿个标记中检索来改进语言模型）了解详情

作者：Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, 等

简介：本文基于海量token检索的基础上研究如何改进预训练语言模型。基于与预先标记的局部相似性，作者通过调节从大型语料库中检索到的文档块来增强自回归语言模型。用一个2 万亿符号数据库，作者的检索增强transformer (RETRO) ：尽管使用了 25%更少的参数、但在 Pile数据集上获得了与 GPT-3 和 Jurassic-1 相当的性能。经过微调，RETRO 性能转化为下游知识密集型任务（例如：问答任务）。RETRO 结合了一个冻结的 Bert 检索器、一个可微分编码器和一个分块交叉注意机制，以根据比训练期间通常消耗的数据多一个数量级的数据来预测Token。本研究建议从头开始训练 RETRO，但也可以通过检索快速 RETROfit 预训练的 Transformer，并且仍然获得良好的性能。本工作为通过空前规模的显性记忆改进语言模型开辟了新途径。

论文下载：https://arxiv.org/pdf/2112.04426

标题：复旦大学、加州大学 | Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation（用于视觉语言理解和生成的统一多模式预训练和基于提示的调整）了解详情

作者：Tianyi Liu, Zuxuan Wu, Wenhan Xiong等

简介：本文研究视频预训练兼顾理解与生成的方法。大多数现有的视觉语言预训练方法都侧重于理解任务，并在预训练期间使用类似 BERT 的目标。作者提出了视觉语言理解和生成的统一多模态预训练模型UniVL--- 能够同时处理理解任务和生成任务。作者增加了现有的预训练范式，这些范式只使用带有因果掩码的随机掩码，即掩蔽未来标记的三角形掩码，这样预训练的模型可以通过设计具有自回归生成能力。作者将之前的多个理解任务制定为文本生成任务，并建议使用基于提示的方法对不同的下游任务进行微调。作者的实验表明，在使用相同模型的情况下，理解任务和生成任务之间存在权衡，而改进这两个任务的可行方法是使用更多数据。作者的 UniVL 框架在理解任务和生成任务方面都获得了与最近的视觉语言预训练方法相当的性能。

论文下载：https://arxiv.org/pdf/2112.05587

标题：Facebook | FLAVA: A Foundational Language And Vision Alignment Model（基础语言和视觉对齐模型）了解详情

作者：Amanpreet Singh , Ronghang Hu , Vedanuj Goswami等

简介：本文主要研究跨模态预训练的基础模型。最先进的视觉和视觉和语言模型依赖于大规模的视觉语言预训练，以便在各种下游任务上获得良好的性能。通常，此类模型通常是跨模态（对比）或多模态（具有早期融合），但不是两者兼有；他们通常只针对特定的模式或任务。一个有研究前景的方向是：使用单一的整体通用模型作为“基础”模型、可以针对所有模态。真正的视觉和语言基础模型应该擅长视觉任务、语言任务以及跨和多模态视觉和语言任务。作者引入 FLAVA 作为这样的跨模态预训练的基础模型，并在跨目标模式的 35 项任务中展示了令人惊叹的性能。

论文下载：https://arxiv.org/pdf/2112.04482

标题：斯坦福大学 | Tradeoffs Between Contrastive and Supervised Learning: An Empirical Study（对比学习和监督学习之间的权衡：一项实证研究）了解详情

作者：Ananya Karthik, Mike Wu, Noah Goodman, Alex Tamkin

简介：本文研究预训练监督学习与对比学习的高低优劣。对比学习在计算机视觉方面取得了长足进步，在一系列下游数据集上的表现优于监督预训练。然而，对比学习是否在所有情况下都是更好的选择？作者展示了两种情况。首先，在足够小的预训练预算下，ImageNet 上的监督预训练在八个不同的图像分类数据集上始终优于可比的对比模型。这表明，在数百或数千个时期比较预训练方法的常见做法可能无法为那些计算预算更有限的人提供可操作的见解。其次，即使有更大的预训练预算，作者也确定了监督学习占优势的任务，也许是因为监督预训练的以对象为中心的偏差使模型对常见的损坏和虚假的前景-背景相关性更具弹性。这些结果强调需要在更广泛的背景和训练制度中表征不同预训练目标的权衡。

注：本文已被NeurIPS 2021 研讨会收录。

论文下载：https://arxiv.org/pdf/2112.05340.pdf

标题：浙大等 | Molecular Contrastive Learning with Chemical Element Knowledge Graph（用化学元素知识图谱进行分子对比学习）了解详情

作者：Yin Fang, Huajun Chen等

简介：分子表征学习有助于多种下游任务，如分子属性预测和药物设计。本文构建了一个化学元素知识图谱来总结元素之间的微观联系，并提出了一个新的知识增强对比学习（KCL）框架用于分子表征学习。KCL框架由三个模块组成：第一个模块，知识引导的图增强，基于化学元素知识图谱增强原始分子图；第二个模块，知识感知图表征，用原始分子图的通用图编码器和知识感知消息传递神经网络提取分子表示，以编码增强的分子图中的复杂信息；最后一个模块则是对比预训练，在这里作者最大限度地提高这两种分子图的之间的一致性。实验表明，相对于最先进的基线，KCL在评价分子数据集上获得了卓越的性能。另外，可解释性可视化也正确地解释了KCL从增强的分子图的原子和属性中所学到的知识。

论文下载：https://arxiv.org/abs/2112.00544

标题：美国礼来公司 | solPredict: Antibody apparent solubility prediction from sequence by transfer learning（solPredict: 通过迁移学习从序列中预测抗体的表观溶解度）了解详情

作者：Jiangyan Feng, Qing Chai等

简介：近年来研究者对皮下给药途径的治疗性单抗（mAbs）越来越感兴趣，其中早期筛选具有最佳高浓度属性的可开发性抗体仍然具有挑战性。本文提出了一个应用蛋白质语言模型的策略，名为solPredict，以预测mAbs在组氨酸，即pH6.0缓冲液条件下的溶解度，其主要思路为从预训练的蛋白质语言模型ESM-1b中提取的嵌入从单一序列输入到浅层神经网络。模型在由220种不同的mAbs组成的数据集，以及从PEG诱导沉淀法中获得的蛋白质溶解度推断数据上训练和五折交叉检验进行超参数优化。solPredict与实验数据实现了高度相关，斯皮尔曼相关系数达到0.86，输出结果直接对应于实验溶解度测量，并能进行定量解释。这种方法消除了对mAbs的三维结构建模、描述符计算和专家制作的输入特征的需要，其计算费用极低，能够在早期抗体发现过程中对mAbs进行快速高通量的筛选。

论文下载：https://doi.org/10.1101/2021.12.07.471655

标题：百度 | Multimodal Pre-Training Model for Sequence-based Prediction of Protein-Protein Interaction（基于序列的蛋白质-蛋白质相互作用预测的多模态预训练模型）了解详情

作者：Yang Xue, Fan Wang等

简介：建立蛋白质-蛋白质相互作用（PPI）模型对许多生物医学应用是有用的，如疫苗设计、抗体治疗和多肽类药物发现。预训练蛋白质模型可以学习有效的表征，这对PPI来说至关重要，然而无论是序列还是接触图都不能完全描述蛋白质的结构和功能。受此启发，本文提出了一个多模态的蛋白质预训练模型，包括三个模态：序列、结构和功能（S2F）。该方法没有使用接触图来学习氨基酸水平的刚性结构，而是用重原子的点云的拓扑复合物来编码结构特征，这使得模型不仅可以学习骨架的结构信息，还可以学习侧链的结构信息。此外，本文模型还结合了从文献或人工注释中提取的蛋白质功能描述的知识。实验表明，S2F学习的蛋白质嵌入在各种PPI任务中取得了良好的表现，包括跨物种PPI预测、抗原抗体亲和力预测、SARS-CoV-2的抗体中和预测，以及突变驱动的结合亲和力变化预测。

论文下载：https://arxiv.org/abs/2112.04814v1

标题：斯坦福、加州理工等 | Extending the WILDS Benchmark for Unsupervised Adaptation（为无监督自适应扩展WILDS基准）了解详情

作者：Shiori Sagawa, Percy Liang等

简介：预训练模型系统往往是在一个源分布上训练，但部署在不同的目标分布上。无标签数据可以缓解这些分布变化，因为它经常比有标签的数据更常见且可用，然而现有的无标签数据的分布偏移基准并不反映现实世界应用中出现的广泛情况。在这项工作中，作者提出了WILDS 2.0，它扩展了WILDS分布偏移基准中10个数据集中的8个，以系统包括在部署中实际出现的精心策划的无标签数据。目前数据集涵盖了从生理组织学到野生动物的各种应用场景，分类、回归和检测的各种任务，记忆照片、卫星图像、显微镜切片、文本、分子图等等模态。本文对利用无标签数据的SOTA方法进行了系统的基准测试，包括领域不变特征、自训练和自监督的方法，并表明它们在WILDS 2.0上的成功。

论文下载：https://arxiv.org/abs/2112.05090v1

研究动态

标题：OpenAI | Customizing GPT-3 for Your Application--Fine-tune with a single command（为你的应用定制GPT3 —— 一键微调）了解详情

作者：Rachel Lim、Michael Wu、Luke Miller

简介：近日，OpenAI发表了有关定制GPT3的blog。开发人员现在可以在自己的数据上对GPT-3进行微调，创建一个适合各自应用的定制版本。定制使GPT-3在更广泛的使用情况下变得可靠，并使模型的运行更加便宜和快速。用户可以使用几乎任何形状和大小的现有数据集，或根据用户反馈逐步增加数据。通过微调，一个客户能够将正确输出率从83%提高到95%。另一个客户通过每周添加他们产品的新数据，将错误率降低了50%。定制GPT-3提高了输出的可靠性，提供了更一致的结果，无论是文本生成、摘要、分类，还是GPT-3能够执行的任何其他自然语言任务，定制GPT-3将提高性能。而使用方法也极为便捷，只需在OpenAI命令行工具中运行一个命令，用户的自定义版本将开始训练，然后在OpenAI的API中立即可用。

资讯链接：https://openai.com/blog/customized-gpt3/