IBM也下场LLM了,自对齐、高效率的单峰驼Dromedary来了

2023-10-28 11:10

本文主要是介绍IBM也下场LLM了,自对齐、高效率的单峰驼Dromedary来了,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近期IBM Research发布了dromedary,并指出这个模型通过一种称为自对齐(SELF-ALIGN)的新方法,结合了原则驱动(principle-driven)的推理和LLM的生成能力,用于AI代理的自我对齐,使人类的监督最少化。

资料及参考:

官网:Dromedary

代码:GitHub - IBM/Dromedary: Dromedary is a helpful, ethical, reliable LLM.

论文:[2305.03047] Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision (arxiv.org)

模型:zhiqings/dromedary-65b-lora-delta-v0 · Hugging Face

技术细节:

技术细节部分主要来自论文:Principle-Driven Self-Alignment of Language Models

from Scratch with Minimal Human Supervision 。

问题简介:

最近的人工智能助手(AI-assistant agents),如 ChatGPT,主要依靠对人工注释的监督微调和从人类反馈中进行强化学习,以使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是有用的、合乎道德的和可靠的。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自洽性和不良偏见的相关问题,这种依赖性会严重限制人工智能助手(AI-assistant agents)的真正潜力。为了应对这些挑战,研究者们提出了一种称为SELF-ALIGN的新方法,该方法结合了原则驱动(principle-driven)的推理和LLM的生成能力,用于AI代理的自我对齐,使人类的监督最少化。

SELF-ALIGN

应用SELF-ALIGN到LLaMA-65b基本语言模型, 研究者开发了一个名为Dromedary的AI模型。使用少于300行人工注释(包括200个种子提示,16个通用原则和5个上下文学习的示例),Dromedary的性能显著超过几个最先进的AI系统,包括Text-Davinci-003和Alpaca,在各种设置的基准数据集上。研究者开源了代码、Dromedary的LoRA权重以及他们的合成训练数据,以鼓励进一步研究提高监督效率、减少偏差和改善LLM基础的AI代理的可控性。

实现SELF-ALIGN的4个步骤

1.(由主题引导的红队策略)自指示(Topic-Guided Red-Teaming Self-Instruct) :

研究者采用自我教学机制,使用175个种子提示生成合成指令,再加上20个专题特定的提示,以确保指令的话题范围多样化。这样的指令可以确保AI系统学习的上下文/场景范围全面,从而减少潜在的偏差。

2. 原则驱动式自对齐(Principle-Driven Self-Alignment):

研究者开发了16条人工编写的英文原则的小集合,关于系统生成的响应的期望质量,或者AI模型在产生答案时的行为规则。这些原则起到了生成有帮助,合乎道德和可靠响应的指导作用。

研究者进行上下文学习(ICL、in-context learning),通过几个示例(演示)说明AI系统在不同情况下制定响应时如何遵守规则。对于每个新查询,在响应生成过程中使用相同的示例集(same set of exemplars ),而不是为每个查询要求不同的(人工注释)示例。从人工编写的原则、ICL 示例(ICL exemplars,)和传入的自我指导提示(self-instructed prompts)中,LLM 可以触发匹配规则并生成拒绝答案的解释,如果查询被检测为有害或格式不正确。

3. 原则刻画(Principle Engraving):

在第三阶段,研究者对原始的LLM(基础模型)进行微调,使用LLM本身通过提示生成的自我对齐响应,同时为微调后的模型修剪原则和演示。微调过程( fine-tuning process)使他们的系统能够直接为广泛的问题生成与有帮助,合乎道德和可靠原则高度对齐的响应,这是由于共享的模型参数。请注意,微调后的LLM可以直接为新查询生成高质量的响应,而无需显式使用原则集(principle set)和ICL示例(ICL exemplars)。

4.冗长克隆(Verbose Cloning):

最后,研究者采用上下文蒸馏来增强系统产生比过于简短或间接的响应更全面和详细的响应的能力。

模型效果:

将 SELF-ALIGN 应用于 LLaMA-65b 基本语言模型,研究者开发了一个名为 Dromedary 的 AI 助手。使用少于300行人工注释(包括<200个种子提示,16个通用原则和5个上下文学习的范例),在各种设置的基准数据集上, Dromedary 的性能远超过几个最先进的 AI 系统,包括 Text-Davinci-003 和 Alpaca。

这是在TruthfulQA进行生成任务得到的数据。

这是在HHH Eval数据集上的多选题(MC)准确度。

这是由GPT-4评估的在Vicuna基准问题上得到的答案比较数据

以及这是在Vicuna基准问题上得到的答案质量,也是由GPT-4进行评估。

可以看到效果非常不错。

模型部署:

部署说明:https://github.com/IBM/Dromedary#model-weights

模型下载:zhiqings/dromedary-65b-lora-delta-v0 · Hugging Face

部署步骤

需要注意的使现在在Hungingface上的这个 "delta 模型"不能直接使用。用户需要把它叠加到原 LLaMA weights 得到真正的 Dromedary weights。具体步骤如下

1. 按照这里的说明获取LLaMA模型在huggingface格式的原始权重

2. 从我们的Hugging Face模型中心下载LoRA增量权重

3. 遵循我们的inference guide了解如何使用模型并行在您自己的机器上部署Dromedary/LLaMA,使用model parallel。

Quick Start

假设你有 2个 A100-80GB GPUs 并且将 Dromedary/LLaMA checkpoints 分成了 2个 shards.

bash scripts/demo_dromedary_2shards.sh

Or 假设你有 6个 V100-32GB GPUs 并且将 Dromedary/LLaMA checkpoints 分成了 6个 shards.

bash scripts/demo_dromedary_6shards.sh

感觉有帮助的朋友,欢迎赞同、关注、分享三连。^-^

这篇关于IBM也下场LLM了,自对齐、高效率的单峰驼Dromedary来了的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/292798

相关文章

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

自定义结构体的对齐问题

一、跨平台通用数据类型 之前的一篇博客Linux数据类型(通用移植),已经自定义尝试解决了数据通用类型问题。 这里通过源码进行分析,利用源码进行解决问题。在<stdint.h>中我们发现: typedef signed char int8_t;typedef unsigned char uint8_t;typedef short int16_t;typedef unsigned s

IBM Storwize V7000存储控制器故障节点报错574

背景:由于客户机房搬迁,需要下电迁移设备。该存储自2016年投入生产使用后,从未关过机,已正常运行七八年时间,期间只更换过硬盘,无其他硬件故障。 在GUI界面点击关闭系统后,大概等了40分钟,存储仍未关机,所有硬盘状态灯绿色常亮,面板无报错。到设备后面看控制器的状态,发现node2已经正常关机了,node1仍然在运行,又等了大概20分钟还没有关机,直接将电源线给拔掉了。 再次上电以后,发现

LLM应用实战: 产业治理多标签分类

数据介绍 标签体系 产业治理方面的标签体系共计200+个,每个标签共有4个层级,且第3、4层级有标签含义的概括信息。 原始数据 企业官网介绍数据,包括基本介绍、主要产品等 企业专利数据,包括专利名称和专利摘要信息,且专利的数据量大。 LLM选型 经调研,采用Qwen2-72B-Instruct-GPTQ-Int4量化版本,占用显存更少,且效果与非量化相当,

LLM大模型教程:langchain 教程

软件安装 pip install pymupdfpip install langchainpip install langchain-cliconda install -c pytorch -c nvidia faiss-gpu=1.7.4 mkl=2021 blas=1.0=mkl 由于langchain不支持qwen模型,我们需要自定义模型 from typing import A

SylixOS ARM平台下内存对齐访问

1.内存对齐 1.1     内存对齐概要 现代计算机中内存空间都是按照byte划分的,从理论上讲对任何类型的变量的访问可以从任何地址开始,但实际情况是在访问特定变量的时候经常在特定的内存地址访问,这就需要各类型数据按照一定的规则在空间上排列,而不是顺序的一个接一个的排放,这就是对齐。 1.2     内存对齐作用和原因 各个硬件平台对存储空间的处理上有很大的不同。一些平

LLM模型:代码讲解Transformer运行原理

视频讲解、获取源码:LLM模型:代码讲解Transformer运行原理(1)_哔哩哔哩_bilibili 1 训练保存模型文件 2 模型推理 3 推理代码 import torchimport tiktokenfrom wutenglan_model import WutenglanModelimport pyttsx3# 设置设备为CUDA(如果可用),否则使用CPU#

如何在Word中插入表格并进行高级格式化:冒号对齐、添加下划线并分栏

如何在Word中插入表格并进行高级格式化:详细教程 在Word中,表格是一个非常常用的工具,能够帮助我们更好地组织和展示信息。除此之外,本文还将深入探讨如何实现冒号对齐、添加专业的下划线以及隐藏表格线等高级技巧。通过这些技巧,能让你的文档更具美观性与专业性。 第一步:在Word页面上插入表格(大小为6行、2列) 插入表格 打开Word文档,将光标定位到想要插入表格的位置。点击菜单栏中的

[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案

https://github.com/sramshetty/ShortGPT/tree/main My剪枝方案(暂定):         剪枝目标:1.5B —> 100~600M         剪枝方法:                 层粒度剪枝                 1、基于BI分数选择P%的冗余层,P=60~80                 2、对前N%冗余层,