LLM - Ruozhiba <Quality> is All You Need

2024-04-10 05:20
文章标签 llm quality need ruozhiba

本文主要是介绍LLM - Ruozhiba <Quality> is All You Need,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

引言

1.COIG-CQIA Data

2.Ruozhiba Performance

3.Ruozhiba Data

4.More Ruozhiba Data

5.Some thoughts


引言

近期弱智吧 [后续以 Ruozhiba 代替] 的数据集在中文 LLM 场景的 Fine-Tuning 效果大火。众所周知,在当前 LLM 的大环境下,足够优秀的数据对模型的 Fine-Tuning 效果影响很大,以至于很多优秀的微调样本 Label 都来自 GPT-4 标注,这次我们也是借此机会,对 Ruozhiba 的数据集一探究竟,看看究竟是什么样的数据集才更利于模型的微调。

1.COIG-CQIA Data

Attention is All You Need,相信这篇文章大家一定不会陌生,而近期: 

Quality is All You Need for Chinese Fine-tuning

一文介绍了中文数据集及其对应微调效果,也是在这篇论文中,作者引入了高质量的中文数据集 COIG-CQIA,该数据集是一个高质量的中文指令微调数据集,其从中国互联网的各种来源收集了高质量的人工编写的语料库,包括 Q&A 社区、Wikis、考试和现有的 NLP 数据集。该语料库经过严格过滤和仔细处理以形成 COIG-CQIA 数据集。此外,作者按照深入的评估和分析,在 CCIA 的不同子集上训练不同尺度的模型。通过实验发现,来自于百度贴吧-弱智吧的数据在微调 Fine-Tuning 后,在多个指标上领先于其他社区与平台。

上表展示了混合数据集的构成,其中数量较多的是 MBA Encyclopedia [MBA 百科全书] 和 Zhihu [知乎],也有热门的社区例如 Xiaohognshu [小红书] 和 Douban [豆瓣],共计 48375 条数据。 

2.Ruozhiba Performance

Ruozhiba 是百度 Tieba 的一个子论坛,这是一个基于兴趣的社区论坛。它的帖子通常包含双关语多义词因果反转同音词,其中许多都是用逻辑陷阱设计的,即使对于人类也带来了挑战。我们收集了 500 个投票最多的线程。使用标题作为说明,我们消除了那些非建设性(即陈述性陈述或不可回答)或有毒的。响应 Response 由人类或 GPT-4 生成。我们对 GPT4 响应进行了人工审查,以确保准确性,最终获得 240 个(Instruction, Response)对。

- Performance On Yi-6B

使用 GPT4 在 BELLE-EVAL 上评估的各种数据集上训练的 Yi-6B 的性能,其中 Ruozhiba 在多项指标上遥遥领先, 例如 Open QA、Brainstorming、Code 等。

- Performance On Yi-34B

使用 GPT4 在 BELLE-EVAL 上评估的各种数据集上训练的 Yi-34B 的性能,Ruozhiba 基本保持了 Yi-6B 上的表现。

- SafetyBench Score on Yi-6B

在各种数据源上训练的Yi-6B的安全基准分数,可以看到 Ruozhiba 数据集对应的安全基准分也很高。

3.Ruozhiba Data

论文中给出了 COIG-CQIA 数据集的地址: COIG-CQIA,可以在 Hugging-Face 上搜素:

我们找到 Ruozhiba 数据集的文件夹,文件一共 267 kb,保存为 raw 格式:

下面我们找一条 QA pair 看看怎么个事情:

其主要的 (Instruction, Response) 由 instruction 和 output 指定,其中 task_type 定义了其问答的主次类型,domian 定义了其对应的领域,后面的 metadata 用于存放元数据,answer_from 标识 llm,hunman_verified 代表是否人类确认。 再回归到内容上,Ruozhiba 的提问确实比较有特点,而其生成来自 LLM 即 GPT-4,我们也是下载了 raw 文件对数据集做一个基本信息统计。其中共包含 240 条数据,Instruction 指令为 Ruozhiba 内容,Response 回复为 GPT-4 提供,下面博主整理一些有趣的指令,大家工作之余可以放松感受下:

石油也是油,为啥没人用它来炒菜?
执行死刑时本人不去,委托律师去可以吗?
鸡柳是鸡身上哪个部位啊?
你只准备了5杯水,来了一亿个领导你应该怎么分配这些水
老师说提一分干掉千人,那我干掉千人是不是就相当于提了一分?
既然生锈的刀砍人会让人得破伤风,古代为什么不直接用生锈的武器?
司马懿为什么不找三个臭皮匠把诸葛亮顶住
我偷功德箱,那我的功德是增加了还是减少了
吃了降压药,为什么碰到高压电还是会死?🤔
喝饮料的时候一直有个疑问冰红茶是柠檬味的红茶还是红茶味的柠檬水
很多人说的看不到未来其实是看到了未来
银行是不是已经破产了,为什么我每次取钱都显示余额不足?
完美的人会不会因为缺少缺点而变得不完美?...
既然大学生都喜欢坐后排为什么老师不在教室后面讲
兄弟们,为什么每条隧道上面都压着一座山
游泳比赛时把水喝光后跑步犯规吗
失踪是不是丢人的事情?
我做了一个1:1的地球仪,你往窗外看就能看见了
喝奶茶  用吸管喝的是下面的水 为什么少的是上面的水
妈妈说:“我的天才考59分”是不是在夸我是天才?

4.More Ruozhiba Data

上面 COIG-CQIA 数据集中 Ruozhiba 的数据只有 240 条,一些同学可能觉得不太够用,好在已经有同学在 github 上做了分享,大家可以参考: GitHub - Leymore/ruozhiba

这里按照不同类型收集了接近 10w 条原始 Ruozhiba 数据,大家可以根据自身情况构建 Instruction  并使用 LLM 构建 Response 从而 DIY 自己的个性大语言模型。

5.Some thoughts

先看下 Ruozhiba 数据在论文中的介绍:

Ruozhiba 是百度 Tieba 的一个子论坛,这是一个基于兴趣的社区论坛。它的帖子通常包含双关语多义词因果反转同音词,其中许多都是用逻辑陷阱设计的,即使对于人类也带来了挑战。我们收集了 500 个投票最多的线程。使用标题作为说明,我们消除了那些非建设性(即陈述性陈述或不可回答)或有毒的。响应 Response 由人类或 GPT-4 生成。我们对 GPT4 响应进行了人工审查,以确保准确性,最终获得 240 个(Instruction, Response)对。

有一些角度可以供我们借鉴并应用在后续的 LLM 工作中:

- 逻辑陷阱

Ruozhiba 的数据包含很多双关、多义、因果反转和同音词等,其基于逻辑陷阱涉及,本质上是更多样性或者更特别的数据,其可以给模型带来新的知识;另一方面,一些难以理解的知识本质上其实是在增加模型学习的难度,就像 Casual Mask 的设置一样,增加难度后提高模型的学习能力。

- 非建设性

选取标题后,我们消除了陈述性或不可答或者有毒的数据,这其实对应一个基础的数据清洗过程,在原数据处理以及 Prompt 构建时,这些信息都应该注意。

- GPT Response

我们通过 GPT-4 的响应获取了 240 条数据,其中通过人工审查确保其准确性。一方面说明了 GPT-4 数据生成方法的可行性,可以看到即使只有 240 条数据,但由于其质量较高,依然可以通过 Fine-Tuning 获得不错的效果。另外就是准确性的问题,不管是人工审查还是其他方式,Response 的准确性对模型的 Fine-Tuning 效果也至关重要。

- Quality is All You Need for Chinese Instruction Fine-tuning

最后回到论文的标题,Quality is All You Need - 数据质量在我们 Fine-Tuning 的工作中非常关键,在当前 LLM 模型整体框架不会大变 [Transformer] 的情况下,应该秉承宁缺毋滥的态度,可以看到 240 条的高质量数据可以在表现较好的模型上获得更好的效果。

这篇关于LLM - Ruozhiba <Quality> is All You Need的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/890161

相关文章

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

LLM应用实战: 产业治理多标签分类

数据介绍 标签体系 产业治理方面的标签体系共计200+个,每个标签共有4个层级,且第3、4层级有标签含义的概括信息。 原始数据 企业官网介绍数据,包括基本介绍、主要产品等 企业专利数据,包括专利名称和专利摘要信息,且专利的数据量大。 LLM选型 经调研,采用Qwen2-72B-Instruct-GPTQ-Int4量化版本,占用显存更少,且效果与非量化相当,

LLM大模型教程:langchain 教程

软件安装 pip install pymupdfpip install langchainpip install langchain-cliconda install -c pytorch -c nvidia faiss-gpu=1.7.4 mkl=2021 blas=1.0=mkl 由于langchain不支持qwen模型,我们需要自定义模型 from typing import A

LLM模型:代码讲解Transformer运行原理

视频讲解、获取源码:LLM模型:代码讲解Transformer运行原理(1)_哔哩哔哩_bilibili 1 训练保存模型文件 2 模型推理 3 推理代码 import torchimport tiktokenfrom wutenglan_model import WutenglanModelimport pyttsx3# 设置设备为CUDA(如果可用),否则使用CPU#

[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案

https://github.com/sramshetty/ShortGPT/tree/main My剪枝方案(暂定):         剪枝目标:1.5B —> 100~600M         剪枝方法:                 层粒度剪枝                 1、基于BI分数选择P%的冗余层,P=60~80                 2、对前N%冗余层,

jmeter压力测试,通过LLM利用RAG实现知识库问答,NEO4J部署,GraphRAG以知识图谱在查询时增强提示实现更准确的知识库问答(9/7)

前言         这周也是杂七杂八的一天(高情商:我是一块砖,哪里需要往哪里搬),首先是接触了jemter这个压力测试工具,然后帮公司的AIGC项目编写使用手册和问答手册的第一版,并通过这个平台的智能体实现知识库问答的功能展示,以及部分个人扩展和思考(NEO4J创建知识图谱的GraphRAG)。 Jmeter         Jmeter是一个压力测试工具,一开始导师叫我熟悉的时候我还说

下载量10w+!LLM经典《大型语言模型:语言理解和生成》pdf分享

介绍 近年来,人工智能在新语言能力方面取得了显著进展,深度学习技术的快速发展推动了语言AI系统在文本编写和理解方面的表现。这一趋势催生了许多新功能、产品和整个行业的兴起。 本书旨在为Python开发者提供实用工具和概念,帮助他们利用预训练的大型语言模型的能力,如拷贝写作、摘要等用例;构建高级的LLM流水线来聚类文本文档并探索主题;创建超越关键词搜索的语义搜索引擎;深入了解基础Transfo

深入解析五大 LLM 可视化工具:Langflow、Flowise、Dify、AutoGPT UI 和 AgentGPT

近年来,大语言模型(LLM)技术的迅猛发展推动了智能代理(Agent)应用的广泛应用。从任务自动化到智能对话系统,LLM 代理可以极大简化复杂任务的执行。为了帮助开发者更快地构建和部署这些智能代理,多个开源工具应运而生,尤其是那些提供可视化界面的工具,让开发者通过简单的图形界面设计、调试和管理智能代理。 本文将详细介绍五款热门的 LLM 可视化工具,分别是 Langflow、Flowise、Di

基于LangChain+LLM的相关技术研究及初步实践

01 概述 大模型概述 大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据