Bilibili开源发布轻量级 Index 系列语言模型:2.8T 训练数据,支持角色扮演

本文主要是介绍Bilibili开源发布轻量级 Index 系列语言模型:2.8T 训练数据,支持角色扮演,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Bilibili首次发布 Index 系列模型中的轻量版本:Index-1.9B 系列

本次开源的 Index-1.9B系列包含以下模型:

Index-1.9Bbase:基座模型,具有 19 亿 非词嵌入参数量,在 2.8T    中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先.    

Index-1.9Bpure:基座模型的对照组,与 base 具有相同的参数和训练策略,不同之处在于我们严格过滤了该版本语料中所有指令相关的数据,

以此来验证指令对 benchmark 的影响

Index-1.9Bchat:基于 index-1.9B    base 通过 SFT 和 DPO 对齐后的对话模型,我们发现由于预训练中引入了较多定向清洗对话类语料,聊天的趣味性明显更强

Index-1.9Bcharacter    :在 SFT 和 DPO 的基础上引入了 RAG 来实现 fewshots 角色扮演定制

目前,我们已在 HuggingFace 和 ModelScope 上同步开源。期待听到你们的使用反馈!

开源网址,模型下载请到喜好儿网查看

详细描述了模型的预训练过程,包括数据清洗、去重、Tokenizer的设计和模型架构的选择。特别提到了模型使用了SentencePiece训练的BPE Tokenizer,并针对中文进行了优化。模型架构方面,Index-1.9B采用了36层的深度,并采用了Norm-Head技术来稳定训练过程。

训练过程中,使用了AdamW优化器,并采取了两阶段训练策略,包括稳定阶段和衰减阶段。报告还讨论了训练基础设施,包括自研训练框架和硬件配置。

在评测部分,模型在多个任务上的表现被详细列出,包括综合性选择题、理解和推理、数学问题解答以及代码能力评测。结果显示Index-1.9B在多数任务上都有出色的表现。

报告还包括了对模型结构、学习率和训练策略的深入讨论和实验,以及对预训练中是否加入指令的探讨。最后,报告介绍了如何通过SFT(Supervised Fine-Tuning)和DPO(Direct Preference Optimization)进一步优化模型,以更好地符合人类的偏好和提高对话的趣味性。

这篇关于Bilibili开源发布轻量级 Index 系列语言模型:2.8T 训练数据,支持角色扮演的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078751

相关文章

C语言中联合体union的使用

本文编辑整理自: http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=179471 一、前言 “联合体”(union)与“结构体”(struct)有一些相似之处。但两者有本质上的不同。在结构体中,各成员有各自的内存空间, 一个结构变量的总长度是各成员长度之和。而在“联合”中,各成员共享一段内存空间, 一个联合变量

轻量级在线服装3D定制引擎Myway简介

我写的面向web元宇宙轻量级系列引擎中的另外一个,在线3D定制引擎Myway 3D。 用于在线商品定制,比如个性化服装的定制、日常用品(如杯子)、家装(被套)等物品的在线定制。 特性列表: 可更换衣服款式,按需定制更换模型可实时更改材质颜色可实时添加文本,并可实时修改大小、颜色和角度,支持自定义字体可实时添加艺术图标,并可实时修改大小、颜色和角度,支持翻转、各种对齐可更改衣服图案,按需求定制

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

公共筛选组件(二次封装antd)支持代码提示

如果项目是基于antd组件库为基础搭建,可使用此公共筛选组件 使用到的库 npm i antdnpm i lodash-esnpm i @types/lodash-es -D /components/CommonSearch index.tsx import React from 'react';import { Button, Card, Form } from 'antd'

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

(超详细)YOLOV7改进-Soft-NMS(支持多种IoU变种选择)

1.在until/general.py文件最后加上下面代码 2.在general.py里面找到这代码,修改这两个地方 3.之后直接运行即可

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多