(202312)so-large-lm:Task01引言

2023-12-13 17:28
文章标签 task01 large lm 引言 202312

本文主要是介绍(202312)so-large-lm:Task01引言,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 要点总结
    • 1 什么是语言模型
    • 2 大模型相关历史回顾
    • 3 这门课的意义
    • 4 课程结构介绍

前言

感谢开源学习的组织者与活动的发起者为我们带来so-large-llm这一可谓大语言模型的通识课。原项目地址为so-large-lm。

要点总结

基础比较烂,所以我会用我能理解,也就是大多数人能理解的方式通俗阐述。如果有什么过于离谱而文盲的解释或类比,请你随便指出。

1 什么是语言模型

  • 语言模型其实是序列的概率分布,大概也就是通过对一段散开的字词进行排列,然后展现出出现概率最大的一种。
  • 试想现在这个模型的词库很大,那么它就有可能给出很多符合常理的句子;但是这些句子是不需要的,我们现在在已经具有一小段序列的情况下只筛选出其中一部分字词,然后再在这些选择出的字词中进一步选择,就减少了计算量而出现了更合理并且语义明确的序列。
  • 温度可以控制生成中的变异量;这个词语还挺形象的。用分子动理论来类比的话就像是升高温度后整个气体变得更活跃了,更能出现奇怪的组合。

2 大模型相关历史回顾

  • 大模型的熵:熵实际上是一个衡量将样本 x ∼ p x∼p xp 编码(即压缩)成比特串所需要的预期比特数的度量。熵的值越小,表明序列的结构性越强,编码的长度就越短。直观上是符合心理的(因为不懂信息学,只能这么说TAT)。
  • N-gram模型:预测依赖于最后的n-1个字符,已经是有那味了。2007年Brants等在2万亿个tokens上训练了一个5-gram模型用于机器翻译。
  • 神经语言模型:有两个关键发展,循环神经网络(RNN)和Transformer架构。目前后者可以说是LLM发展到这样的大功臣。
  • LLM发展和算力的发展是分不开的。

3 这门课的意义

技术层面上本课专注于自回归语言模型。
应对广泛的应用领域以及对于大模型快速发展所产生一些问题的担忧。

4 课程结构介绍

分为四个层次

  1. LLM对于我们是黑盒子,只是通过API进行访问,理解其行为
  2. 从训练数据的角度来了解大模型以及思考关于其中的道德与法律的问题
  3. 学习如何构建大语言模型,学习其模型架构和算法
  4. 按照这种思维去思考这种方法的扩展,引向多模态大模型。

这篇关于(202312)so-large-lm:Task01引言的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/489291

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

高精度打表-Factoring Large Numbers

求斐波那契数,不打表的话会超时,打表的话普通的高精度开不出来那么大的数组,不如一个int存8位,特殊处理一下,具体看代码 #include<stdio.h>#include<string.h>#define MAX_SIZE 5005#define LEN 150#define to 100000000/*一个int存8位*/int num[MAX_SIZE][LEN];void

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言 今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 密集检索需要学习具有区分性的文本嵌入,以表示查询和文档之间的语义关系。考虑到大语言模

教育LLM—大型教育语言模型: 调查,原文阅读:Large Language Models for Education: A Survey

Large Language Models for Education: A Survey 大型教育语言模型: 调查 paper: https://arxiv.org/abs/2405.13001 文章目录~ 原文阅读Abstract1 Introduction2 Characteristics of LLM in Education2.1.Characteristics of LLM

Large Language Models(LLMs) Concepts

1、Introduction to Large Language Models(LLM) 1.1、Definition of LLMs Large: Training data and resources.Language: Human-like text.Models: Learn complex patterns using text data. The LLM is conside

2024年Linux内核社区关于large folio和mthp的关键进展

1. 概述  在 Linux 内核中,一个 folio 可以只包含 1 个 page,也可以包含多个 page。当一个 folio 包含多个 page 的时候,我们称它为一个 large folio,在中文社区,我们一般称呼其为大页。采用 large folio 可潜在带来诸多好处,比如:   1. TLB miss 减小,比如许多硬件都支持 PMD 映射,可以直接把 2MB 做成一个 lar

NLP-预训练模型-2017:ULMFiT(Universal LM Fine-tuning for Text Classification)【使用AWD-LSTM;模型没有创新;使用多个训练小技巧】

迁移学习在计算机视觉有很大的影响,但现在的NLP中的方法仍然需要特定任务的修改和 从头开始的训练。我们提出通用语言模型微调,一种可以应用NLP任何任务中的迁移学习方法。我们模型在分类任务中都表现得良好,并且在小数据集上的表现优异。 一、ULMFiT (Universal Language Model Fine- tuning)组成步骤: a) General-domain LM pretr

深度学习应用 - 引言篇

序言 深度学习,作为机器学习领域的一个重要分支,近年来在各个领域展现出了前所未有的应用潜力和价值。其核心思想在于通过构建多层神经网络,模拟人脑的学习过程,从而实现对复杂数据的自动特征提取和高效处理。随着大数据时代的到来和计算能力的不断提升,深度学习技术正逐步渗透到图像识别、语音识别、自然语言处理、推荐系统等多个领域,成为推动人工智能发展的重要力量。 深度学习应用 我们将介绍如何使用深度学习

论文笔记:LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Abstract 当前存在问题,大模型在生成关于开放主题的事实寻求问题的时候经常存在事实性错误。 LongFact 创建了LongFact用于对各种主题的长形式事实性问题进行基准测试。LongFact是一个prompt集包含38个领域的数千条提示词,使用GPT-4生成。 Search-Augmented Factuality Evaluator(SAFE) SAFE利用大模型将一个相应拆

专栏引言:迈向大数据分析的最前沿

目录 专栏目标与读者定位 我们要做什么? 读者定位 最新大数据技术趋势与挑战 1. 流处理与实时分析:超越批处理的极速体验 2. 分布式机器学习:训练规模突破的关键 3. 隐私保护与安全合规:数据共享的隐形屏障 4. 边缘计算与物联网数据分析:从云端到边缘的新战场 结语:踏上大数据分析的尖端之旅 欢迎来到“大数据分析技术进阶与实战”专栏!如果你是一位已经在数据分析领域打