本文主要是介绍【AI大模型】相关知识梳理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
为了系统性梳理AI,大模型,训练和推理,数学,机器学习,python等基础知识,并在此基础上深入理解经典论文,本人将持续更新有关这些方向的基础知识博客,博客 将保持一如既往的 通俗易懂的风格。并且结合代码来深入理解。
Transformer
- 提出背景和原因
- 与RNN结构相比的优势
- 基本实现流程
- Tokenization
- Position embedding
- bn,ln和rmsnrom
- post-norm和pre-norm
- Self-attention
- Multi-head attention
- Residual & ffn
- Masked attention
- Cross attention
大模型结构,训练和推理
大模型结构
- 不同结构的区别(encoder-only,decoder-only,encoder-decoder)
- Weight tying 及其求导过程
- 不同数据类型的区别(bf16,fp16,fp32)
- 大模型参数量的计算
大模型训练
- 常规训练流程及其区别
- 大模型训练时显存占用分析
- 分布式训练-数据并行(DP,DDP,Deepspeed Zero)
- 分布式训练-张量并行
- GPU基本原理
- Flash attention原理
- 梯度检查点
- 高效参数微调(以Lora为例)
- 偏好对齐(以DPO为例)
大模型推理
- Kv cache
- mqa,gqa,mla的区别
- Output 价格比 input价格更贵的原因
- vllm推理库的原理
经典论文
- GPT系列
- llama系列
多模态大模型理解和生成
多模态基础模型
- Vit
- 实现方式
- 位置编码
- Clip
- clip的原理
- siglip与clip的区别
多模态理解
- blip2
- Qwenvl
- Llava
- Internvl
- minicpm
- 大图切分
- 转接层的实现方式
- 视觉token压缩
多模态生成
- 生成模型的发展(ae,vae,ddpm,sd,dit)
- opensora
机器学习基础和常考面试题目
- 使用numpy实现神经网络全流程
- 过拟合
- 正则化
- 梯度消失和梯度爆炸
- 优化器的原理
数学基础和常考面试题目
- 概率论
- 线性回归
- 动态规划
计算机和数据结构基础和常考面试题目
- 进程和线程
- 栈和队列
- 二叉树
- 图论
- 堆
- 排序
Python基础和常考面试题目
- 深拷贝和浅拷贝,python对应的实现
- Python gil锁
- 注册器
这篇关于【AI大模型】相关知识梳理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!