本文主要是介绍[论文笔记] LLM大模型剪枝篇——1、调研,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models
LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。
跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。
跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。
跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。
LLaMA2在剪枝时,是否跳过最后一层的ffn/attention layer,影响不大。
The Unreasonable Ineffectiveness of the Deeper Layers
剪枝崩溃临界点:不同模型的剪枝崩溃临界点不同,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%。
Mistral和phi的剪枝效果在临界点之前更稳定。Qwen的剪枝效果在临界点之前没那么稳定,需要qlora训练修复。
这篇关于[论文笔记] LLM大模型剪枝篇——1、调研的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!