icml2024专题

ICML2024高分论文!大模型计算效率暴涨至200%,来自中国AI公司

前段时间,KAN突然爆火,成为可以替代MLP的一种全新神经网络架构,200个参数顶30万参数;而且,GPT-4o的生成速度也是惊艳了一众大模型爱好者。 大家开始意识到—— 大模型的计算效率很重要,提升大模型的tokens生成速度是很关键的一环。 而提升大模型的tokens生成速度,除了花钱升级GPU外,更长效的做法是改善Transformer模型架构的计算效率。 今天,笔者发现,终于有团队