本文主要是介绍怎么看待Groq,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
用眼睛看。
就是字面上的意思用眼睛看。
我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。
目前Groq只能选Llama的70b,和Mixtral的MoE,那我选7*8的这个MoE模型来实验。
这么好些字大概花了不到1秒,流式响应,其实是不是流式已经没那么重要了
,然后看每秒Token数525!!!
如果大家没什么概念可以做一下对比,GPT-3.5大概20几个,我用本地的卡做KV cache,然后Vllm拿Alpaca做推理,大概极限能冲到30几个Token...
是的,它就是这么快。
刚出的时候,Ross顶着TPU发明者的身份,被很多无良媒体解读说Groq是LPU,是Google TPU的同架构,然而两者根本一点关系也没有,TPU就别蹭了,TPU可以理解为更接近于GPU的架构,(TPU也根本做不到这么快,慢10倍都不止)LPU更像是Dojo,是空间计
这篇关于怎么看待Groq的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!