新整专题

小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(4)

终结篇了       书接前文:小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(3) (qq.com)       本章把Trasfomer剩的一点网络讲完       上节课我们讲完了attetion的机制,我们再复习一下(这玩意就得反复看,加深记忆)       我下面再换几张图,换个角度来看,来自于复旦的Qi

小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(1)

这论文其实也不用多说了,我相信百分之70以上我的读者读过       但是还是老规矩 1,2,3 上链接       1706.03762.pdf (arxiv.org)       《Attention is all you need》我如果干讲这个可能有点枯燥,毕竟好多人看过,但是这个论文又是玩LLM不可能跨过的一篇文章,所以我站在我的角度夹带点私货来对这个论文做一些个人解读,保证你们看