终结篇了 书接前文:小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(3) (qq.com) 本章把Trasfomer剩的一点网络讲完 上节课我们讲完了attetion的机制,我们再复习一下(这玩意就得反复看,加深记忆) 我下面再换几张图,换个角度来看,来自于复旦的Qi
这论文其实也不用多说了,我相信百分之70以上我的读者读过 但是还是老规矩 1,2,3 上链接 1706.03762.pdf (arxiv.org) 《Attention is all you need》我如果干讲这个可能有点枯燥,毕竟好多人看过,但是这个论文又是玩LLM不可能跨过的一篇文章,所以我站在我的角度夹带点私货来对这个论文做一些个人解读,保证你们看