首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
苏神专题
苏神博客阅读记录
20220504 GAU-α:尝鲜体验快好省的下一代Attention FLASH:可能是近来最有意思的高效Transformer设计 对attention的一个革新。标准的transformer是attention层和FFN层交替,FLASH这篇提出来利用GAU代替attention+FFN,命名为FLASH-Quad,然后采用分块混合注意力,提出了线性复杂度的FLASH.
阅读更多...
扩散模型学习--基于苏神博客
这里写目录标题 DDPMDDPM 拆楼过程DDPM建楼过程预测 DDPM DDPM 拆楼过程 DDPM首先将一个原始的图像 x x x拆分,添加了随机噪声,对下一时刻的x与噪声增加了系数,这样可以保证每一步都对 x x x有一定程度的破坏 最终 x t x_t xt可以表示为如下形式,由于 α \alpha α小于1,因而最终 x t x_t xt就又噪声主导了,
阅读更多...
再次理解苏神的CoSENT损失函数的pytorch代码实现(终于搞懂了)
最近学习深度学习关于自然语言处理的有关内容时,看到了苏神关于在解决文本相似任务时提出的新的计算损失的方式:CoSENT损失。原文链接:CoSENT损失计算方式及原理。然后就想看看代码是怎么实现的。刚开始看属实是有点难,但还是给弄明白了,这里记录一下,供大家参考。 先看pytorch的代码实现,如下图: 那么在这里主要给大家解释实现方式中的前三步:取出真实的标签、句子向量归一化、奇偶向量相乘(
阅读更多...
从“苏神“奥运神迹到技术35岁问题
职场35岁的坎,相信大家都看得多、见得多了,不过我这里还是要提一提。刚好今天在csdn看到一位大佬入职国企的文章,其中有一个是关于面试时被问到“怎么看待技术35岁的问题?”,大佬先是从当前国内的IT环境现状着手,指出目前是一种堆业务堆应用要远多于底层设计的现状,导致三四年工作经验的开发者性价比极高,企业招收更倾向这批人;还指出一些大龄技术人员“才不配岁”,导致无法胜任新的岗位。大佬的一番话,真是受
阅读更多...