首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
问帮专题
2025秋招NLP算法面试真题(二)-史上最全Transformer面试题:灵魂20问帮你彻底搞定Transformer
简单介绍 之前的20个问题的文章在这里: https://zhuanlan.zhihu.com/p/148656446 其实这20个问题不是让大家背答案,而是为了帮助大家梳理 transformer的相关知识点,所以你注意看会发现我的问题也是有某种顺序的。 本文涉及到的代码可以在这里找到: https://github.com/DA-southampton/NLP_ability 问题
阅读更多...
用通俗易懂的方式讲解:灵魂 20 问帮你彻底搞定Transformer
大家好,今天总结一下史上最全 Transformer 面试题 Transformer为何使用多头注意力机制?(为什么不使用一个头)Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘? (注意和第一个问题的区别)Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?为什么在进行softmax之前需要对a
阅读更多...