本文主要是介绍self-attention为什么要除以根号d_k,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、因为softmax的输入很大时,其梯度会变的很小,趋近于0;
二、除以根号Dk的目的就是使得,QK/Dk满足方差稳定到1,使得softmax的梯度不至于太小
参考:
transformer中的attention为什么scaled? - 知乎
注意力机制在softmax时除以一个根号d的作用_samuelzhoudev的博客-CSDN博客
self-attention为什么要除以根号d_k_tyler的博客-CSDN博客
这篇关于self-attention为什么要除以根号d_k的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!