本文主要是介绍dot product为何能衡量similarity,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
https://developers.google.com/machine-learning/clustering/similarity/check-your-understanding
https://math.stackexchange.com/questions/689022/how-does-the-dot-product-determine-similarity
cosine similarity仅取决于两个向量的角度,而dot product同时取决于两个向量的角度和长度,这道题因为vector A的长度比较长,虽然角度很大,但还是能让A与B更相似。
所以自注意力机制得到的attention matrix中,不一定是对角线的元素值最大吧,因为N * C,C * N的矩阵中,如果有一个样本Ni的1C的向量的模特别大,那么它会某些Nj跟Nj特征相乘的值没有Nj跟Ni特征相乘的值大,也就是下面这张图的问题。
是不是一个样本Ni的1C的向量的模特别大,就说明它比较重要呢。
这篇关于dot product为何能衡量similarity的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!