本文主要是介绍cross-attention里为什么encoder提供的是KV?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
依照attention在计算全连接图中有向边权重的思路,KV是中心节点的邻居们的KV,中心节点提供Q,与每个邻居单独交流(指QK),然后根据这个权重聚合邻居的信息(V)。因此,encoder提供KV,是全面抛弃了decoder端input的信息库,只将其作为从encoder中摘取信息的媒介(Q)。所以图without self-loop的图,每一个token的output都从同一个节点集合(encoder的input)采集信息。这实在有些太看得起那点儿input了。
这是decoder-only好的理由之一。
这篇关于cross-attention里为什么encoder提供的是KV?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!