coat专题

YOLO算法改进Backbone系列之:CoaT

在本文中,我们提出了co-scale conv-attention image transformer(CoaT),这是一种基于Transformer的图像分类器,配备了co-scale和conv-attention机制。首先,co-scale机制在各个尺度上保持Transformer编码器支路的完整性,同时允许在不同尺度上学习到的特征能相互有效通信;我们设计了一系列串行和并行块来实现co-sca