【组会整理及心得】BiFormer、SICNet、IceNet

本文主要是介绍【组会整理及心得】BiFormer、SICNet、IceNet，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

【CVPR2023】BiFormer: Vision Transformer with Bi-Level Routing Attention

BiFormer：Vision Transformer with Bi-Level Routing Attention - 知乎

【本文贡献】

通过双层路由(bi-level routing)提出了一种新颖的动态稀疏注意力(dynamic sparse attention)，以实现更灵活的计算分配和内容感知，使其具备动态的、query感知的稀疏性
使用两级路由注意力作为基本构建块，提出了一个新的视觉Transformer，名为BiFormer，视觉领域的多个实验表明该模型具有更好的性能。

【网络结构】

先是提出了Bi-Level Routing Attention (BRA)，先将特征图划分为S×S个非重叠区域，得到QKV，再求Q和K的均值来得到对应的Qr和Kr，再使用转置乘法得到区域间的亲和度的邻接矩阵Ar，使用topK算子保留关系最密切的前k个区域，得到区域路由索引矩阵Ir。

得到Ir后即可应用细粒度的Token-to-token attention，如下图所示，先汇集以Ir中的所有元素为索引的路由区域，并收集它们的所有K和V得到Kg和Vg，再将Kg和Vg应用于注意力。

最后，有

这里的LCE是一个局部上下文增强项（相关论文《Shunted Self-Attention via Multi-Scale Token Aggregation》）。

使用 BRA 作为基本构建块，本文提出了BiFormer，如下图所示，大致结构为四阶段金字塔结构。

【心得体会】

采用动态稀疏注意力和topK方式有利于减少运算量，但也有使得准确率变低的风险，或许要注意一下K值的选取。

【TGRS2022】A data-driven deep learning model for weekly sea ice concentration prediction of the Pan-Arctic during the melting season

1. SICNet [Yibin Ren, Xiaofeng LI, Wenhao Zhang] - 知乎

【本文贡献】

提出了一个用于海冰预测的模型SICNet，它比现有的模型更轻量，并且性能好，显示了出比异常持久性 (Persist) 更好的递归预测性能。

【网络结构】

总体上是一个U-Net结构，主要创新点是提出了TSAM，它是将CBAM的MLP部分替换为本文提出的TCN模块形成的，相当于给特征图添加了权重信息。

TSAM相关模块的结构以及与CBAM的对比：

本文认为直接将 CBAM 搬到本文SIC长序列中不太合适，因为计算机视觉中通常用不同 channel 表示不同类， MLP是用于提取类之间的全局关联性的，而在 SIC 的长序列中，更需要得到的是通道序列之间的顺序依赖关系，即时空关系。由于SIC 任务高度依赖历史的 SIC 序列，并且需要考虑时序，本文把MLP替换为TCN 结构，如下图所示：