learningenhanced专题

论文阅读：MIL-VT: Multiple Instance LearningEnhanced Vision Transformer for FundusImage Classiﬁcation

Abstract 本文尝试将Vision Transformer用于视网膜疾病分类任务，通过在大型眼底图像数据库上预先训练变换器模型，然后对下游的视网膜疾病分类任务进行微调。此外，为了充分利用单个图像块提取的特征表示，我们提出了一种基于多实例学习(MIL)的“MIL head”，它可以方便地以即插即用的方式附加到视觉转换器上，有效地提高了下游眼底图像分类任务的模型性能。 In