learningenhanced专题

论文阅读:MIL-VT: Multiple Instance LearningEnhanced Vision Transformer for FundusImage Classification

Abstract         本文尝试将Vision Transformer用于视网膜疾病分类任务,通过在大型眼底图像数据库上预先训练变换器模型,然后对下游的视网膜疾病分类任务进行微调。 此外,为了充分利用单个图像块提取的特征表示,我们提出了一种基于多实例学习(MIL)的“MIL head”,它可以方便地以即插即用的方式附加到视觉转换器上,有效地提高了下游眼底图像分类任务的模型性能。 In