dino专题

DINO结构中的exponential moving average (ema)和stop-gradient (sg)

DINO思路介绍 在 DINO 中,教师和学生网络分别预测一个一维的嵌入。为了训练学生模型,我们需要选取一个损失函数,不断地让学生的输出向教师的输出靠近。softmax 结合交叉熵损失函数是一种常用的做法,来让学生模型的输出与教师模型的输出匹配。具体地,通过 softmax 函数把教师和学生的嵌入向量尺度压缩到 0 到 1 之间,并计算两个向量的交叉熵损失。这样,在训练过程中,学生模型可以通

DINO中为什么教师模型用大图,学生模型用小图

在 DINO(可以理解为由DIstillation和NO labels的缩写)中,使用不同的图像裁剪策略对教师模型和学生模型进行训练有其特定的原因。具体来说,教师模型使用大图(global views),学生模型则同时使用大图(global views)和小图(local views)。这种设计背后的原理和理由如下: 数据增强 一句话总结:教师模型使用大图,学生模型使用小图和大图。 在

【大模型系列】根据文本检索目标(DINO/DINOv2/GroundingDINO)

文章目录 1 DINO(ICCV2021, Meta)1.1 数据增强1.2 损失函数 2 DINOv2(CVPR2023, Meta)2.1 数据采集方式2.2 训练方法 3 Grounding DINO3.1 Grounding DINO设计思路3.2 网络结构3.2.1 Feature Extraction and Enhancer3.2.2 Language-Guided Query

win11配置Mask DINO小白踩坑记录

win11配置Mask DINO踩坑记录 1 准备工作2 创建python环境和安装detectron22.1 安装前提2.2 安装流程2.2.1 cl.exe的错误2.2.2 SetuptoolsDeprecationWarning的错误 3 MaskDINO运行3.1 运行demo 前情提要:需要复现Mask DINO,但是实验室没有Linux的电脑,在Windows上复现的

论文阅读——RS DINO

RS DINO: A Novel Panoptic Segmentation Algorithm for High Resolution Remote Sensing Images 基于MASKDINO模型,加了两个模块: BAM:Batch Attention Module 遥感图像切分的时候把一个建筑物整体比如飞机场切分到不同图片中,这样就切分成几块了,这样会使图片特征产生一些裁剪损

论文阅读——Mask DINO(cvpr2023)

DINO是检测,Mask DINO是检测+分割。 几个模型对比: 传统的检测+分割中,检测头和分割头是平行的,Mask DINO使用二分图匹配bipartite matching提高匹配结果的准确性。 box对大的类别不计算损失,因为太大了,会带坏模型。模型一样预测,但是损失取其他类别的平均数。 Backbone:ResNet-50 and SwinL,SwinL SOTA

论文阅读——Mask DINO(cvpr2023)

DINO是检测,Mask DINO是检测+分割。 几个模型对比: 传统的检测+分割中,检测头和分割头是平行的,Mask DINO使用二分图匹配bipartite matching提高匹配结果的准确性。 box对大的类别不计算损失,因为太大了,会带坏模型。模型一样预测,但是损失取其他类别的平均数。 Backbone:ResNet-50 and SwinL,SwinL SOTA

论文精读 Co-DETR(Co-DINO、Co-Deformable-DETR)

DETRs with Collaborative Hybrid Assignments Training 基于协作混合分配训练的DETRs 论文链接:2211.12860.pdf (arxiv.org) 源码链接:https://github.com/Sense-X/Co-DETR 总结: Co-DETR基于DAB-DETR、Deformable-DETR和DINO网络进行了实验。Co-

DINO训练自己的数据集(swin transformer backbone)

源码:https://github.com/IDEA-Research/DINO 数据集:coco格式 COCODIR/├── train2017/├── val2017/└── annotations/├── instances_train2017.json└── instances_val2017.json 环境配置 1. 下载代码 git clone https://github.

18.自监督视觉`transformer`模型DINO

文章目录 自监督视觉`transformer`模型DINO总体介绍DINO中使用的SSL和KD方法multicrop strategy损失函数定义`teacher`输出的中心化与锐化模型总体结构及应用reference 欢迎访问个人网络日志🌹🌹知行空间🌹🌹 自监督视觉transformer模型DINO 总体介绍 论文:1.Emerging Propert

自监督DINO论文笔记

论文名称:Emerging Properties in Self-Supervised Vision Transformers 发表时间:CVPR2021 作者及组织: Facebook AI Research GitHub:https://github.com/facebookresearch/dino/tree/main 问题与贡献 作者认为self-supervised learning