论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位）

本文主要是介绍论文阅读-（GLIP）Grounded Language-Image Pre-training （目标检测+定位），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Paper：Grounded Language-Image Pre-training

Code：https://github.com/microsoft/GLIP

简介：

定位任务与图像检测任务非常类似，都是去图中找目标物体的位置，目标检测为给出一张图片找出bounding box，定位为给出一个图片和文本，根据文本找出物体。GLIP 模型统一了目标检测（object detection）和定位（grounding）两个任务，构建了一个统一的训练框架，从而将两个任务的数据集都利用起来。再配合伪标签的技术来扩增数据，使得训练的数据量达到了前所未有的规模。在训练完成之后，直接以 zero-shot 的方式在 COCO 数据集上进行测试，达到了 49.8 AP。
GLIP 进行 zero-shot 测试的结果如下图所示，不管是给定几个类别（如 person、pistol、apple等）还是给定一段话（如 ‘there are some holes on the road’）作为文本编码器的输入，GLIP 模型都能从图像中找到对应物体的位置。

如何统一两个任务：

detection 和 grouding 任务的目标函数都是由两部分损失组成，即分类损失和定位损失。定位损失不必多说，直接去计算与标注中的 GT 框的距离即可。

1、而对于分类损失，则有所不同。对于 detection 任务来说，分类的标签是一个类别单词，在计算分类损失时，每个区域框特征与分类头计算得到 logits，输出 logits 经过 nms 筛选之后，与 GT 计算交叉熵损失即可。

对于目标检测，给定一个图片Img，通过图像的backbone得到region embedding，O是N*d的一个region embedding，即如果有n个bounding box 每个bounding box embedding的维度就是d。之后再接一个分类头，判断bounding box里的物体是哪个类，分类头W是一个矩阵，维度为c*d，c是有多少个类别，将region embedding与W相乘得最后分类的logits S，之后用mns把bounding box筛选一下再跟groundtruth算交叉熵得到最终的loss。

2、对于 vision grounding 任务来说，标签是一个句子，不是用分类头，而是通过文本编码器得到文本特征，计算文本特征与区域框特征的相似度，得到匹配分数，想看看图像区域和句子里的单词是怎么匹配的。

给定一个图片Img，通过图像的backbone得到region embedding，接下来输入一个句子至文本编码器得到文本embedding，之后文本embedding与图像的region embedding算相似性。

3、作者提出，只要判断一下两个任务中什么时候是 positive match，什么时候是 negative match，就能将两个任务统一起来了。理论分析后，作者使用统一过后的框架验证了在 COCO 数据集上的指标，与之前的目标检测框架持平，因此从实验上也验证了自己的想法。

数据集：

既然统一了 detection 和 grounding 两个任务，最直接的一个利好就是两边的数据集都可以拿来训练这个统一的框架。即下图中所示的 O365 和 GoldG 两个数据集。这些数据集都是有标注的，规模还不够大。想要进一步获得更大量的数据，必须像 CLIP 那样借助无标注的图像文本对数据。但是，目标检测任务的训练必须要 GT 框，单独的图文对数据没法直接用。作者这里使用了 self-training 中伪标签的方式，使用 O365 和 GoldG 上训练好的 GLIP-T（c）去在图文对数据 Cap4M/ Cap24M 上生成伪标签，直接当做 GT 框给 GLIP-T/L 进行训练。生成的伪标签肯定有错误，但是实验表明，经过扩充大量伪标签数据训练得到的 GLIP-L 模型仍然会有性能提高。