本文主要是介绍使用huggingface实现ALGN进行图像-文本相似性匹配,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
引言
使用范例
AlignConfig
参数详解
AlignTextConfig
参数详解
示例
AlignVisionConfig
参数详解
示例
AlignProcessor
参数
主要方法
AlignModel
参数
方法
示例
AlignTextModel
参数
前向传播方法 forward
返回值
示例代码
AlignVisionModel
参数
前向传播方法 forward
返回值
示例代码
引言
在许多自然语言处理(NLP)和感知任务中,预训练表示变得至关重要。虽然NLP中的表示学习已经转向在未经人工注释的原始文本上进行训练,但视觉和视觉-语言表示仍然严重依赖于需要昂贵或专业知识的精选训练数据集。对于视觉应用,表示学习大多使用具有明确类标签的数据集,如ImageNet或OpenImages。对于视觉-语言来说,像Conceptual Captions、MSCOCO或CLIP这样的流行数据集都涉及到非琐碎的数据收集(和清理)过程。这种昂贵的策展过程限制了数据集的大小,因此阻碍了模型训练的规模化。在这篇论文中,我们利用了一个包含超过十亿图像alt-text对的噪声数据集,这个数据集没有通过Conceptual Captions数据集中昂贵的过滤或后处理步骤获得。一个简单的双编码器架构通过对比损失学习对齐图像和文本对的视觉和语言表示。我们展示了我们的语料库的规模可以弥补其噪声,即使采用这样一个简单的学习方案也能达到最先进的表示。我们的视觉表示在转移到诸如ImageNet和VTAB的分类任务时表现强劲。对齐的视觉和语言表示使得零样本图像分类成为可能,并且即使与更复杂的交叉注意力模型相比,在Flickr30K和MSCOCO图像-文本检索基准测试中也设立了新的最先进结果。这些表示还使得能够进行复杂文本和文本+图像查询的跨模态搜索。<
这篇关于使用huggingface实现ALGN进行图像-文本相似性匹配的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!