CLIP--Learning Transferable Visual Models From Natural Language Supervision

2024-06-01 23:36

文章标签 visual models language learning clip supervision natural transferable

本文主要是介绍CLIP--Learning Transferable Visual Models From Natural Language Supervision，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

参考：CLIP论文笔记--《Learning Transferable Visual Models From Natural Language Supervision》_visual n-grams模型-CSDN博客

openAI，2021，将图片和文字联系在一起，----->得到一个能非常好表达图片和文字的模型
主题：多模态理解任务
任务：计算图片和文本的相似度
训练：有监督的对比学习

背景

zero-shot transfer：零样本迁移到下游任务（一些NLP模型可以直接在A数据集上预训练，再到B，C，D数据集做任务时，这个模型可以不使用这个数据集的任何数据（zero-shot）进行参数微调而直接做任务）
“狭窄的视觉概念”是指模型在ImageNet等数据集上训练，只是为了学会区分像“猫”、“狗”这样的类，但不同的猫种类模型是不会区分的，比如“橘猫”和“奶牛猫”，即其他的视觉信息没有被充分利用。
Visual N-Grams促成CLIP的诞生的最重要的论文。【用自然语言监督信号来让促成一些现存的CV分类数据集(包含ImageNet数据集)实现zero-shot transfer。】

方法

标准的图像模型 VS CLIP：
- 标准的图像模型：一个图像特征提取器和一个线性分类器---预测标签
- CLIP：一个图像编码器和一个文本编码器---预测一批（图像、文本）正确配对
测试：输入句子（a photo of {label}---Prompt工程）+图片
从自然语言中学习：将图片表示与语言联系起来，从而实现灵活的zero-shot transfer
超大数据集：用4亿对来自网络的图文数据集，将文本作为图像标签，进行训练。这个数据集称为WebImageText（WIT）
预训练
- 图片分类任务------>图文匹配任务
- 贡献点：采用了海量图文对数据和超大batch size进行预训练，并不在于其模型结构
- 模态之间的cosine similarity：N个匹配的图文对相似度最大，个不匹配的图文对相似度最小
  - 对角线上都是配对的正样本对，而矩阵的其他元素，则是由同个batch内的图片和不配对的文本（相反亦然）组成的负样本。
测试

这篇关于CLIP--Learning Transferable Visual Models From Natural Language Supervision的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1022413。 23002807@qq.com

相关文章

如何在Visual Studio中调试.NET源码

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时，发现在他的代码里使用了Any判断List<T>是否为空。我一般的做法是先判断是否为null，再判断Count。看了一下Count的源码如下： 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

阅读更多...

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染：一项综述文章目录大规模语言模型的基准数据污染：一项综述摘要1 引言摘要大规模语言模型（LLMs），如GPT-4、Claude-3和Gemini的快

阅读更多...

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中文章目录验证测试集污染在黑盒语言模型中摘要1 引言摘要大型语言模型是在大量互联网数据上训练的，这引发了人们的担忧和猜测，即它们可能已

阅读更多...

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

陈科肇 ============= 1.主要模型在UML系统开发中有三个主要的模型：功能模型：从用户的角度展示系统的功能，包括用例图。对象模型：采用对象、属性、操作、关联等概念展示系统的结构和基础，包括类图、对象图、包图。动态模型：展现系统的内部行为。包括序列图、活动图、状态图。因为要创建个人空间项目并不是一个很大的项目，我这里只须关注两种图的创建就可以了，而在开始创建UML图

阅读更多...

速通GPT-3：Language Models are Few-Shot Learners全文解读

速通GPT-3：Language Models are Few-Shot Learners全文解读

文章目录论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

阅读更多...

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界这个世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、或者不变。所以行动空间为： { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=−1,u2=0,u3=1}

阅读更多...

简单的Q-learning|小明的一维世界(2)

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子，从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入，GO！一维的速度世界这个世界，小明只能控制自己的速度，并且只能对速度进行如下三种操作：增加1、减

阅读更多...

【Visual Studio 报错】未加载 wntdll.pdb（一种可行的解决办法）

【Visual Studio 报错】未加载 wntdll.pdb（一种可行的解决办法）

调试程序时，会出现下面这个报错分析原因：出现未加载 wntdll.pdb 报错大概率是你的指针使用错误，比如使用野指针、越界访问、或者堆区空间释放方式错误等。这里以堆区空间释放方式错误为例子 1、堆区开辟的数组空间使用 delete 释放 // 堆区开辟的数组空间使用 delete 释放int* p = new int[10];delete p; 正

阅读更多...

查看Excel 中的 Visual Basic 代码，要先设置excel选项

查看Excel 中的 Visual Basic 代码，要先设置excel选项

1. excel VB的简单介绍百度安全验证 2.excel选项设置 excel表格中在选项->自定义功能区域，选择开发工具，visual baisc/查看代码，即可看到代码。 3.excel已经设置，可以直接查看

阅读更多...

[VC] Visual Studio中读写权限冲突

[VC] Visual Studio中读写权限冲突

前置场景：编译没有报错，但是运行提示内存异常：情景1：如下代码运行异常，提示引发了异常：写入权限冲突。*** 是 0xFFFFF..... char* str = (char*)malloc(10);str[0] = 0x30; 解决方案：要包含头文件<stdlib.h> 情景2：在FileA文件调用FileB文件的函数，但是在FileA中却没有声明该B函数的原型

阅读更多...