【提示学习论文】ProGrad：Prompt-aligned Gradient for Prompt Tuning论文原理

2024-04-07 23:52

文章标签 学习原理论文提示 prompt gradient tuning aligned prograd

本文主要是介绍【提示学习论文】ProGrad：Prompt-aligned Gradient for Prompt Tuning论文原理，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Prompt-aligned Gradient for Prompt Tuning（CORR2022 / ICCV2023）

1 Motivation

在这里插入图片描述

在这里插入图片描述

经过CoOp微调过的prompt会导致模型更关注背景而不是前景对象，对于分类任务不利

2 Contribution

在这里插入图片描述
提出了一种基于prompt对齐的梯度的引导方法（ProGrad），来应对prompt学习中添加的不正确偏置的问题。在tuning的过程中进行一种正则化，来确保这一步的tuning不和原本的知识（zero-shot CLIP）产生冲突。

一般方向（general direction）：zero-shot CLIP
域特殊方向（domain-specific direction）：CoOp计算得出
- 垂直向量 $G_⊥$
- 平行向量 $G_∥$

3 具体方法

由CoOp进行学习的域特殊方向，加强其在当前数据下的精度的优化方向，但是这可能导致过拟合。用一个一般普通的prompt和zero-shot CLIP的logits计算一个KL散度，这个KL散度回传的梯度作为一般方向。

3.1 交叉熵损失

在这里插入图片描述
$L_{ce}$ ：模型预测 $p(t_i|x)$ 与真实值 $y$ 的交叉熵损失

3.2 KL散度

在这里插入图片描述

$L_{kl}$ ：模型预测 $p(t_i|x)$ 与zero-shot CLIP预测 $p_{zs}(w_i|x)$ 的KL散度

3.3 梯度

将 $L_{ce}$ 的梯度表示为 $G_d =∇_vL_{ce}(v)$
将 $L_{kl}$ 的梯度表示为 $G_g =∇_vL_{kl}(v)$

在这里插入图片描述

$G_d$ 和 $G_g$ 的关系：

夹角小于90°：说明下游知识优化方向与一般知识不冲突，此时安全地更新梯度 $G_{prograd}$ 作为 $G_d$
夹角大于90°：说明下游知识优化方向与一般知识冲突，此时，将 $G_d$ 投影 $G_g$ 的正交方向，避免增加 $L_{kl}$

3.4 ProGrad策略公式

在这里插入图片描述
在本文CoOp中，我们没有使用 $G_d$ 来更新上下文向量，而是使用 $G_{prograd}$ 来优化，可以避免过拟合：

λ=1：将 $G_d$ 投影到 $G_g$ 的正交方向
λ=0：使prograd退化为CoOp

3.5 总体流程

在这里插入图片描述

可学习上下文和类别输入文本编码器，图像输入图像编码器
将文本特征与图像特征计算相似概率，得到 $p$
$p$ 与 $y$ 计算 $CE L oss$ ，得到 $G_d$
$p$ 与 $p_{zs}$ 计算 $K LL oss$ ，得到 $G_g$
将 $G_d$ 和 $G_g$ 反传回去，使用 $G_{prograd}$ 更新可学习参数

这篇关于【提示学习论文】ProGrad：Prompt-aligned Gradient for Prompt Tuning论文原理的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/884021。 23002807@qq.com

相关文章

从原理到实战深入理解Java 断言assert

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言（assert）：从原理到实战引言：为什么需要断言？一、断言基础1.1 语

阅读更多...

MySQL中的表连接原理分析

MySQL中的表连接原理分析

《MySQL中的表连接原理分析》：本文主要介绍MySQL中的表连接原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、表连接原理【1】驱动表和被驱动表【2】内连接【3】外连接【4编程】嵌套循环连接【5】join buffer4、总结1、背景

阅读更多...

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制（JDK/CGLIB）、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

阅读更多...

IDEA Maven提示:未解析的依赖项的问题及解决

IDEA Maven提示:未解析的依赖项的问题及解决

《IDEAMaven提示:未解析的依赖项的问题及解决》：本文主要介绍IDEAMaven提示:未解析的依赖项的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录IDEA Maven提示:未解析的依编程赖项例如总结IDEA Maven提示:未解析的依赖项例如

阅读更多...

Java Stream的distinct去重原理分析

Java Stream的distinct去重原理分析

《JavaStream的distinct去重原理分析》Javastream中的distinct方法用于去除流中的重复元素,它返回一个包含过滤后唯一元素的新流,该方法会根据元素的hashcode和eq... 目录一、distinct 的基础用法与核心特性二、distinct 的底层实现原理1. 顺序流中的去重

阅读更多...

Spring @Scheduled注解及工作原理

Spring @Scheduled注解及工作原理

《Spring@Scheduled注解及工作原理》Spring的@Scheduled注解用于标记定时任务,无需额外库,需配置@EnableScheduling,设置fixedRate、fixedDe... 目录1.@Scheduled注解定义2.配置 @Scheduled2.1 开启定时任务支持2.2 创建

阅读更多...

Spring Boot 实现 IP 限流的原理、实践与利弊解析

Spring Boot 实现 IP 限流的原理、实践与利弊解析

《SpringBoot实现IP限流的原理、实践与利弊解析》在SpringBoot中实现IP限流是一种简单而有效的方式来保障系统的稳定性和可用性,本文给大家介绍SpringBoot实现IP限... 目录一、引言二、IP 限流原理2.1 令牌桶算法2.2 漏桶算法三、使用场景3.1 防止恶意攻击3.2 控制资源

阅读更多...

电脑提示xlstat4.dll丢失怎么修复? xlstat4.dll文件丢失处理办法

电脑提示xlstat4.dll丢失怎么修复? xlstat4.dll文件丢失处理办法

《电脑提示xlstat4.dll丢失怎么修复?xlstat4.dll文件丢失处理办法》长时间使用电脑，大家多少都会遇到类似dll文件丢失的情况，不过，解决这一问题其实并不复杂，下面我们就来看看xls... 在Windows操作系统中，xlstat4.dll是一个重要的动态链接库文件，通常用于支持各种应用程序

阅读更多...

Python中使用uv创建环境及原理举例详解

Python中使用uv创建环境及原理举例详解

《Python中使用uv创建环境及原理举例详解》uv是Astral团队开发的高性能Python工具,整合包管理、虚拟环境、Python版本控制等功能,：本文主要介绍Python中使用uv创建环境及... 目录一、uv工具简介核心特点：二、安装uv1. 通过pip安装2. 通过脚本安装验证安装：配置镜像源（可

阅读更多...

Go学习记录之runtime包深入解析

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,：本文主要介绍Go学习记录之runtime包的... 目录前言：一、runtime包内容学习1、作用：① Goroutine和并发控制：② 垃圾回收：③ 栈和

阅读更多...