【PaperReading】3. PTP

2024-01-12 07:44
文章标签 ptp paperreading

本文主要是介绍【PaperReading】3. PTP,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Category

Content

论文题目

Position-guided Text Prompt for Vision-Language Pre-training

Code: ptp

作者

Alex Jinpeng Wang (Sea AI Lab), Pan Zhou (Sea AI Lab), Mike Zheng Shou (Show Lab, National University of Singapore), Shuicheng Yan (Sea AI Lab)

另一篇论文:All-in-one

作者主页:https://github.com/FingerRec

参与其他:EditAnything 、Image2Paragraph

发表年份

2023

摘要

提出了一种名为Position-guided Text Prompt (PTP)的新方法,以增强视觉语言预训练(VLP)模型在视觉定位方面的能力。PTP通过将图像分割成N×N块并通过VLP中广泛使用的对象检测器识别每个块中的对象,然后将视觉定位任务转化为填空问题。这种机制提高了VLP模型的视觉定位能力,从而更好地处理各种下游任务。通过将PTP引入多个先进的VLP框架中,我们观察到在代表性的跨模态学习模型架构和多个基准测试中都取得了显著的改进。

主要内容

为了增强VLP模型在跨模态学习中的视觉定位能力,我们提出了PTP。PTP与传统的视觉语言对齐方法不同,它将对象特征和边界框作为输入来学习对象与相关文本之间的对齐。PTP包括两个步骤:

1) 块标记生成,将输入图像划分为多个块,并识别每个块中的对象;

2) 文本提示生成,根据第一步中的对象位置信息将视觉定位任务转化为填空问题。

将PTP集成到主流VLP框架中,包括PTP-ViLT、PTP-CLIP和PTP-BLIP。

实验

对PTP进行了多项下游任务的实证评估,并进行了全面研究。在图像-文本检索、图像字幕、视觉问答和视觉推理等任务中,PTP均取得了显著的改善。例如,PTP在MSCOCO数据集的图像-文本检索任务中,相对于ViLT基线,平均回忆率提高了5.3%,并且在类似的框架和数据量下取得了与ALBEF接近的结果。此外,我们还探讨了PTP作为一个新的预文本任务的效果,并发现它在所有任务中都优于基线模型。

结论

通过在多种VLP模型架构下的实验结果表明,PTP有效地提高了模型在各种视觉语言任务中的表现。特别是在图像字幕和视觉问答任务中,PTP的表现优于大多数先进的方法。这些结果证明了PTP在提高视觉语言模型的视觉定位能力方面的有效性和普适性。

阅读心得

这篇论文主要是提出了一种提高预训练性能的prompt方法,这种方法是:

先将图片分块,上图所示,对每一块给出一个结论格式为:The block N has a C.

就是借助于检测模型和现有的caption模型对各个block进行简单的caption并生成这种固定格式的 prompt,帮助模型生成完备准确的描述,这种方法尤其对提高方位相关的描述有用。

注意⚠️这种方法只是用来做预训练,在下游任务或者推理阶段会去掉物体检测模型。

这篇关于【PaperReading】3. PTP的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/597222

相关文章

时间同步概念及常见的时间同步协议NTP PTP

一、前言         前面几篇文章介绍了Linux中的各种各样的时间、时钟源以及时间维护的方式,其中在timekeeper等数据结构中,我们当时略过了NTP相关的字段,为了补充这一段内容,从本篇开始会介绍时间同步的基本概念、及常见的时间同步协议,后面会介绍NTP校时的原理,以及硬件如何支持PTP协议。 二、时间同步的概念         时间同步的含义,是指两个设备在宇宙维度的任意时刻,

京准科技 | PTP时钟服务器(卫星主时钟)在预审系统应用

京准科技 | PTP时钟服务器(卫星主时钟)在预审系统应用 京准科技 | PTP时钟服务器(卫星主时钟)在预审系统应用 某某省公安厅以科技强警建设的重要目标,决定建立全国第一个全省联网的信息化公安预审系统,本文将对某某省公安预审系统实际应用案例进行分析。 近年来,司法审讯系统越来越受到公检法机关的广泛关注和使用。但随着行业的不断发展,传统公安预审中单一型的录音录像已远不能满足现有信息化发展的需

基于PTP实现主机与相机系统时钟同步功能

基于PTP实现主机与相机系统时钟同步功能 一、PTP简介二、工业相机PTP功能支持三、工业相机时间戳介绍3.1基本概念3.2海康工业相机时间戳介绍3.2.1相机参数时间戳3.2.2图像嵌入式时间戳3.2.3相机event事件时间戳3.2.4各种时间戳的时序关系3.2.5通过工业相机SDK获取相机时间戳 四、通过PTPD实现主机与相机系统时钟同步4.1 ptpd服务部署4.2 PTP时钟同步

PTP 对时协议 IEEE1588 网络对时 计算原理

前言 本文将阐述 PTP 对时协议的原理,slave 节点如何根据获取的时间来纠正和更新自己的时间。 协议概述 整个通讯过程中会发送 4 种类型的数据包,用来支撑对时。下面是 4 个包的解释 Sync message: 由 master 发送,发起对时事务, slave 接收到之后,会记录时刻 t2.Follow_Up message: 由 master 发送,在数据内容中携带 maste

【Python】numpy.ptp()

numpy.ptp() 函数是 NumPy 库中的一个有用函数,用于计算数组中的“峰到峰”(peak-to-peak)值,即数组中的最大值与最小值之差。这个函数可以帮助快速评估数组中数据的变化范围,常用于信号处理、数据分析等领域中,以确定数据的波动幅度。 基本用法 numpy.ptp() 的基本语法如下: numpy.ptp(a, axis=None, out=None, keepdims=

imu测试--UDP、PTP

imu测试–UDP、PTP UDP 服务器端口: nc -lu -p 52340; 客服端: nc -u 192.168.101.175 52340 列出linux所以的开放端口 sudo netstat -tulpn或者$ sudo ss -tulpn 状态列显示端口是否处于侦听状态(LISTEN)。 在上面的命令中,标志: -t –启用TCP端口列表。-u –启用UD

android P 如何修改mtp和ptp模式下手机连接电脑显示在电脑上的名字

1,如何修改MTP设备名: frameworks/base/media/java/android/mtp/MtpDatabase.java 找到 private int getDeviceProperty(int property, long[] outIntValue, char[] outStringValue) 函数找到 case MtpConstants.DEVICE_PROPERTY_D

ECP-PTP-001 核算范围ZZ同步问题

最近一直在做ECP payroll的项目,原来有接触过CPI,所以PTP的主数据复制相对来说就简单很多,但是ECP payroll整体实施难度与SAP hcm相差不大,比较麻烦的就是PCC与PTP相关知识,今天就遇到一个奇葩问题,如果工资核算范围是ZZ,主数据同步就报错,报错具体界面图二:不允许在当前工资核算期间之前更新,消息号是:HRSFEC_SERVICES292,PTP集成很多这样的消息提示

RK3568-开启ptp服务

硬件支持 mac或者phy需要支持ptp 驱动支持 CONFIG_PTP_1588_CLOCK=y 虚拟机端:虚拟机只支持软件时间戳。 安装ptp服务:sudo apt-get install linuxptp修改ptp服务:sudo vi /lib/systemd/system/ptp4l.service,修改为ens33网口,-S表示使用软件时间戳。 forlinx

ActiveMQ点对点模式(PTP)

一、创建Maven测试项目 二、pom.xml     <dependencies>         <!-- 消息队列 -->         <dependency>             <groupId>org.apache.activemq</groupId>                 <artifact