Full-Body Awareness from Partial Observations 阅读理解2020

2023-11-25 11:50

本文主要是介绍Full-Body Awareness from Partial Observations 阅读理解2020,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

          这篇论文提到当图像中的人存在严重裁剪的时候,依然可以通过局部观察来获取整个人全局的姿态,在现实生活中,这种情况往往需要人通过经验或者上下文信息去判断。那么如何让CNN仅仅从一个图像中去学习到这种能力呢?答案就是数据管够,且确保裁剪程度,确定在一定裁剪程度下,CNN依然能够有效学习。另外作者谈到单独通过在训练的时候进行“裁剪”数据增强,在这种针对消费者视频(存在严重的裁剪)的情况下是不够的,而本文认为将裁剪和对自信视频帧进行自我训练可以提供一个不错的结果。对于严重裁剪的图像,输出结果合理即可。(这里的自信视频帧,指的是模型在这个视频帧上能输出一个不错的结果,这个结果还可以作为伪标签)

如何自动判断这个结果还不错呢?作者借用Bahat和Shakhnarovich[5]的经验结果,即图像变换的不变性通常表明神经网络的可信度。简单地说,对网络的有信心的预测往往比非有信心的预测对小的转换(例如,一个转移)更不变异性。我们将这种技术应用到我们的设置中,在应用小平移抖动后检查参数的变化:我们将模型f应用到中心抖动10和20像素的图像副本上,并查看关节旋转参数θ。我们通过抖动样本计算每个关节旋转参数的方差,然后平均方差。对于HMR,我们将置信样本定义为方差低于0.005的样本(根据经验选择)。对于CMR,为了简单起见,我们确保我们有与HMR相同的12%的接受率;这导致了一个相似的方差阈值0.004。

方法的大致流程如下图所示:

这里文章假设可以访问每个图像的SMPL参数Θ,并对所有带注释的关键点进行训练,即使它们位于图像之外。例如通过smplfy fitting得到SMPL系数。整个方案可以简单的总结三步:

 第一步:获取一个初始化模型f0:采用训练好的HMR和CMR作为预训练模型,对MPII数据进行训练,训练过程中,会对图像进行随机裁剪,GT采用通过fiitting的到的SMPL系数和相应的GT。

第二步:将第一步训练得到的初始化模型f1,应用到一组没有对应标签的数据U,这个数据集U中将有部分数据集C被判断为自信视频帧即这部分数据的输出结果还行,然后将这部分数据C作为输入,并进行数据增强,这些数据在上一轮的模型输出作为标签,对网络进行再一次训练。

第三步:反复执行第二步。

这里重点是可靠的模型输出如何有效判断。

文章对应的简述:

         选用的基准模型为HMR和CMR,训练方法遵循半监督学习的标准自我训练方法。在自我训练中,一个人从一个初始模型f0: X Y和一组未标记的数据U = {U: U X}开始。在这里,输入是图像,输出SMPL参数,并建立CMR或HMR模型。其核心思想是利用每一轮s模型fi的推论产生有标记的数据来训练下一轮s模型fi+1。具体来说,在每次迭代t时,将模型ft应用于U的每个元素,并识别出一个自信预测子集C U。然后,将模型f对元素的预测作为新的ground-truth来训练下一轮模型fi+1。在标准自训练中,新的训练集是原始的未标记输入和模型输出,或{(c, fi(c)): c c}。在我们的例子中,它永远不会学会处理更多的裁剪人员,因此训练集被增强为置信样本的变换,或者{(t(c), t(fi(c)): c c, t t}对于某些作物t集合。对新模型fi+1进行再训练,并重复该过程直至收敛。现在我们更具体地描述每一个粗体点的含义。

文章简述:

         在人体三维网格复原方面已经取得了很大的进展,人们对从消费者视频数据中了解世界产生了极大的兴趣。不幸的是,目前的3D人体网格恢复方法在消费者视频数据上的工作相当糟糕,因为在互联网上,不同寻常的摄像头视角和激进的截断是常态,而不是罕见的。我们研究了这个问题,并为解决这个问题做出了一些贡献:(i)我们提出了一个简单但高效的自我训练框架,该框架将人类3D网格恢复系统用于消费视频,并演示了其在两个最近的系统中的应用;(ii)为研究该任务,我们引入了针对4个消费者视频数据集的13K帧的评估协议和关键点注释,包括对图像外关键点的评估;(iii)我们表明,与基线相比,我们的方法大大改善了PCK和人类受试者判断,无论是在来自它训练的数据集的测试视频上,还是在其他三个数据集上,无需进一步调整。

       目前在人体姿态估计方面的工作,通常还不能应付互联网视频的混乱挑战。最近在人体姿态估计方面的工作[3,9,24,35,38]通常是在2D和3D姿态数据集[4,19,21,30,37]上进行训练和评估的,这些数据集显示了通常在运动场景下水平相机拍摄的完整人体姿态图2(左) 不幸的是,互联网上的视频往往像Fig2(右)。通常只有身体的一部分是看得见的,才能最有效地展示完成一项任务或突出感兴趣的东西。例如,在VLOG[14]上,所有人的关节在只有4%的图像帧中可见。同时,所有的腿部关键点在63%的时间是不可见的,而头部关键点如眼睛在45%的帧中是不可见的。因此,当标准方法在这类数据上进行测试时,它们往往会灾难性地失败,这是我们的经验之谈。

         我们在第3节中提出了一个简单但非常有效的方法,我们将其应用于多种形式的人体网格恢复。关键的洞察力是结合裁剪和自训练对有信心的视频帧:裁剪引入模型截断,视频匹配上下文截断。在一个标准数据集的裁剪版本上进行预训练后,我们在一个大的未标记视频数据集上识别可靠的预测,并将这些实例提升到训练集并重复。与标准的自我训练不同,我们添加了作物,让自信的全身预测(通过[5]识别)为具有挑战性的作物提供训练信号。这种方法不需要额外的注释,并采用<3万次额外训练(总时间<8小时在单个RTX2080 Ti GPU)。

我们在两种人体三维网格恢复技术HMR[24]和CMR[26]上演示了我们的方法的有效性,并在四个消费者视频数据集VLOG[14]、Instructions[2]、YouCookII[59]和Cross-Task上进行了评估[62]。为了为未来的工作奠定基础,我们在这些数据集上注释了13k帧的关键点,并提供了一个评估图像内外的框架。除了关键点外,我们还使用人体实验进行评估。我们在第4节的实验证明了我们的方法的有效性,与现成的网格恢复和训练作物从标准图像数据集(MPII)。我们的方法在方法和数据集上改进了图像内和图像外的PCK:例如,在VLOG上训练后,我们的方法在YouCookII上比现成的HMR提高了20.7%,在作物上训练的HMR提高了10.9%(分别提高了36.4%和19.1%)

          关于针对截断的图像进行mesh重建的工作不是很多,先前的工作还特别关注于遮挡情况下的姿态估计[15,16]。虽然这种设置需要对不可见关节进行推断,但它不需要面对消费视频中出现的相同的比例变化,消费视频中可以包含比图像大得多的人。最近的一些研究直接解决了转岗问题。Vosoughi和Amer预测了human360万[54]随机作物的截断3D关键点。与我们的工作同时,Exemplar微调[22]使用上半身裁剪来提高互联网视频[34]的性能。然而,消费者网络视频(图2)面临着更极端的截断。我们表明,单独裁剪在这种情况下是不够的;相反,裁剪和自我训练的自信视频帧提供了最好的结果。     

      

by  为什么先生

这篇关于Full-Body Awareness from Partial Observations 阅读理解2020的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/423742

相关文章

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

深入理解RxJava:响应式编程的现代方式

在当今的软件开发世界中,异步编程和事件驱动的架构变得越来越重要。RxJava,作为响应式编程(Reactive Programming)的一个流行库,为Java和Android开发者提供了一种强大的方式来处理异步任务和事件流。本文将深入探讨RxJava的核心概念、优势以及如何在实际项目中应用它。 文章目录 💯 什么是RxJava?💯 响应式编程的优势💯 RxJava的核心概念

如何通俗理解注意力机制?

1、注意力机制(Attention Mechanism)是机器学习和深度学习中一种模拟人类注意力的方法,用于提高模型在处理大量信息时的效率和效果。通俗地理解,它就像是在一堆信息中找到最重要的部分,把注意力集中在这些关键点上,从而更好地完成任务。以下是几个简单的比喻来帮助理解注意力机制: 2、寻找重点:想象一下,你在阅读一篇文章的时候,有些段落特别重要,你会特别注意这些段落,反复阅读,而对其他部分

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

深入理解数据库的 4NF:多值依赖与消除数据异常

在数据库设计中, "范式" 是一个常常被提到的重要概念。许多初学者在学习数据库设计时,经常听到第一范式(1NF)、第二范式(2NF)、第三范式(3NF)以及 BCNF(Boyce-Codd范式)。这些范式都旨在通过消除数据冗余和异常来优化数据库结构。然而,当我们谈到 4NF(第四范式)时,事情变得更加复杂。本文将带你深入了解 多值依赖 和 4NF,帮助你在数据库设计中消除更高级别的异常。 什么是