ComputerVision论文知识点记录

2024-03-05 21:59

本文主要是介绍ComputerVision论文知识点记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Camera Distance-aware Top-down Approach for 3D Multi-person Pose

  • 链接: 见此篇博客.

Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image

  • CV方向估计多二维姿态有两种主要方法
    ①自上而下:

    部署一个人体检测器来估计人体的边界框。每个检测到的人体区域都被裁剪并输入姿势估计网络,优势是能保证姿态估计网络要检测的姿态点数目是固定的,并且都是属于同一个人的;另外,输入给姿态估计网络的图像经过统一尺度变换后,一般具有比原图更高的分辨率;而且自上而下方法可以剔除大部分复杂背景,降低之后关键点识别任务的难度。自上而下方法中常用的框架是Mask R-CNN,它有紧凑的网络结构,可以将检测部分和语义识别部分连接起来,端到端地进行训练。2018年上海交大卢策吾教授所带团队开源了AlphaPose项目,它针对检测框存在的检测不准确问题提出了自动修正检测框大小和位置的方法,进一步提升了自上而下的人体姿态估计方法的准确率

    ②自下而上:

    自下而上的方法是指直接对输入图像进行姿态估计,然后通过一定的策略对检测到的姿态关鍵点进行分配。自下而上方法的优势在于,姿态估计网络能更好地获得全局信息;并且在人体比较密集的环境中比自上而下方法更加鲁棒,姿态估计速度更快;另外,通常来讲自下而上方法的框架结构更加简单,在后期的性能和速度优化上更有优势。最具有代表性的自底向上方法是CMU的开源项目OpenPose,它提出了一种向量场的方法来分配不同人的关键点。

    ③对比:

    由于自上而下方法的高输入分辨率和输入场景的筒化,在二维关键点检测任务上一般具有比自下而上方法更好的性能,但是自顶向下方法不适合处理人体密度很高的场景,失去了全局信息后,人体检测框的重叠会带来歧义性,并且其检测耗时与场景中人体数目呈正比

  • 相对于根节点的三维人体姿态估计

    目前绝对大多数研究者所提出的三维人体姿态估计方法是指人体关键点相对人体根节点(腰部或颈部)的三维坐标估计,这种相对三维人体姿态估计关注的是人体的姿态状态,而不关注人在相机坐标系中的位置,但人体在相机坐标系下的绝对坐标估计是非常必要的

  • 深度估计

    人体在相机坐标系下的位置信息从另一个角度看就是人体在相机坐标系下的深度信息,因为在相机内参已知的情况下,根据深度和二维坐标便可以准确恢复三维坐标。但是根据单帧彩色图像恢复深度信息是一个存在歧义性的问题,因为深度信息在相机拍摄彩色图片时便已经完全损失。

  • 人体姿态估计通常可以分为三种:

    二维人体姿态估计等价于检测人体关键点在二维图像中的坐标

    相对三维人体姿态估计等价于捡测关键点在以人体根节点为原点的三维坐标系中的坐标,只能表示人体的三维姿态,无法表示人体在空间中的位置

    绝对三维人体姿态估计等价于检测关键点在相机坐标系下三维坐标,既能表示人体的三维姿态,也能表示人体在空间中的位置

  • 系统架构

    在这里插入图片描述

Monocular 3D multi-person pose estimation via predicting factorized correction factors

  • 3D单人姿态估计(3D single-person pose estimation: 3D-SPPE)

    3D-SPPE 任务通常分为单阶段和两阶段方法
       单阶段方法通过单个 RGB 图像直接估计 3D 人体姿势;整个过程通过单个损失函数以端到端的方式进行优化,这被认为带来了较高的性能。[1]将 Stacked Hourglass Networks应用于 3D 人体姿势,以预测 3D 热图而不是单个坐标。
       两阶段法首先通过2D人体姿态估计器得到2D人体姿态关节点的像素坐标,然后估计3D人体姿态。[2,3]提出将3D姿态估计任务分为两部分:首先估计2D人体姿态,然后根据2D人体姿态估计3D人体姿态。两阶段方法比起单阶段方法需要处理的输入数据更简单,并且可以从二维关键点的结果上获取更多的先验,但是两阶段方法在三维结果生成的过程中丢失了原始输入图像的特征,在三维恢复时存在很多歧义性,导致了恢复结果在合理性和准确性上的欠缺

    [1] Coarse-to-fine volumetric prediction for single-image 3D human pose
    [2] Learning pose grammar to encode human body configuration for 3d pose estimation
    [3] Propagating LSTM: 3D pose estimation based on joint interdependency

PoseLifter: Absolute 3D human pose lifting network from a single noisy 2D human pose

  • 根节点深度定义

    从相机到根节点的距离

  • 确定根节点深度

    在透视投影下,根节点深度与“现实空间中人体尺寸”与“二维图像中人体尺尺寸”的比值成正比。但实际比例与人体姿势有很大的关系,例如,蹲姿中的尺度相对于伸展姿势而言较小。这种现象增加了仅从二维图像确定根节点深度的难度。

3D人体姿态估计(介绍及论文归纳)

  • 问题

    从图片或视频中估计出关节点的三维坐标 (x, y, z) (回归问题)
    输入:包含人体的图片
    输出:N*3个人体关节点

  • 挑战

    ①巨大的3D姿态空间、自遮挡
    ②单视角2D到3D的映射中固有的深度模糊性、不适定性(一个2D骨架可以对应多个3D骨架)
    ③缺少大型的室外数据集(主要瓶颈)
    ∙ \bullet 缺少特殊姿态的数据集(如摔倒,打滚等)
    ∙ \bullet 由于数据集是在实验室环境下建立的,模型的泛化能力较差
    ∙ \bullet 3D姿态数据集是依靠适合室内环境的动作捕捉(MOCAP)系统构建的,系统需要带有多个传感器和紧身衣裤的复杂装置,在室外环境使用是不切实际的

  • 应用

    ①动画、游戏
    ②运动捕捉系统
    ③行为理解
    ④姿态估计可以作为其他算法的辅助环节
    ⑤人体姿态估计与人体相关的其他任务一起联合学习(人体解析)

  • 方法

    ①从2D图片直接暴力回归得到3D坐标
    ∙ \bullet 3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network (ACCV 2014)
    ∙ \bullet Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR 2017)
    ∙ \bullet 通过深度学习模型建立单目RGB图像到3D坐标的端到端映射,虽然能从图片中获取到丰富的信息,但没有中间监督的过程,模型受到图片的背景、光照和人的穿着影响较大,对于单一模型来说需要学习的特征也太过复杂。

    先获取2D信息,然后再“提升”到3D姿态
    ∙ \bullet 联合2D,3D共同训练(2D信息通常以heatmap来表示)
       ∘ \circ Towards 3D Human Pose Estimation in the Wild (ICCV 2017)
       ∘ \circ 3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR 2019)
       ∘ \circ 需要复杂的网络架构和充足的训练样本。
    ∙ \bullet 直接用预训练好的2D姿态网络,将得到的2D坐标输入到3D姿态估计网络中(得益于2D姿态估计较为成熟)
       ∘ \circ Simple Yet Effective Baseline (ICCV 2017)
       ∘ \circ 3D human pose estimation in video with temporal convolutions (CVPR 2019)
       ∘ \circ 2D姿态网络: Hourglass (ECCV 2016), CPN (CVPR 2018)
       ∘ \circ 优点:
        ⋄ \diamond 减少了模型在2D姿态估计上的学习压力
        ⋄ \diamond 网络结构简单,轻量级
        ⋄ \diamond 实时性,快速
        ⋄ \diamond 训练快,占用显存少
       ∘ \circ 缺点
        ⋄ \diamond 缺少原始图像输入,可能会丢失一些空间信息
        ⋄ \diamond 2D姿态估计的误差会在3D估计中放大

  • 为什么要从2D姿态估计到3D姿态估计

    因为基于检测的模型在2D的关节点检测中表现更好,而在3D空间下,由于非线性程度高,输出空间大,所以基于回归的模型比较流行。
    在这里插入图片描述

基于单帧图像的多人场景三维人体姿态估计

  • 深度估计

       人体在相机坐标系下的位置信息从另一个角度看就是人体在相机坐标系下的深度信息,因为在相机内参已知的情况下,根据深度和二维坐标便可以准确恢复三维坐标。但是根据单帧彩色图像恢复深度信息是一个存在歧义性的问题,因为深度信息在相机拍摄彩色图片时便已经完全损失。
       人们在看一张图片的时候,是对这张图片中的景深关系有比较正确的判断的,这是因为我们对图片中物体的实际大小、地面等有经验上的先验。深度学习方法为计算机提供了一个相似的思考方式——虽然深度信息已经损失,但是如果图片见得多了,即对物体本身尺寸和空间排布有一定的认知,便可以推断出正确的位置关系。在这样的启发下,最近几年由单帧彩色图像估计深度图的研究取得了很大进展[1-3,4]。但是这些研究都是针对于整个场景的深度的恢复,在视角变换或场景变换剧烈的情况下,估计的效果不好,并且没有尺度统一性(不同场景下同一个距离会产生不同的值)。而且,网络估计的深度缺乏细节信息,甚至有时会将具有深度差的不同物体估计为相似深度,即缺乏层次性。
       在普通的深度估计训练集上训练的模型无法很好地估计人体的深度,因为人体不同区域由于衣物等影响具有很大的图像特征差异。Li等人[5]首次单独关注人体深度的估计任务,它发现了网络上的一个系列视频mannequin challenge,这个系列中的视频人群密度很大,并且人群有意维持不动状态(类似于“木头人”游戏),只有摄像机围绕着人群不停移动。Li等人受这类视频启发,使用从运动中恢复结构(SFM)方法,自动生成了海量的包含人体的深度数据,并训练了深度估计网络,可以对多人场景中的人体深度关系产生比较准确的估计。但是Li等人提出的方法仍然存在深度估计方法里固有的问题一一细节信息的缺失、层次感的缺失、以及最重要的多场景下的尺度不统一问题
    [1] MegaDepth: Learning Single-View Depth Prediction from Internet Photos(看过)
    [2] Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular
    [3] Monocular depth estimation using relative depth map
    [4] Deep Ordinal Regression Network for Monocular Depth Estimation
    [5] Learning the Depths of Moving People by Watching Frozen People

  • 三维人体姿态估计常用的传感器可以分为三种

    ① 基于单个彩色摄像头的三维人体姿态估计方法
    ② 基于多个彩色摄像头的三维人体姿态估计方法
    ③ 基于深度相机的三维人体姿态估计方法

这篇关于ComputerVision论文知识点记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/777945

相关文章

在Spring Boot中浅尝内存泄漏的实战记录

《在SpringBoot中浅尝内存泄漏的实战记录》本文给大家分享在SpringBoot中浅尝内存泄漏的实战记录,结合实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录使用静态集合持有对象引用,阻止GC回收关键点:可执行代码:验证:1,运行程序(启动时添加JVM参数限制堆大小):2,访问 htt

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

《SpringBoot中定时任务Cron表达式的终极指南最佳实践记录》本文详细介绍了SpringBoot中定时任务的实现方法,特别是Cron表达式的使用技巧和高级用法,从基础语法到复杂场景,从快速启... 目录一、Cron表达式基础1.1 Cron表达式结构1.2 核心语法规则二、Spring Boot中定

国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)

《国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)》本文给大家利用deepseek模型搭建私有知识问答库的详细步骤和遇到的问题及解决办法,感兴趣的朋友一起看看吧... 目录1. 第1步大家在安装完ollama后,需要到系统环境变量中添加两个变量2. 第3步 “在cmd中

Spring Retry 实现乐观锁重试实践记录

《SpringRetry实现乐观锁重试实践记录》本文介绍了在秒杀商品SKU表中使用乐观锁和MybatisPlus配置乐观锁的方法,并分析了测试环境和生产环境的隔离级别对乐观锁的影响,通过简单验证,... 目录一、场景分析 二、简单验证 2.1、可重复读 2.2、读已提交 三、最佳实践 3.1、配置重试模板