与椭球建模相关的论文阅读

2023-10-23 21:20

本文主要是介绍与椭球建模相关的论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

所有的论文都是出自一个人,很有意思,通过椭球的建模方式写了三篇论文。

Camera Relocalization with Ellipsoidal Abstraction of Objects

解决的问题:
相机的重定位位姿求解
提出的方法:
根据目标检测结果以及场景中物体的信息,基于椭球和椭圆之间的对应关系求解相机位姿。相机位姿的求解公式与之前的QuadricSLAM的推导不同,主要利用的关系是从相机光心发出的射线与椭球相切,在投影平面上形成椭圆。给定椭圆的长短轴向量,中心位置,根据相机模型,可以求出矩阵 B ′ B^{\prime} B,矩阵 A A A代表椭球,便可以通过方程求出 Δ \Delta Δ的值,也就得到相机与椭球之间的平移关系。因为已知椭球的世界坐标,那么只要知道相机和世界坐标系的旋转关系,就能够得到相机在世界坐标系中的位姿。
利用正交投影方式的模型,恢复出相应的物体3D椭球模型,根据反投影与Bounding Box的交并比决定数据关联。相机相对世界坐标下的旋转关系通过IMU或者消影点(VP)求解得到。因为通过VP求解得到的位姿关系,是相机与曼哈顿世界之间的位姿关系,需要知道曼哈顿世界坐标系与世界坐标系的关系之间的位姿关系。
在这里插入图片描述
实验过程
利用LINEMOD数据集和TUM数据集做的实验,先根据一些图像恢复出场景中的物体模型,再进行重定位实验,实验过程中在真值基础上增加一定的噪声。
存在的问题
采用的依旧是恢复椭球论文的正交投影形式作为3D物体恢复,投影的椭圆是否一定是没有倾斜的。重定位相机定位的求解,其实是将旋转和位姿分开来做了,平移通过椭球-椭圆关系求解,旋转则是通过VP或者IMU获得,这样做感觉误差没有整合在一起做小。

Camera Pose Estimation with Semantic 3D Model

解决的问题
与上篇文章解决的问题类似,在给定环境中定位相机的问题,只是这里的环境是语义3D模型构建的
提出的方法
方法与上篇文章基本一致,环境由一些椭球体构成,根据椭球和椭圆之间的对应关系,求解相机的位姿。与之前不同的是,这里通过VP求解的旋转作为初始值,根据一元三次方程的求解的根为两个不一样的实根,能够得到其判别式为0,将该条件作为相机与物体之间的旋转矩阵的优化方程,即 A c , B c ′ A_c,B^{\prime}_c Ac,Bc之间的关系,其中 A c = R T A w R A_c=R^TA_wR Ac=RTAwR,通过LM算法求解最优的 R R R。得到 R R R后,再根据公式推导求解平移关系,多个匹配关系求解的平移进行加权平均作为最终结果。
实验过程
在仿真环境下和TUM数据集中进行的实验,与QuadricSLAM的位姿计算进行了对比。其中,QuadricSLAM需要位姿的初值,再进行优化,而这里的方法只需要旋转的初值。增加噪声,对比求解的位姿。
TUM数据集中,根据4张不同位置的图像,采用正交投影的方式恢复场景中的物体,然后其他图像根据场景中的物体和检测结果,进行位姿求解,同样与QuadricSLAM进行对比。
存在的问题
这篇文章跟上篇基本上一个套路,只是对旋转的求解进行了优化。先求解优化的旋转,再求解相应的位移,能否将它们耦合在一起。这里需要旋转的先验,虽然可以根据VP求解得到,能否利用空间结构求解直接求解旋转关系。与上篇文章存在一样的问题,都是按照正交投影的方式,从不同角度的图像中恢复椭球,椭球的恢复结果就存在一定的误差,并没有考虑这部分的问题。

Perspective-2-Ellipsoid: Bridging the Gap Between Object Detections and 6-DoF Camera Pose

解决的问题
与PNP问题类似,这里是将空间点改为椭球,对应的特征点改为椭圆,求解相机的位姿。与上两篇文章相比,解决的都是同样的问题。
提出的方法
与前两篇文章不同的地方在于,该篇文章利用了空间中的椭球之间的信息,即两个椭球中心点之间的位置关系以及它们在图像平面投影的位置关系,基于两个弱假设(weak assumption),将位姿求解转化为一个角度参数的求解,剩余参数根据该角度参数求解得到。两个弱假设:1) 相机的roll角为0,即相机的x轴与水平面平行;2) 两个椭球中心的连线对应图像投影的两个椭圆中心。
实际上这里的计算过程与之前不同之处在于,旋转的计算,位移的参数根据旋转计算得到。旋转的计算是利用各个基向量表示的坐标系间的关系,求解旋转关系。分为两种情况,相机的x轴与椭球中心间的向量是否共线,进行推导,推导过程中的基向量表示用到了球坐标的表示方法。最后,推到结果只与一个角度有关,暴力搜索角度的值,找到最佳的角度值。
实验过程
在T-LESS数据集和TUM数据集中,进行实验,测试了位姿优化,第一个假设的影响,以及与传统的和基于深度学习的PNP算法的对比。TUM数据集中椭球的生成与之前文章中的生成方法一样,都是SFM的方法。根据生成的椭球模型,对图像进行重定位。
存在的问题
对于一个参数的求解,采用暴力搜索的方式比较耗时;目标检测的检测结果的准确性会影响重定位的结果;这里仅仅利用两个物体的信息进行求解,如果场景中存在多个物体,能否利用更多的信息

总结

三篇文章都是解决一个问题,即相机重定位问题,求解方法都是利用椭球与椭圆之间的对应关系。位移参数能够通过旋转参数求解得到,所以问题转化为如何求解正确的旋转参数。旋转参数的求解分为,根据VP求解,根据判别式进行优化,根据空间中两个椭球间的关系和假设进一步将问题转化为一个参数的问题。

这篇关于与椭球建模相关的论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/270506

相关文章

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五):Blender锥桶建模

前言 本系列教程旨在使用UE5配置一个具备激光雷达+深度摄像机的仿真小车,并使用通过跨平台的方式进行ROS2和UE5仿真的通讯,达到小车自主导航的目的。本教程默认有ROS2导航及其gazebo仿真相关方面基础,Nav2相关的学习教程可以参考本人的其他博客Nav2代价地图实现和原理–Nav2源码解读之CostMap2D(上)-CSDN博客往期教程: 第一期:基于UE5和ROS2的激光雷达+深度RG

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

两个月冲刺软考——访问位与修改位的题型(淘汰哪一页);内聚的类型;关于码制的知识点;地址映射的相关内容

1.访问位与修改位的题型(淘汰哪一页) 访问位:为1时表示在内存期间被访问过,为0时表示未被访问;修改位:为1时表示该页面自从被装入内存后被修改过,为0时表示未修改过。 置换页面时,最先置换访问位和修改位为00的,其次是01(没被访问但被修改过)的,之后是10(被访问了但没被修改过),最后是11。 2.内聚的类型 功能内聚:完成一个单一功能,各个部分协同工作,缺一不可。 顺序内聚:

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

log4j2相关配置说明以及${sys:catalina.home}应用

${sys:catalina.home} 等价于 System.getProperty("catalina.home") 就是Tomcat的根目录:  C:\apache-tomcat-7.0.77 <PatternLayout pattern="%d{yyyy-MM-dd HH:mm:ss} [%t] %-5p %c{1}:%L - %msg%n" /> 2017-08-10

Node Linux相关安装

下载经编译好的文件cd /optwget https://nodejs.org/dist/v10.15.3/node-v10.15.3-linux-x64.tar.gztar -xvf node-v10.15.3-linux-x64.tar.gzln -s /opt/node-v10.15.3-linux-x64/bin/npm /usr/local/bin/ln -s /opt/nod