与椭球建模相关的论文阅读

本文主要是介绍与椭球建模相关的论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

所有的论文都是出自一个人，很有意思，通过椭球的建模方式写了三篇论文。

Camera Relocalization with Ellipsoidal Abstraction of Objects

解决的问题：
相机的重定位位姿求解
提出的方法：
根据目标检测结果以及场景中物体的信息，基于椭球和椭圆之间的对应关系求解相机位姿。相机位姿的求解公式与之前的QuadricSLAM的推导不同，主要利用的关系是从相机光心发出的射线与椭球相切，在投影平面上形成椭圆。给定椭圆的长短轴向量，中心位置，根据相机模型，可以求出矩阵 $B^{\prime}$ ，矩阵 $A$ 代表椭球，便可以通过方程求出 $\Delta$ 的值，也就得到相机与椭球之间的平移关系。因为已知椭球的世界坐标，那么只要知道相机和世界坐标系的旋转关系，就能够得到相机在世界坐标系中的位姿。
利用正交投影方式的模型，恢复出相应的物体3D椭球模型，根据反投影与Bounding Box的交并比决定数据关联。相机相对世界坐标下的旋转关系通过IMU或者消影点(VP)求解得到。因为通过VP求解得到的位姿关系，是相机与曼哈顿世界之间的位姿关系，需要知道曼哈顿世界坐标系与世界坐标系的关系之间的位姿关系。
在这里插入图片描述
实验过程
利用LINEMOD数据集和TUM数据集做的实验，先根据一些图像恢复出场景中的物体模型，再进行重定位实验，实验过程中在真值基础上增加一定的噪声。
存在的问题
采用的依旧是恢复椭球论文的正交投影形式作为3D物体恢复，投影的椭圆是否一定是没有倾斜的。重定位相机定位的求解，其实是将旋转和位姿分开来做了，平移通过椭球－椭圆关系求解，旋转则是通过VP或者IMU获得，这样做感觉误差没有整合在一起做小。

Camera Pose Estimation with Semantic 3D Model

解决的问题
与上篇文章解决的问题类似，在给定环境中定位相机的问题，只是这里的环境是语义3D模型构建的
提出的方法
方法与上篇文章基本一致，环境由一些椭球体构成，根据椭球和椭圆之间的对应关系，求解相机的位姿。与之前不同的是，这里通过VP求解的旋转作为初始值，根据一元三次方程的求解的根为两个不一样的实根，能够得到其判别式为0，将该条件作为相机与物体之间的旋转矩阵的优化方程，即 $A_c,B^{\prime}_c$ 之间的关系，其中 $A_c=R^TA_wR$ ，通过LM算法求解最优的 $R$ 。得到 $R$ 后，再根据公式推导求解平移关系，多个匹配关系求解的平移进行加权平均作为最终结果。
实验过程
在仿真环境下和TUM数据集中进行的实验，与QuadricSLAM的位姿计算进行了对比。其中，QuadricSLAM需要位姿的初值，再进行优化，而这里的方法只需要旋转的初值。增加噪声，对比求解的位姿。
TUM数据集中，根据4张不同位置的图像，采用正交投影的方式恢复场景中的物体，然后其他图像根据场景中的物体和检测结果，进行位姿求解，同样与QuadricSLAM进行对比。
存在的问题
这篇文章跟上篇基本上一个套路，只是对旋转的求解进行了优化。先求解优化的旋转，再求解相应的位移，能否将它们耦合在一起。这里需要旋转的先验，虽然可以根据VP求解得到，能否利用空间结构求解直接求解旋转关系。与上篇文章存在一样的问题，都是按照正交投影的方式，从不同角度的图像中恢复椭球，椭球的恢复结果就存在一定的误差，并没有考虑这部分的问题。

Perspective-2-Ellipsoid: Bridging the Gap Between Object Detections and 6-DoF Camera Pose

解决的问题
与PNP问题类似，这里是将空间点改为椭球，对应的特征点改为椭圆，求解相机的位姿。与上两篇文章相比，解决的都是同样的问题。
提出的方法
与前两篇文章不同的地方在于，该篇文章利用了空间中的椭球之间的信息，即两个椭球中心点之间的位置关系以及它们在图像平面投影的位置关系，基于两个弱假设(weak assumption)，将位姿求解转化为一个角度参数的求解，剩余参数根据该角度参数求解得到。两个弱假设：1) 相机的roll角为0，即相机的x轴与水平面平行；2) 两个椭球中心的连线对应图像投影的两个椭圆中心。
实际上这里的计算过程与之前不同之处在于，旋转的计算，位移的参数根据旋转计算得到。旋转的计算是利用各个基向量表示的坐标系间的关系，求解旋转关系。分为两种情况，相机的x轴与椭球中心间的向量是否共线，进行推导，推导过程中的基向量表示用到了球坐标的表示方法。最后，推到结果只与一个角度有关，暴力搜索角度的值，找到最佳的角度值。
实验过程
在T-LESS数据集和TUM数据集中，进行实验，测试了位姿优化，第一个假设的影响，以及与传统的和基于深度学习的PNP算法的对比。TUM数据集中椭球的生成与之前文章中的生成方法一样，都是SFM的方法。根据生成的椭球模型，对图像进行重定位。
存在的问题
对于一个参数的求解，采用暴力搜索的方式比较耗时；目标检测的检测结果的准确性会影响重定位的结果；这里仅仅利用两个物体的信息进行求解，如果场景中存在多个物体，能否利用更多的信息