Python计算机视觉 第4章-照相机模型与增强现实

2024-08-28 22:52

本文主要是介绍Python计算机视觉 第4章-照相机模型与增强现实,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python计算机视觉 第4章-照相机模型与增强现实

4.1 针孔照相机模型

针孔照相机模型(有时称为射影照相机模型)是计算机视觉中广泛使用的照相机模型。对于大多数应用来说,针孔照相机模型简单,并且具有足够的精确度。这个名字来源于一种类似暗箱机的照相机。该照相机从一个小孔采集射到暗箱内部的光线。在针孔照相机模型中,在光线投影到图像平面之前,从唯一一个点经过,也就是照相机中心C。图4-1为从照相机中心前画出图像平面的图解。事实上,在真实的照相机中,图像平面位于照相机中心之后,但是照相机的模型和图4-1的模型是一样的。
在这里插入图片描述

图4-1 针孔照相机模型。图像点x是由图像平面与连接三维点X和照相机中心C的直线相交而成的。虚线表示该照相机的光学坐标轴

由图像坐标轴和三维坐标系中的x轴和y轴对齐平行的假设,可以得出针孔照相机的投影性质。照相机的光学坐标轴和 z z z轴一致,该投影几何可以简化成相似三角形。在投影之前通过旋转和平移变换,对该坐标系加入三维点,会出现完整的投影变换。

4.1.1 照相机矩阵

照相机矩阵可以分解为:
P = K [ R ∣ t ] P=K[R|t] P=K[Rt]
其中, R R R是描述照相机方向的旋转矩阵, t t t是描述照相机中心位置的三维平移向量,内标定矩阵 K K K描述照相机的投影性质。

在计算机视觉和摄影测量中,照相机矩阵(Camera Matrix)也被称为内参矩阵(Intrinsic Matrix),是描述照相机内在参数的一个3x3矩阵。它用于将三维空间中的点映射到相机的二维图像平面上。

照相机矩阵的形式如下:

K = [ f x 0 c x 0 f y c y 0 0 1 ] K = \begin{bmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{bmatrix} K= fx000fy0cxcy1

其中:

  • f x f_x fx f y f_y fy 是图像在 x 和 y 方向上的焦距,通常以像素为单位。
  • c x c_x cx c y c_y cy 是光轴在图像平面上的主点(Principal Point)坐标,即图像的中心位置。
  • 1 是一个尺度因子。

这个矩阵 K K K 用于描述相机的内在几何和光学特性,如焦距、光轴位置等。它是相机标定过程的核心部分,通过标定可以求得这些参数,从而准确地进行三维重建、图像矫正、测量等任务。

4.1.2 三维点的投影

下面来创建照相机类,用来处理对照相机和投影建模所需要的全部操作:

from scipy import linalgclass Camera(object):"""表示针孔照相机的类"""def __init__(self, P):"""初始化 P = K[R|t] 照相机模型"""self.P = Pself.K = None  # 标定矩阵self.R = None  # 旋转self.t = None  # 平移self.c = None  # 照相机中心def project(self, X):"""X(4×n的数组)的投影点,并且进行坐标归一化"""x = dot(self.P, X)for i in range(3):x[i] /= x[2]return x

下面的例子展示如何将三维中的点投影到图像视图中。在这个例子中,将使用牛津多视图数据集中的“Model Housing”数据集。可以从http://www.robots.ox.ac.uk/~vgg/data/data-mview.html 下载。

import camera# 载入点
points = loadtxt('house.p3d').T
points = vstack((points, ones(points.shape[1])))# 设置照相机参数
P = hstack((eye(3), array([[0], [0], [-10]])))
cam = camera.Camera(P)
x = cam.project(points)# 绘制投影
figure()
plot(x[0], x[1], 'k.')
show()

首先,使用齐次坐标来表示这些点。然后使用一个投影矩阵来创建Camera对象将这些三维点投影到图像平面并执行绘制操作,输出结果如图4-2中间图像所示。

为了研究照相机的移动会如何改变投影的效果,可以使用下面的代码。该代码围绕一个随机的三维向量,进行增量旋转的投影。

# 创建变换
r = 0.05 * random.rand(3)
rot = camera.rotation_matrix(r)# 旋转矩阵和投影
figure()
for t in range(20):cam.P = dot(cam.P, rot)x = cam.project(points)plot(x[0], x[1], 'k.')show()

在上面的代码中,使用了rotation_matrix()函数,该函数能够创建围绕一个向量进行三维旋转的旋转矩阵

def rotation_matrix(a):"""创建一个用于围绕向量 a 轴旋转的三维旋转矩阵"""R = eye(4)R[:3, :3] = linalg.expm([[0, -a[2], a[1]], [a[2], 0, -a[0]], [-a[1], a[0], 0]])return R

结合以上代码段,完整代码如下:

from scipy import linalg
import random
from numpy import dot, eye, array, loadtxt, vstack, ones
import matplotlib.pyplot as pltclass Camera(object):"""表示针孔照相机的类"""def __init__(self, P):"""初始化 P = K[R|t] 照相机模型"""self.P = Pself.K = None  # 标定矩阵self.R = None  # 旋转self.t = None  # 平移self.c = None  # 照相机中心def project(self, X):"""X(4×n的数组)的投影点,并且进行坐标归一化"""x = dot(self.P, X)for i in range(3):x[i] /= x[2]return xdef rotation_matrix(a):"""创建一个用于围绕向量 a 轴旋转的三维旋转矩阵"""R = eye(4)R[:3, :3] = linalg.expm([[0, -a[2], a[1]], [a[2], 0, -a[0]], [-a[1], a[0], 0]])return R# 载入点
points = loadtxt('house.p3d').T
points = vstack((points, ones(points.shape[1])))# 设置照相机参数
P = hstack((eye(3), array([[0], [0], [-10]])))
cam = Camera(P)
x = cam.project(points)# 绘制投影
plt.figure()
plt.plot(x[0], x[1], 'k.')
plt.show()# 创建变换
r = 0.05 * random.rand(3)
rot = rotation_matrix(r)# 旋转矩阵和投影
plt.figure()
for t in range(20):cam.P = dot(cam.P, rot)x = cam.project(points)plt.plot(x[0], x[1], 'k.')plt.show()

运行结果如下:

在这里插入图片描述

实验图1 实验结果

4.1.3 照相机矩阵的分解

将使用一种矩阵因子分解的方法,称为RQ因子分解。

将下面的方法添加到Camera类中:

def factor(self):"""将照相机矩阵分解为 K、R、t,其中,P = K[R|t]"""# 分解前3×3的部分K, R = linalg.rq(self.P[:, :3])# 将 K 的对角线元素设为正值T = diag(sign(diag(K)))if linalg.det(T) < 0:T[1, 1] *= -1self.K = dot(K, T)self.R = dot(T, R)  # T 的逆矩阵为其自身self.t = dot(linalg.inv(self.K), self.P[:, 3])return self.K, self.R, self.t

RQ因子分解的结果并不是唯一的。在该因子分解中,分解的结果存在符号二义性。由于需要限制旋转矩阵R为正定的(否则,旋转坐标轴即可),所以如果需要,可以在求解到的结果中加入变换T来改变符号。

以下为照相机矩阵分解的代码:

import camera
from numpy import array, hstack, dotK = array([[1000, 0, 500],[0, 1000, 300],[0, 0, 1]])tmp = camera.rotation_matrix([0, 0, 1])[:3, :3]
Rt = hstack((tmp, array([[50], [40], [30]])))
cam = camera.Camera(dot(K, Rt))print(K, Rt)
print(cam.factor())

4.2 照相机标定

标定照相机是指计算出该照相机的内参数。例子中,是指计算矩阵K。如果你的应用要求高精度,那么可以扩展该照相机模型,使其包含径向畸变和其他条件。

标定照相机的标准方法是,拍摄多幅平面棋盘模式的图像,然后进行处理计算。

4.2.1 一个简单的标定方法

这里将要介绍一个简单的照相机标定方法。大多数参数可以使用基本的假设来设定(正方形垂直的像素,光心位于图像中心),比较难处理的是获得正确的焦距。对于这种标定方法,你需要准备一个平面矩形的标定物体(一个书本即可)、用于测量的卷尺和直尺,以及一个平面。下面是具体操作步骤:
1、测量你选定矩形标定物体的边长 d X dX dX d Y dY dY
2、将照相机和标定物体放置在平面上,使得照相机的背面和标定物体平行,同时物体位于照相机图像视图的中心,你可能需要调整照相机或者物体来获得良好的对齐效果;
3、测量标定物体到照相机的距离 d Z dZ dZ
4、拍摄一副图像来检验该设置是否正确,即标定物体的边要和图像的行和列对齐;
5、使用像素数来测量标定物体图像的宽度和高度 d x dx dx d y dy dy

4.3 以平面和标记物进行姿态估计

如果图像中包含平面状的标记物体,并且已经对照相机进行了标定,那么可以计算出照相机的姿态(旋转和平移)。这里的标记物体可以为对任何平坦的物体。

使用下面的代码来提取两幅图像的SIFT特征,然后使用RANSAC算法稳健地估计单应性矩阵:

import homography
import camera
import sift# 计算特征
sift.process_image('book_frontal.JPG', 'im0.sift')
l0, d0 = sift.read_features_from_file('im0.sift')sift.process_image('book_perspective.JPG', 'im1.sift')
l1, d1 = sift.read_features_from_file('im1.sift')# 匹配特征,并计算单应性矩阵
matches = sift.match_twosided(d0, d1)
ndx = matches.nonzero()[0]
fp = homography.make_homog(l0[ndx, :2].T)ndx2 = [int(matches[i]) for i in ndx]
tp = homography.make_homog(l1[ndx2, :2].T)model = homography.RansacModel()
H = homography.H_from_ransac(fp, tp, model)

这样就得到了单应性矩阵,为了检验单应性矩阵结果的正确性,需要将一些简单的三维物体放置在标记物上,这里使用一个立方体。可以使用下面的函数来产生立方体上的点:

def cube_points(c, wid):"""创建用于绘制立方体的一个点列表(前5个点是底部的正方形,一些边重合了)"""p = []# 底部p.append([c[0] - wid, c[1] - wid, c[2] - wid])p.append([c[0] - wid, c[1] + wid, c[2] - wid])p.append([c[0] + wid, c[1] + wid, c[2] - wid])p.append([c[0] + wid, c[1] - wid, c[2] - wid])p.append([c[0] - wid, c[1] - wid, c[2] - wid])  # 为了绘制闭合图像,和第一个相同# 顶部p.append([c[0] - wid, c[1] - wid, c[2] + wid])p.append([c[0] - wid, c[1] + wid, c[2] + wid])p.append([c[0] + wid, c[1] + wid, c[2] + wid])p.append([c[0] + wid, c[1] - wid, c[2] + wid])p.append([c[0] - wid, c[1] - wid, c[2] + wid])  # 为了绘制闭合图像,和第一个相同# 竖直边p.append([c[0] - wid, c[1] - wid, c[2] + wid])p.append([c[0] - wid, c[1] + wid, c[2] + wid])p.append([c[0] - wid, c[1] + wid, c[2] - wid])p.append([c[0] + wid, c[1] + wid, c[2] - wid])p.append([c[0] + wid, c[1] + wid, c[2] + wid])p.append([c[0] + wid, c[1] - wid, c[2] + wid])p.append([c[0] + wid, c[1] - wid, c[2] - wid])return array(p).T

有了单应性矩阵和照相机的标定矩阵,可以使用以下代码得出两个视图间的相对变换:

# 计算照相机标定矩阵
K = my_calibration((747, 1000))# 位于边长为0.2,z=0平面上的三维点
box = cube_points([0, 0, 0.1], 0.1)# 投影第一幅图像上底部的正方形
cam1 = camera.Camera(hstack((K, dot(K, array([[0], [0], [-1]])))))# 底部正方形上的点
box_cam1 = cam1.project(homography.make_homog(box[:, :5]))# 使用 H 将点变换到第二幅图像中
box_trans = homography.normalize(dot(H, box_cam1))# 从 cam1 和 H 中计算第二个照相机矩阵
cam2 = camera.Camera(dot(H, cam1.P))
A = dot(linalg.inv(K), cam2.P[:, :3])
A = array([A[:, 0], A[:, 1], cross(A[:, 0], A[:, 1])]).T
cam2.P[:, :3] = dot(K, A)# 使用第二个照相机矩阵投影
box_cam2 = cam2.project(homography.make_homog(box))# 测试:将点投影在 z=0 上,应该能够得到相同的点
point = array([1, 1, 0, 1]).T
print(homography.normalize(dot(dot(H, cam1.P), point)))
print(cam2.project(point))

4.4 增强现实

增强现实(Augmented Reality,AR)是将物体和相应信息放置在图像数据上的一系列操作的总称。最经典的例子是放置一个三维计算机图形学模型,使其看起来属于该场景;如果在视频中,该模型会随着照相机的运动很自然地移动。

4.4.1 PyGame和PyOpenGL

PyGame 是非常流行的游戏开发工具包,它可以非常简单地处理显示窗口、输入设备、事件,以及其他内容。PyGame是开源的,可以从http://www.pygame.org/下载。事实上,它是一个Python绑定的SDL游戏引擎。

PyOpenGL 是 OpenGL 图形编程的Python绑定接口。OpenGL可以安装在几乎所有的系统上,并且具有很好的图形性能。OpenGL具有跨平台性,能够在不同的操作系统之间工作。关于OpenGL的更多信息,参见http://www.opengl.org/。

4.4.2 从照相机矩阵到OpenGL格式

OpenGL 使用4×4的矩阵来表示变换(包括三维变换和投影)。这和使用的3×4照相机矩阵略有差别。但是,照相机与场景的变换分成了两个矩阵, GL_PROJECTION 矩阵和GL_MODELVIEW矩阵。GL_PROJECTION矩阵处理图像成像的性质,等价于的内标定矩阵K。GL_MODELVIEW矩阵处理物体和照相机之间的三维变换关系,对应于照相机矩阵中的R和t部分。一个不同之处是,假设照相机为坐标系的中心,GL_MODELVIEW矩阵实际上包含了将物体放置在照相机前面的变换。

假设已经获得了标定好的照相机,即已知标定矩阵K,下面的函数可以将照相机参数转换为OpenGL中的投影矩阵:

def set_projection_from_camera(K):"""从照相机标定矩阵中获得视图"""glMatrixMode(GL_PROJECTION)glLoadIdentity()fx = K[0, 0]fy = K[1, 1]fovy = 2 * arctan(0.5 * height / fy) * 180 / piaspect = (width * fy) / (height * fx)# 定义近的和远的剪裁平面near = 0.1far = 100.0# 设定透视gluPerspective(fovy, aspect, near, far)glViewport(0, 0, width, height)

下面的函数实现如何获得移除标定矩阵后的3×4针孔照相机矩阵(将P和K-1相乘),并创建一个模拟视图:

def set_modelview_from_camera(Rt):"""从照相机姿态中获得模拟视图矩阵"""glMatrixMode(GL_MODELVIEW)glLoadIdentity()# 围绕 x 轴将茶壶旋转 90 度,使 z 轴向上Rx = array([[1, 0, 0],[0, 0, -1],[0, 1, 0]])# 获得旋转的最佳逼近R = Rt[:, :3]U, S, V = linalg.svd(R)R = dot(U, V)R[0, :] = -R[0, :]  # 改变 x 轴的符号# 获得平移量t = Rt[:, 3]# 获得 4×4 的模拟视图矩阵M = eye(4)M[:3, :3] = dot(R, Rx)M[:3, 3] = t# 转置并压平以获取列序数值M = M.Tm = M.flatten()# 将模拟视图矩阵替换为新的矩阵glLoadMatrixf(m)

该操作使用SVD分解方法,旋转矩阵的最佳逼近可以通过 R = U V T R=UV^T R=UVT来获得

4.4.3 在图像中放置虚拟物体

我们需要做的第一件事是将图像(打算放置虚拟物体的图像)作为背景添加进来。在OpenGL中,该操作可以通过创建一个四边形的方式来完成,该四边形为整个视图。完成该操作最简单的方式是绘制出四边形,同时将投影和模拟试图矩阵重置,使得每一维的坐标范围在-1到1之间。

下面的函数可以载入一幅图像,然后将其转换成一个OpenGL纹理,并将该纹理放置在四边形上:

def draw_background(imname):"""使用四边形绘制背景图像"""# 载入背景图像(应该是 .bmp 格式),转换为 OpenGL 纹理bg_image = pygame.image.load(imname).convert()bg_data = pygame.image.tostring(bg_image, "RGBX", 1)glMatrixMode(GL_MODELVIEW)glLoadIdentity()glClear(GL_COLOR_BUFFER_BIT | GL_DEPTH_BUFFER_BIT)# 绑定纹理glEnable(GL_TEXTURE_2D)texture_id = glGenTextures(1)glBindTexture(GL_TEXTURE_2D, texture_id)glTexImage2D(GL_TEXTURE_2D, 0, GL_RGBA, width, height, 0, GL_RGBA, GL_UNSIGNED_BYTE, bg_data)glTexParameterf(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_NEAREST)glTexParameterf(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_NEAREST)# 创建四方形填充整个窗口glBegin(GL_QUADS)glTexCoord2f(0.0, 0.0); glVertex3f(-1.0, -1.0, -1.0)glTexCoord2f(1.0, 0.0); glVertex3f( 1.0, -1.0, -1.0)glTexCoord2f(1.0, 1.0); glVertex3f( 1.0,  1.0, -1.0)glTexCoord2f(0.0, 1.0); glVertex3f(-1.0,  1.0, -1.0)glEnd()# 清除纹理glDeleteTextures(texture_id)

该函数首先使用PyGame中的一些函数来载入一幅图像,将其序列化为能够在PyOpenGL 中使用的原始字符串表示。然后,重置模拟视图,清除颜色和深度缓存。接下来,绑定这个纹理,使其能够在四边形和指定插值中使用它。四边形是在每一维分别为-1和1的点上定义的。注意,纹理图像的坐标是从0到1。最后,清除该纹理,避免其干扰之后准备绘制的图像。

4.4.4 综合集成

下面的完整脚本可以生成如图4-5所示的图像:

from OpenGL.GL import *
from OpenGL.GLU import *
from OpenGL.GLUT import *
import pygame
import pygame.image
from pygame.locals import *
import picklewidth, height = 1000, 747def setup():"""设置窗口和 pygame 环境"""pygame.init()pygame.display.set_mode((width, height), OPENGL | DOUBLEBUF)pygame.display.set_caption('OpenGL AR demo')# 载入照相机数据
with open('ar_camera.pkl', 'rb') as f:K = pickle.load(f)Rt = pickle.load(f)setup()
draw_background('book_perspective.bmp')
set_projection_from_camera(K)
set_modelview_from_camera(Rt)
draw_teapot(0.02)while True:event = pygame.event.poll()if event.type in (QUIT, KEYDOWN):breakpygame.display.flip()

在这里插入图片描述

图4-5 参考资料示例图像

这篇关于Python计算机视觉 第4章-照相机模型与增强现实的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1116116

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言