《计算机视觉-一种现代方法（第2版）》读书笔记四：中层视觉

本文主要是介绍《计算机视觉-一种现代方法（第2版）》读书笔记四：中层视觉，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本篇思维导图

这里写图片描述

注：中层视觉主要关注的是图像中的几何结构以及特定对象和目标，应用领域包括目标分割和跟踪

通过聚类分割

分割的目的是为了得到一幅图片中有用部分的一个精简的表示，其具体的理论和方法取决于应用的需求

1 人类视觉：分类和格式塔(Gestalt)

分割的普遍经验认为：一幅图像能分解为图形（一般是有意义的、重要的物体）和背景
心理学格式塔学派根据人类视觉系统中周围环境影响着事物的感知的特征，制定了一系列的规则，用来将图像元素分类和分组
元素集合分组的一些规律性质

2 重要应用

2.1 背景差分

在很多应用中，物体总是出现在一个相对稳定的背景中
在这些应用中，通常可以通过从图像中减去背景图像的估计值，然后从结果中寻找绝对值比较大的部分来获得有用的分割
背景差分算法

注：使用运动平均方法估计背景像素点的值

2.2 镜头的边界检测

镜头：指基本显示的是同一物体的较短视频流
关键帧：一个镜头通常可以用一个关键帧来表示，这种表示可以用于视频的检索或者概况视频内容以便用户进行浏览
镜头边界检测算法
计算距离的几种准则：帧差分算法、基于直方图的算法、块比较算法、边缘差分算法

2.3 交互分割

人为指定一些分离区域，计算机在此基础上完成自动分割
这里写图片描述

3 基于聚类像素的图像分割

3.1 基本聚类方法

3.1.1 凝聚式聚类（合并聚类）

定义每个点为独立的一个类
直到聚类达到所要求的将类间距离最小的两类合并
end

3.1.2 分解式聚类（分裂聚类）

定义一个包含所有点的类
直到聚类达到所要求的将一个类分裂成两个类，条件时所产生的两个类的类间距离最大
end

3.1.3 类间距离计算方法

单连接聚类：选择两类之间最近的两个元素之间的距离作为类间距离
全连接聚类：选择两类之间最远的两个元素之间的距离作为类间距离
基于集团均值的聚类：选择聚类中元素间距离的平均值

3.1.4 应划分多少类
通过树状图（一种显示类间距离的层次结构表示），让用户据其做出一个适当的聚类选择

3.2 分水岭算法

分水岭算法可以较好地得到超像素（具有相似颜色或纹理的图像块）

3.3 K-均值算法

3.3.1 基本步骤

假设聚类中心已知，并且分配每个点到最近的聚类中心
假设分配已确定，选择一个新的聚类中心（每个中心是分布在这个类中各个点的平均值）集

随机的选择聚类中心作为起始点，并轮流迭代执行这些步骤，直至收敛于目标函数的局部最小值。

3.3.2 实现细节
具体细节会略有差异，比如初始化聚类中心后，将其它点一次性就近分配到各聚类，然后重新计算聚类中心再不断调整样本点分配；也可一次将一个样本点依顺序归入就近的聚类，并立即重新计算该类的聚类中心，然后再计算下一个样本的归类，直到所有的样本都归到相应的类中。

基于模型拟合的分割

与基于聚类的分割不同的是，基于模型拟合的分割中模型是已知的，而且是从更大尺度的关系看问题，而不仅仅是样本到样本的关系。通常选择一个模型，然后确定一个拟合好坏的准则，来审视一组样本是否具有拟合该模型的属性。

1 哈夫（Hough）变换

1.1 基本思想

通过记录所有样本点能具有的所有结构，然后看看哪一个结构有最多的投票来把在同样结构上的点聚类

1.2 用哈夫变换拟合直线

哈夫变换最成功的应用是在直线检测上，利用点-线对偶性原理寻找参数空间网格中投票最多的网格来确定对应的直线

1.3 用哈夫变换拟合圆

原理与拟合直线大体上类似，只是点对应的二维极径极角空间被三维的圆心点x, y还有半径r空间取代，实际实现中是通过哈夫梯度法求解。

1.4 哈夫变换在实际中的问题及应对措施

问题：

量化误差（合适的网格尺寸很难选择）
受噪声影响大

应对措施：

减少不相关样本（包括去噪）
小心地选择网格（试算法）

2 拟合直线

最小二乘直线拟合
增量直线拟合：通过沿着曲线走，对曲线上的点拟合直线，当残差足够大时截断曲线
k-均值直线拟合：通过把点分配到最近的直线然后重新拟合

3 拟合曲线结构

4 鲁棒性

最小二乘拟合对外点非常敏感，为了增强模型，通常将噪声的影响削弱，或者允许一个显式表示外点的模型（也可搜索看上去好的点）

4.1 M估计

最好的估计是在接近参数模型的最坏分布下还可以表现得非常好的估计。
一个M估计可以认为是一种策略，其可以保证外点作用被衰减的概率要比它们产生平方误差的概率要高
一个M估计通过最小化后面的表达式来估计参数Σiρ(ri(xi,θ);σ),ri(xi,θ)表示残留误差

4.2 随机采样一致算法(RANSAC)

基于在数据点中搜索好的点的思想，具体搜索一个随机采样，对其进行拟合，并判断其是否得到许多数据点支持
这里写图片描述

跟踪

1 概述

1.1 定义

跟踪（tracking)是根据一组给定图像序列（视频），对图像中物体的运动形态进行分析。

1.2 应用

运动捕捉
从运动中识别
监视
定位

1.3 术语

状态（跟踪的基本假设为当前状态仅依赖于前一状态）
观测：是对运动物体状态的测量（当前观测仅仅依赖当前状态）

跟踪包括利用观测去推测状态，状态和观测的基本假设意味着跟踪问题的推理结构是个隐马尔可夫模型。

2 简单跟踪策略

通过检测来跟踪：当视频中只有一个简单对象时，可以通过报告检测器在视频每一帧中响应的位置来跟踪对象；有多个物体或复杂情况可以采取轨迹跟踪
通过匹配平移来跟踪：在相邻帧间可以把对象看作是缓慢运动的box,通过在帧间邻近位置搜索最佳匹配的平移后的box来跟踪对象
利用仿射变换来确认匹配：如果观测时间较长，对象有可能发生形变（如三维旋转），需要修改为基于仿射变换的匹配

这篇关于《计算机视觉-一种现代方法（第2版）》读书笔记四：中层视觉的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！