本文主要是介绍文献阅读笔记: Real-time Multiple Objects Tracking with Occlusion Handling in Dynamic Scenes ---by 香蕉麦乐迪,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文献阅读笔记: Real-time Multiple Objects Tracking with Occlusion Handling in Dynamic Scenes ---by 香蕉麦乐迪
文章第一部分
摘要:强调了对于持续时间长,完全遮挡的物体,没有形态或者运动的先验知识也能比较好的处理。实测表明有良好的分割和跟踪效果,速度15-20fps,图像大小320*240
介绍:
文献【1-5】,可以从这里的5篇文章看看目标跟踪的实用价值。
文献【6-8】,对多个相互作用的物体,产生的遮挡问题提出了解决办法:采用多摄像头融合。(ps:这里我感觉比如说多个人走的时候相互交错,类似这种问题)
文献【9】,通过概率模板和外观模型,解决频繁形变和大型遮挡的问题。
文献【10】,发展了一种贝叶斯分割方法,用于在遮挡下跟踪行人;该方法融合了基于区域的背景差分和人体形态模型。
文献【11】,提出了一个动态的贝叶斯网络,可容纳一个额外的隐藏的处理过程,该过程用于部分遮挡处理。
文献【12-16】,基于外观模型跟踪遮挡的物体。
文献【17】,提出了一个动态的背景模型,把运动的物体作为前景层,然后给前景建模,而且还包含了前景的顺序,这些完整的信息对于可靠的跟踪非常有价值。
同时文章又指出了上述文章提出的算法的缺点:
文献【6-8】,不能解决完全遮挡的问题。
文献【12-13】,基于精确模型的算法,对背景杂波很敏感;而且计算代价比较大,基于模型估计的方法,模型的参数数量一般比较大。
此外很多算法都是针对短时间的部分遮挡问题,对于严重遮挡和遮挡时间较长时,处理的不好。
文献【18-20】,像蒙特卡洛滤波器这种概率方法,能够比较好处理背景杂波,因为它允许跟踪多个假设目标。
文献【21】,运用运动模型来跟踪,在一些遮挡场景下具有较好的鲁棒性;这些方法需要精确的运动模型,当多个运动目标相互作用的时候,对于这种非线性运动效果就不好了。
总结之后,作者提出了自己的方法:
作者提出的方法是针对多目标在动态场景下的跟踪(ps:问下这里的动态场景指的是什么),根据目标的状态,划分成了3个阶段:遮挡前、遮挡中、遮挡后;
遮挡前和遮挡后目标都是独立运动的,遮挡中是几个目标在一起,这时候把这几个目标称为一个group;作者做了一个假设:在遮挡中,单个目标的运动轨迹与它所在的group是相同的(这个假设比较符合实际情况);这样一个目标的完整轨迹就可以通过遮挡前,遮挡后,加遮挡中这3个部分恢复出来;
该系统包含两部分:1 目标分割, 2 融合,分裂检测和特征匹配;
part1 给出了一种快速的算法,用来维持背景,能够比较好的适应阴影和光照变化,速度在20fps;背景模型的建立是基于一个2 level的像素运动分析算法,这个背景模型会用来执行背景图像差分;然后经过连通域分析,移除小斑点(small blobs),由此得到前景图像并且保存下来;然后为了消除背景噪声产生的大斑点,part2中的跟踪模块会根据连续几帧前景确定跟踪目标,只有那些连续几帧匹配的目标才会被认为是有效的目标;
part1算法的处理过程如下:通过像素级和帧级的运动建立背景模型;输入图像与背景做差得到前景,然后经过形态学滤波,消除小的噪声点;(ps:像大片树叶这种噪声,是否可以考虑通过简单的分类算法直接去除掉)
part2 :检测一个目标,然后划分为4类:已经存在的,新的,融合的,分裂的;对于前两种目标,直接跟踪;对于融合的目标新建立一个group,建立跟踪;对于分裂的目标,与之前的目标进行特征匹配,分配正确的标签,继续之前的跟踪。图形如下:
这篇论文的第2部分讲述运动目标的分割算法,第3部分讲述融合和分割的算法,第4部分讲述特征匹配的算法,第5部分讲述大量测试的结果。
文章第2部分:运动目标分割
文章采用背景减除的方法,但是不是像混合高斯背景建模那样依赖于像素值的分布,而是根据像素级和帧级的运动反馈来进行实时的分割和背景更新;这样做避免了混合高斯模型计算量大和对新背景适应慢的缺点。
基于像素运动的前景提取方法是基于一个假设,假设运动目标的像素点的变化要比背景区域的像素点变化快。这个假设一般都成立,但是有一个例外的情况,就是当运动目标的颜色很单一的时候(ps:比如一个人穿着一件纯红的衣服,他在动的时候,他身体内的那些像素点都是红的,就没有动),为了解决这个问题,基于帧建立了一个matrix,将像素点的运动信息存在这个矩阵中,再处理判断。
其计算方法很简单,作者通过下面的公式总结了出来:
公式1中,I代表输入的图像,下标i j指定图像中具体的像素点;公式1 计算当前帧和前一帧的像素差,如果小于Tf表示没变化,否则有变化记为1;公式2根据公式1中计算得到的F,如果F不为0,将矩阵D中对应ij处的值更新为lamda,否则就减少对应的 i j处的值直到0;
公式3说明的是背景的更新方法,a是学习速率,如果D 中像素i j对应位置为0,就会用公式3更新背景图像;所以这里的a就直接决定了背景更新速度的快慢;
基于像素点的方法还有一个致命的缺点,它忽略了整体图像的变化,比如摄像机的晃动,光照变化,物体离开场景等等。所以作者又利用公式4来进行更快的背景更新,解决整体图像变化的问题:
公式4 的意思:m与n是图像的长宽,F我们知道是变化的像素点,所以V表示的是变化的像素点占整个图像的比例。
作者决定,当V小于某个阈值的时候,使用公式3,对整幅图像进行更新;
下图给出了前景提取的分部结果示意,b是像素点检测后的结果,c是形态学处理后的结果,d是结合帧间信息处理后的结果。
文章第3部分:融合和分裂物体检测
这部分的任务其实就是:将检测到的目标 与 跟踪(track) 相关联;作者使用一个简单的矩阵D来计算,图示如下,T代表已有的跟踪,M代表检测到的目标
T1 T2 T3 . .......... Tm
M1
M2
M3
.......
Mn
然后作者使用公式5(ps:就是距离计算公式),计算M与T之间的欧式距离,将结果填入上面的矩阵D中。当然计算的距离是有阈值限制的,超过了阈值直接设为无穷大。
记全0矩阵C,对矩阵D 的每一行和每一列求最小值,将最小值元素对应位置 +1,得到矩阵C
b1 b2 ......... bm
a1
a2
......
a3
那么每一个目标(measure)的结果就是它所在行的值累加,有0 1 2,三种结果
对于每一个track,它的结果就是它所在列累加,有0 1 2,三种结果
这几种结果对应着几种关系:
一个跟踪track,对应0个measure:目标消失
一个跟踪track,对应多个measure:目标分裂
一个measure,对应0个track:目标新出现
一个measure,对应多个track:目标融合
一个measure,对应一个track:正常
接下来文章采用的处理办法是:将矩阵C中所有==2的位置对应的M和T,匹配起来(目标与跟踪对应起来);然后将D中对应的行和列的矩阵更新为无穷大,再用D更新产生新的C,如此循环,直到C矩阵中没有2为止;
这样处理后,得到3种结果:没有匹配的track,没有匹配的measure,匹配好的track和measure;
接下来对于没有匹配的track会有一个merging算法:该算法判断此track是由于目标被融合了,还是目标消失了;如果判定为目标融合,就创建一个新的group;如果判定为消失,该跟踪的信用度就开始下降,当信用度下降到一个阈值的时候,这个跟踪就会被删除掉;
对于没有匹配的目标,也有一个split算法:该算法判断当前目标是一个新的目标还是分裂出来的;如果是分裂出来的,会通过一个特征匹配模块,将该目标与之前的跟踪对应起来;
merging算法依据的原理:当物体融合的时候,没有匹配的跟踪会与一个目标有一定区域的重合;spliting算法依据的原理:当物体分裂的时候,没有匹配的目标会与一个跟踪有一定区域的重合;这个假设要成立有一个条件:就是目标分割的处理速度要求较快,否则已经完全分离,就没有重合了;前文中提到的分割算法能达到20fps,即使是快速运动的物体,也能很好满足要求。
文章第4部分:特征匹配
搜索
文章第5部分
搜索
这篇关于文献阅读笔记: Real-time Multiple Objects Tracking with Occlusion Handling in Dynamic Scenes ---by 香蕉麦乐迪的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!