这次在NIPS 2010上发表的关于构造Dependent Dirichlet Processes (DDP)的paper在NIPS的官网已经可以下载了。
在这里只是想分享这篇文章背后的研究经历。
认识我的朋友们应该知道,我从本科开始直到现在,主要研究方向一直都是computer vision。但是,在硕士阶段和在博士阶段的研究目标却有着很大的不同,这和导师的风格有着很重要的关系。
在香港读硕士期间,我的导师汤老师是一个非常注重实际应用的人,因此当时做research的主要目标是提高实际性能或者建立新的应用。在方法上,更多地是借用现有的方法,或者略加改进。
到了MIT之后,我的导师Eric Grimson让我在John Fisher的指导下进行研究。John和LIDS的主任Alan Willsky关系很密切,因此我每周都要参加Alan的一个grouplet,并且有幸和Alan讨论学术问题。
Alan Willsky是我非常敬佩的一位教授,他有着很深的数学造诣。在每次grouplet的时候,他都听我们给他讲新的进展,而他则为下一步的研究提供方向性的意见。和汤老师的风格不一样,Alan是一位很典型的理论型的科学家。每次讨论时,他关注的重点不是实验结果,而是理论价值,比如某一个方法是不是能给这个field带来新的insight。在他前几年指导的工作里面,这一点得到了充分的体现,比如Tree reweighted approximation和Walk-sum analysis of Gaussian LBP都是probabilistic inference的重要进展,并且展现了对相关领域的深入而独到的理解。
在他的引导下,我在研究过程中更多地思考一个工作背后的理论基础。在这个过程中,我始终感到在本科和HK时期打下的数学基础并不足以支持在理论方面的深入探索,于是开始系统地学习和我的研究课题有关的数学。和运动分析有关的部分主要是Differential geometry和Lie algebra,和统计模型有关的是Measure theory,Modern probability theory,Stochastic processes和Convex analysis。以及这些学科所共同涉及的General topology和Functional analysis。
MIT要求每个PhD修一门minor,我当时从我的需要出发选择了数学(Course 18)。在这个过程中得到了进行严格数学推导和证明的训练。进行严格的数学分析和推演的能力也许在Computer Vision的大部分工作中并不是特别需要,但是在做NIPS这个工作的时候它的效用就显现出来了。理论上的东西,你要说服别人它是对的,必须给出严格的证明,而不仅仅是实验结果。
回到这篇NIPS paper吧。最初,我们是希望得到一种能随着时间变化的mixture model。在这个过程中,可能回增减其中的component。如果回到硕士的时代,也许,我们会通过工程的方法来解决这个问题——事实上很多现有的工作就是通过工程方法或者算法层面的设计来达到这个目标的。但是,基于我们组的风格,我们并不能满足这样的方法,而是希望每个方法都有一套严格的数学理论去支持。
在mixture演化的过程中component的个数会发生变化,因此Dirichlet Process也就成了很自然的一种选择。一开始的时候,我们也只是希望对原有的基于Polya Urn或者Stick breaking的方法加以改进来满足我们的需求,但是发现这其中在数学上存在很多困难,于是,我们开始尝试另起炉灶,从根源重新理解DP。
在我早前做关于大批运动物体的motion analysis的topic的时候,曾经读过一些关于Random Point processes的书,其中包括Kingman的Poisson processes。这本书中提到了(Spatial) Poisson process的很多很漂亮的数学性质,以及它和Gamma/Dirichlet Process的内在关系。最初读这本书的时候,只是惊叹于Poisson process的数学美,而并没有意识到它的实际价值。当我再次阅读这部书的时候,才形成了是否可以利用Poisson和Dirichlet的关系来建立我们的dynamic mixture model framework的想法。这种想法就是这篇NIPS的源头,paper中的section 2关于数学background的部分就是来自于这本书。
在我早前的blog中曾经论及空间泊松过程和随机测度,其实已经是在一定程度上介绍这篇paper的理论背景。只是当时paper还没有发表,并不便于讲得很深入。
除了Alan的影响,我也感谢John和Eric为我创造的研究环境。一直以来,对于在理论方面的探索,他们都是非常鼓励的,认为这样的探索非常有价值。虽然,我们的funding也需要一些项目来支持,但是,John尽了很大的努力排除这些项目对于研究的干扰——他向sponsor提出一个要求是,我们可以为他们提供新的方法或者模型,但是sponsor不应干扰或者介入具体的研究课题以及课题的选择。
在这次NIPS的会议上,我看到了很多很好的很有启发的工作。跟许多参加会议的学者相比,我目前所做的这些工作(包括这篇paper)其实还是非常有限的。这次提出的方法本身也有着很多的局限有待解决,比如目前只是支持sequential filtering,而且Sampler的efficiency的提高还有很大的空间。让这次提出的方法在领域内产生真正的影响,还需要做很多的事情。