Sparse Learning

2024-08-31 11:32
文章标签 learning sparse

本文主要是介绍Sparse Learning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

                                          Sparse Learning

 本文的内容主要来自余凯老师在CVPR2012上给的Tutorial。前面在总结ScSPM和LLC的时候,引用了很多Tutorial上的图片。其实这个Tutorial感觉写的挺好的,所以这次把它大致用自己的语言描述一下。不过稀疏编码是前两年比较火的东西,现在火的是deep learning了。

1、What is sparse coding?

       1988年,神经稀疏编码的概念由Mitchison提出,由牛津大学的Rolls等正式引用。灵长目动物颚叶视觉皮层和猫视觉皮层的电生理实验报告和一些相关模型的研究结果都说明了视觉皮层复杂刺激的表达是采用稀疏编码原则的。研究表明:初级视觉皮层V1区第四层有5000万个(相当于基函数),而负责视觉感知的视网膜和外侧膝状体的神经细胞只有100万个左右(理解为输出神经元)。说明稀疏编码是神经信息群体分布式表达的一种有效策略。1996年,加州大学伯克利分校的Olshausen等在Nature杂志发表论文指出:自然图像经过稀疏编码后得到的基函数类似V1区简单细胞感受野的反应特性(空间局部性、空间方向性、信息选择性)。

       典型的sparse coding的过程分为训练和测试。

       Training:给定一些训练样本(training samples)[ x1, x2, …, xm(in Rd)],学习一本字典的基(bases)[Φ1,Φ2……(also in Rd)]。可是用k-means等无监督的方法,也可以用优化的方法(这时training完了同时也得到了这些training samples的codes,这是一个LASSO和QP问题的循环迭代);

       Coding:用优化的方法求解测试样本的codes(此时字典已经学得)。经典的方法是求解LASSO:

                  (1)

        自我学习就是在Training的时候采用大量无标注的自然图像训练字典,然后对带标注的图像进行编码得到特征codes。

近十几年来,稀疏(sparsity)已经成为信号处理及其应用领域中处于第一位的概念之一。近来,研究人员又致力于过完备(overcomplete)信号表示的研究。这种表示不同于许多传统的表示。因为它能提供一个广阔范围的生成元素(atoms)。而冗余(redundant)信号表示的魅力正在于其能经济地(紧致)的表示一大类信号。对稀疏性的兴趣源自于新的抽样理论-压缩传感(compressed sensing)的发展,压缩传感是香农采样理论的一种替代,其利用信号本身是稀疏的这一先验,而香农理论是设计用于频率带宽有限的信号的。通过建立采样和稀疏的直接联系,压缩传感在大量的科学领域,如编码和信息论,信号和图像采集处理,医学成像,及地理和航天数据分析等都得到应用。压缩传感的另一贡献是许多传统的逆问题,如断层图像重建,可以看作压缩传感问题。这类病态(ill-posed)问题需要正则化。压缩传感对寻求系数性解的方法给出了强大的理论支持。

1、什么是稀疏性

设信号x是RN的有限维子空间向量,x=[x[1],x[2],…,x[N]], 如果x的绝大多数元素都为0,则x是严格稀疏的。

如果信号不稀疏,它却可能在某种变换域中稀疏。我们可以用T个基本波形(signal atoms)的线性组合来建模x,有

x= φa=sum(a[i]φ[i])

其中a[i]称为在字典φ中信号x的表示系数。

2、稀疏性的几个名词

1)原子(atom) 如前所述,原子是信号表示模板的元素。

2)字典(dictionary) 是许多原子的排序集合,可看作是一个NxT的矩阵,如果T>N, 则为过完备或冗余字典。

原子:字典的列向量。

完备字典与过完背字典:如果字典D中的原子恰能够张成n维的欧式空间,则字典D是完备的。如果m》n,字典D是冗余的,同时保证还能张成n维的欧式空间,则大字典D是过完备的。

coding的过程就变成了已知Yi和D,求Xi的过程了。显然这是一个非齐次方程组求解的 问题,方程组有解的条件是rank(D)≤M,其中取等号时方程组有唯一解。过完备的定义是M>>N,所以此时 rank(D)≤N<<M,此时方程组有无穷多解。(你可能会问,这和最小化平方误差为目标函数不一样啊!其实求个导,就变成这个方程组 了。)这就是过完备造成的问题了。怎么办呢?办法就是对Xi做约束------稀疏的约束,这样Xi就有唯一解了。这就是需要加约束的原因。更多见:https://blog.csdn.net/zhangzhengyuan123123/article/details/38446185

2、Connections to RBMs, autoencoders

      (1)式(经典的稀疏编码)有几个特点:

            ——系数a是稀疏的;

            ——a的维数一般比x的维数大;

            ——编码过程a=f(x)是一个非线性的关于x的隐函数(即我们没有f(x)的显示表达,因为求解LASSO没有解析解);

            ——重建过程x'=g(a)是一个线性的显示的关于a的函数(X’=ΣaiΦi)。

         而RBM和自编码的特点则是:

           ——有显示的f(x);

           ——不会必然得到稀疏的a,但是如果我们增加稀疏的约束(如稀疏自编码,稀疏RBM),通常能得到更好的效果(进一步说明sparse helps learning)。

         从广义上说,满足这么几个条件的编码方式a=f(x)都可以叫稀疏编码:

           1) a是稀疏的,且通常具有比x更高的维数;

           2) f(x)是一个非线性的映射;(jiang1st2010注:该条要求存疑,见下面解释。)

           3) 重建的过程x'=g(a),使得重建后的x'与x相似。

          因此,sparse RBM,sparse auto-encoder,甚至VQ都可以算是一种sparse coding。(jiang1st2010注:第二条要求称f(x)是一个非线性映射,然而SPM中用到的VQ是一个线性映射,原因可以参见这里和这里。余凯老师也是LLC论文的作者,似乎存在矛盾?不过这是个小问题了,没必要深究。)

 

3、Sparse activations vs. sparse models

         现在可以用a=f(x)表示稀疏编码的问题了。它可以分解成两种情况:

         1)sparse model:f(x)的参数是稀疏的

                  --例如:LASSO f(x)=<w,x>,其中w要求是稀疏的。(jiang1st2010注:这个例子中f(x)也是线性的!)

                  --这是一个特征选择的问题:所有的x都挑选相同的特征子集。

                  --hot topic.

         2)sparse activation:f(x)的输出是稀疏的

                  --就是说a是稀疏的。

                  --这是特征学习的问题:不同的x会激活不懂的特征子集。

                                           

 

4、Sparsity vs. locality

       其实这个问题在这里已经谈过了。简单的说就是sparsity不一定导致locality,而locality肯定是sparse的。sparse不比locality好,因为locality具有smooth的特性(即相邻的x编码后的f(x)也是相邻的),而仅仅sparse不能保证smooth。smooth的特性对classification会具有更好的效果,并且设计f(x)时,应尽量保证相似的x在它们的codes中有相似的非0的维度。

 

         Tutorial上展示了(1)中取不同的λ,字典中各项呈现的效果:

      

   

        作者想说明的问题是分类效果越好的情况下,basis会更清晰地表现出属于某几个特定的类。但是我没太看明白。

 

5、Hierarchical sparse coding

        这里图3曾说明了SIFT本身就是一个Coding+Pooling的过程,所以SPM是一个两层的Coding+Pooling。而Hierarchical sparse coding就是两层的coding都是sparse coding,如下图:

         整个HSC的第一层就从pixel层级开始(不需要手动设计SIFT特征了),经过两层SC后,形成codes。这个过程可以从无标注的数据中学习,就是self-taught learning。从pixel层级开始,这点和DNN啥的很像了。

          从结果来看,HSC的性能会比SIFT+SC稍微好些。

        

           Tutorial的最后列举了关于SC的其他主题,我也不懂,这里就不废话了。

 

【转载】:http://blog.csdn.net/jwh_bupt/article/details/9902949

这篇关于Sparse Learning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1123784

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于

One-Shot Imitation Learning

发表时间:NIPS2017 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位:Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

《Learning To Count Everything》CVPR2021

摘要 论文提出了一种新的方法来解决视觉计数问题,即在给定类别中仅有少量标注实例的情况下,对任何类别的对象进行计数。将计数问题视为一个少样本回归任务,并提出了一种新颖的方法,该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外,还提出了一种新颖的适应策略,使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务,作者还引入了一个包含

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

发表时间:5 Jun 2024 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656&noteId=2408640378699078912 作者单位:Rutgers University Motivation:学习一个通用的policy,可以执行一组不同的操作任务,是机器人技术中一个有前途的新方向。然而,

MaPLe(论文解读): Multi-modal Prompt Learning

Comment: Accepted at CVPR2023 摘要 预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。 受到NLP领域的启发,最近的CLIP的自适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支(语言或图像分支)中