本文主要是介绍HIGH-DIMENSIONAL ROBUST REGRESSION AND OUTLIERS DETECTION WITH SLOPE 论文翻译,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
高维背景下的异常点检测和稳健回归问题是统计学中的基础问题,有很多应用。在最近的一系列工作中,提供了同时进行稳健回归和异常值检测的方法,本文考虑一个高维情形下具有个体截距的线性回归模型。我们介绍了一种新的同时估计线性回归系数和截距的方法,使用了两个专用的分类L1惩罚,也称为斜率[5]。我们发展了一个完整的理论来解决这个问题:首先,我们给出了单个截距向量和回归系数的统计估计误差的上界。其次,我们给出了一个渐近控制的 错误发现率(FDR)和统计功率的支持选择的个别截获。因此,本文首先介绍了在均值漂移模型下,一种保证FDR和统计功率控制的异常值检测方法。数值例子,并与最近的替代方法进行比较,提供了模拟和几个现实世界的数据集。
1、introduction
异常值是统计数据分析中的一个基本问题。粗略地说,离群值是一个不同于数据“全局图”的观察点[27]。经验法则是,由于用户浏览网页的固有复杂性和高度不确定性,典型数据集可能包含1%到10%的异常值[26],或者比特定应用程序(如网页数据)中的异常值要多得多[22]。这种异常值问题在50年代早期就已经被考虑过[15,21],并且在70年代推动了一种新的被称为稳健统计的领域的发展[28,29]。
在本文中,我们考虑了存在异常值时的线性回归问题。在这种情况下,已知经典估计器(例如最小二乘)会失败[28]。为了在存在异常值的情况下进行回归分析,大约有两种方法是众所周知的。第一种基于检测和清除“干净”数据上的最小二乘方值[49]。流行的方法依赖于留一法(有时称为casedeletion),第一种在[14]中进行了描述。这些方法的主要问题是,它们在理论上针对只有一个给定观测值是异常值的情况进行了精心设计,在所有位置重复该过程可能导致众所周知的掩盖和沼泽效应[25]。最近一种有趣的方法,不依赖于留一法技术,即所谓的IPOD [39],这是一种惩罚最小二乘方法,其调整参数的选择依赖于BIC标准。第二种方法是基于稳健回归,它考虑了对离群值较不敏感的损失函数[29]。这依赖于M估计框架,由于引入了稳健的损失来代替最小二乘,因此在存在异常值时可以得出回归系数的良好估计。但是, M估计的计算实际上是 比最小二乘估计要复杂得多,这在某种程度上扩展了相对于以前方法的表观计算增益的平衡。此外,鲁棒回归仅关注回归系数的估计,而不能直接定位离群值,例如,最近的评论也见[50]。
已经提出了替代方法来同时执行离群值检测和鲁棒回归。这种方法涉及平方的中位数[40],S估计[38]和最近的稳健加权最小二乘[19]等,有关这些方法的最新评论,另请参见[24]。最近,鲁棒方法的发展与稀疏推理技术的发展相交。这种推论技术,特别是应用于高维线性回归的推论,在统计学中很重要,并且在过去两个世纪里一直是重要的发展领域。几十年来,在压缩感测领域取得了较深的成果,更普遍的是凸松弛技术[45,9,10,12,11]。由于快速和可扩展的凸优化算法[2],这些导致了在稀疏性假设下工作的强大推理算法。允许处理稀疏性和变量选择的最流行的方法是LASSO [46],它是L1惩罚的最小二乘法,并进行了诸如自适应LASSO [52]之类的改进,还有许多其他引起稀疏性的惩罚措施
在过去的几年里,为了理解稀疏线性回归模型的正则化方法,已经建立了大量的理论结果,使用所谓的预言和估计误差的oracle不等式[30,31,33],也参见[7,20]了解关于这个主题的详细调查。另一项工作是变量选择,试图以高概率恢复回归系数的支持[32,31,13]。其他类型的损失函数[47]或处罚[17,5]也被考虑过的。最近,引入了sorted-L1范数惩罚[5,6,42],并显示出非常强的统计性质。特别是,当协变量是正交的时,SLOPE允许通过控制错误发现率来恢复回归系数的支持[5]。对于具有多变量高斯分布的i.i.d协变量,给出了具有最优极大极小速率的oracle不等式,以及对一个非常接近FDR的量的控制[42]。对于更一般的协变量分布,文献[8]给出了具有最优收敛速度的oracle不等式。
但是,许多具有数百或数千个协变量的高维数据集确实存在异常值。 因此,在高维环境中进行可靠的回归和检测异常值非常重要。 数据维数和复杂性的增加可能会放大观察值离群的机会,这可能会对统计分析产生强烈的负面影响。 在这种情况下,许多上述离群值检测方法效果不佳。 在[1]中提出了一种在高维环境中检测离群值的新技术,该技术试图通过研究数据集中的投影行为来发现离群值。 文献[48,37,23,39,18]中提出了解决此问题的一小部分其他尝试,下面将对其进行更详细的描述:
2. Contributions of the paper.
我们的重点是可能的高维线性回归,其中观测值可能会受到严重误差的污染。 所谓的 均值 漂移离群值模型可以描述如下:
对于i=1,...,n,其中n是样本大小。非零 意味着观察值i是一个异常值,并且 , 分别代表线性回归系数,样本的协变量,标签和噪声。为了简单起见,我们假设噪声是以I.Id为中心的高斯,已知方差为 。
2.1 related work
关于低维问题,我们已经讲了很多,因此我们将重点放在高维问题上。留一法技术在[48]中已扩展到高维和通用回归案例,但 掩盖和沼泽问题仍然存在。在其他模型中,高维离群值检测还包括基于距离的方法[37],其思想是找到数据的中心,然后应用一些阈值规则。最近使用LASSO罚分[23]和硬阈值[39]研究了此处考虑的模型(2.1)。 [18]中也使用了LASSO,但是这里的异常值是根据噪声的方差建模的。在[23,39](更接近我们的方法)中,惩罚的应用方式有所不同:在[23]中,名为Extended-LASSO的过程对beta和u使用两种不同的L`1惩罚,其调整参数根据根据理论结果,[39]中的IPOD程序对两个向量应用相同的惩罚,并使用修正的BIC准则调整正则化参数。在[23]中,对于回归系数和截距系数都获得了误差范围和有符号的支撑恢复结果。但是,这些结果要求系数的大小非常大,这是我们要在本文中克服的问题之一.
值得一提的是,模型(2.1)可以用级联形式 编写,其中Z是协变量矩阵X(由xi给出的线)和单位矩阵 在 中的级联,并且 是 的级联。这会导致回归问题,向量 的维数为n + p非常高。使用此公式,并尝试直接估算 是一个坏主意。 在[23]中通过实验说明了这一点,该结果表明在 上应用两种不同的LASSO惩罚会导致在连接向量上优于LASSO的过程。对于SLOPE而言,单独的处罚甚至更为重要,SLOPE的目标是其目的是控制FDR以恢复 。 直接在 上使用SLOPE会将 的条目混合在一起,由于X矩阵中协变量之间的相关性,因此几乎不可能进行FDR控制
2.2. Main contributions.
向量 是非负和非递增的,我们定义了向量的排序L1范数
其中, 在[5]和[6]中,排序L1范数被用作多元回归中系数的排序L1-惩罚估计(斜率)中的惩罚。当 都等于正常数时,斜率的退化情形为L1惩罚,当该常数为零时为零惩罚。考虑到以下优化问题,我们对β和u应用两种不同的坡度惩罚:
其中 为正参数,X是 协变量矩阵,对于行 , 是向量u的欧几里德范数, 是具有非递增和非负项的两个向量。
在本文中,我们提供 序列集,与先前已知的序列相比,它们可以获得更好的误差范围来估计 [23],请参见下面的第3节。 在第4节中,我们提供了在某些渐近状态下,导致用于 的支持选择的FDR的控制的特定序列,并且使得过程(2.3)的幂收敛到1。 因此,据我们所知,程序(2.3)是文献中提出的第一个稳健估计β、同时估计和检测异常值的程序,它控制了支持度选择u*和功率一致性的多重测试问题的FDR。
在第5节中,我们将我们的程序与这个问题的最新替代方案进行了比较,即IPOD程序[39]和扩展LOSSO程序[23]。在第5节中,进行数值实验确认第3节和第4节中的理论结果。如我们的数值实验所示,当异常值难以检测时,即当它们的大小与噪声水平相距不远时,其他程序不能保证FDR控制或显示出功率不足。特别值得注意的是,我们的程序克服了这个问题。
本文提出的理论结果基于压缩感知或其他稀疏性问题中的两个流行假设,类似于[23]中的假设:首先,关于X的受限特征值(RE)条件[30],然后是互不相关 X和In之间的假设[34]是自然的,因为它排除了无法区分X和In的列空间的设置。 第3节和第4节所述结果的证明在C节和D节中给出,而初步结果在A节和B节中给出。E节提供了补充的额外数值结果。
3. Upper bounds for the estimation of .
在本文中,n是样本量,而p是协变量的个数,因此 ,对于任何向量 分别表示u的非零坐标(也称为稀疏性)、L1范数和欧几里德范数。我们分别用 分别 表示 对称矩阵A的最小特征值和最大特征值
Assumption 3.1 . 我们假设以下稀疏性假设
对于一些正整数k和s,我们假设X的列是规范化的,即 其中ei表示规范基的第i个元素。
对于本节的结果, 我们考虑程序(2.3),选择
对于 ,我们考虑了 的三种可能性,对应于无惩罚、L1惩罚和SLOPE惩罚。
下表1给出了定理3.4、3.5和3.6中获得的 的平方L2估计误差平方收敛速度的快速视图。 我们还给出了在[23]中针对适用于 的L1惩罚的收敛速度。 特别是,我们看到使用两个SLOPE罚分比使用L1罚分会导致更好的收敛速度。 下面的条件3.2是适用于我们问题的受限特征值(RE)类型的条件。 已知这样的假设是强制性的,以便基于凸松弛原则[51]得出惩罚的快速收敛速率。
Condition 3.2.
考虑两个向量 是非递增的和正的,考虑正整数k,s,C0>0。我们定义了所有向量 的锥 满足:
我们也定义了所有向量 的锥 满足:
我们假设有常数 使X满足以下条件,对所有 或者所有
方程式(3.4)对应于我们不惩罚的特殊情况的回归系数,即 。还要注意,条件3.2包含
它实际上对应于 的RE条件,并且如果X满足常数 <1的RE条件,则满足等式(3.5)。最后,请注意,在这种情况下,方程(3.6)在压缩感测的文献中被称为互不相干,要求在所有上下文中以及从各个锥体出发,潜在回归预测变量X均未与潜在异常值完全对齐。 当 时,就会发生违反该假设的极端情况,在这种情况下,我们无法将回归系数与异常值区分开。
条件3.2相当温和,例如 适用于各种随机设计。具体来说,下面的定理3.3表明,只要X具有i.i.d个 行且 ,并且向量 都足够稀疏,则它很有可能成立。
Theorem 3.3.
设 为i.i.d 行且 的随机矩阵。设X为具有标准化列的相应矩阵。 给定正整数 ,则定义
如果 且
然后有 ,对于任何 ,我们有
概率大于 。 这些不等式也适用于任何 ,在上述条件下,当k被p替换时。
定理3.3的证明在附录C.1中给出。 它基于高斯随机矩阵的最新边界结果[36]。 定理3.3中的数值常数远非最优,为简单起见选择,以便假设3.2中要求 。 一个典型的例子 是Toeplitz矩阵 且 ,其中 等于 [36]。 n上要求的下限是非限制性的,因为k和s对应于 的稀疏度,通常比n小得多 。 还要注意, 仅用于低维,并且在这种情况下p再次比n小得多。
让我们为整个部分定义 ,其中 在假设3.2中定义。 下面的三个定理及其证明在本质上非常相似,但是在某些细节上有所不同,因此分别进行陈述和证明。
我们强调证明可以给出定理的一般形式,允许 具有包含 的任何给定支持,从而得到相同的结果。 这具有重要的理论意义,是进行4中研究的u *的支持检测的关键点。 证明对高斯 白 噪声与任何矢量之间的内积使用了最近的界, 涉及排序后的L1范数[8]。 我们的第一个结果处理了带有离群值的线性回归,并且没有关于 的稀疏假设。 我们考虑不对进行惩罚的过程(2.3),即
其中 由(2.2)给出,而权重 由(3.2)给出,且 。 下面的定理3.4表明,过程(3.7)的收敛速度确实是 ,如上表1所示。
Theorem 3.4.
假设满足假设3.1且k = p,并且X满足圆锥C(k1,s1,4)上的假设3.2,且 和 。然后,由(3.7)给出的估计量 满足:
概率大于
定理3.4的证明见附录C.2。 第二个结果涉及对 的稀疏性假设,并考虑了对的L1惩罚。我们考虑这次
其中, 是L1惩罚 的正则化水平 , 和 由(2.2)给出。如下定理3.5所示,程序(3.8)的收敛速度确实是 ,如上表1所示。
Theorem 3.5.
假设满足假设3.1,且在圆锥 上X满足假设3.2,其中 , 。假设 。然后,由(3.8)给出的估计量 满足
的概率大于
定理3.5的证明见附录C.4。第三个结果是 在 上使用SLOPE 获得,即
其中, 在(2.2)中给出
其中,
对于 .定理3.6,下面,表明由(3.9)提供的估计器实际上是 ,如所示在表1中。
Theorem 3.6.
假设满足假设3.1,且X满足锥 上的假设3.2,其中 , 。然后,由(3.9)给出的估计量 满足
的概率大于 ,其中
定理3.6的证明见附录C.4。注意,根据定理3.3,定理3.6的假设满足如下条件:当X的行是多元高斯分布的i.i.d,且协方差矩阵为正时,以及当信号稀疏时,使得 ,则概率收敛为1。
4. Asymptotic FDR control and power for the selection of the support of (渐近FDR控制与 的支持度选择 )
我们考虑假设为零的多重检验问题:
对于 ,当 时,我们考虑在任何时候拒绝 的多重测试 ,其中 由(3.7),(3.8)或(3.9)给出。当 “被拒绝或发现”,我们认为样本i是一个异常值。 不过,请注意,在本例中, 的值提供了有关我要使用多少样本的额外信息
我们使用FDR作为这个多测试问题的标准I型错误[4]。 FDR是 所有发现中的错误发现。 让V(负责。R) 是错误拒绝的数量(分别为。拒绝次数),FDR被定义为
对于这个多测试问题,我们使用Power来测量II型误差。 Power是对真实发现比例的期望。 定义如下
II型误差由 给出。
对于没有离群值的线性回归模型, [5]和[6]中给出了基于SLOPE的控制FDR的 支持 选择的多个试验。特别地,它显示了带权重的SLOPE
对于 , 其中 是 和 的累积分布函数, 用正交设计矩阵 控制多元回归问题中q级的FDR 。还观察到,当X的列不是正交的但独立的时,必须大幅度增加权重以保证FDR控制。这一效应是由X列和真非零系数收缩之间的随机相关性造成的,在套索的背景下,在[41]中已经进行了深入的讨论。
在本文中 我们实质性地扩展了目前关于FDR控制SLOPE特性的结果。具体地说,下面的定理4.1给出了程序(3.7),(3.8)和(3.9)的FDR 的渐近控制,即对和施加SLOPE的不同惩罚,权重略有增加
其中 >0,另见[42]。 这种选择也会产生最优收敛速度,但是在第3节中考虑它会导致一些额外的技术困难。 在对 、信号稀疏性和异常值大小的适当假设下,定理4.1不仅给出了FDR控制,而且证明了 Power 实际上是1。
请注意, 这里考虑的所有渐近性都与样本大小n有关,即语句 表示 和 。
Theorem 4.1
假设有一常数,使矩阵X满足 并且假设 , ,假设 ,然后考虑 给出的 和( 4.4)给出的 ,
对于程序(3.7),假设与定理3.4相同,并且
对于程序(3.8),假设与定理3.5相同,并且
对于程序(3.9),假设与定理3.6相同,并且
然后,下列性质成立:
定理4.1的证明在附录D中给出。它依赖于仔细研究KKT条件,也被称为双证明方法[32]或预解方法[42]。定理4.1的假设是自然的。例如,当X为高斯分布时,X项的有界性假设通常满足大概率。当 ,这也是很自然的假设 (让我们回顾一下,s代表样本异常值 的稀疏性)。渐近假设大致要求表1中的速率收敛到零。最后,关于 的非零项的大小的假设是不可避免的,因为它允许区分异常值和高斯噪声。我们强调,如第5.2节所示,良好的数值性能实际上是以较低的震级获得的。
5. Numerical experiments.
在本节中,我们将说明过程(3.7)和过程(3.9)在模拟和实词数据集上的性能,并将它们与下面描述的几种最新基线进行比较。实验是使用开放源代码tick库完成的,该库位于https://x-datainitiative.github.io/tick/,允许复制我们的实验的笔记本可以按需提供给作者。
5.1. Considered procedures.
我们考虑以下baseline,包括文献中关于离群点检测和回归系数估计联合问题的最佳方法,以及本文介绍的方法。
E-SLOPE. 这是程序(3.9)。两种斜坡惩罚中使用的权重由(4.3)给出,q=5%(目标FDR),但在低维设置中,我们不对β应用任何惩罚。q=10%和q=20%的类似结果见附录E。
E-LASSO. 这是来自[23]的扩展LOSSO,它使用两个专门的L1惩罚,分别为 使用各自的调谐参数
IPOD. 这是[39]中的(软)IPOD。它依赖于一个很好的技巧,基于X的QR分解。实际上,将X=QR写入,并让P由 列向量构成,将Q的列向量完整地转化为正交基 ,并介绍 。模型(2.1)可以重写为 一个新的高维线性模型,其中只有 是要被估计的。然后,IPOD考虑了应用于该线性模型的LOSSO程序,并使用BIC准则选择L1惩罚的调谐参数。注意,这个过程包括QR分解, 对于X,只有p显著小于n才有意义,因此我们不报告IPOD在模拟大p的情况下的性能。
LassoCV. 与IPOD相同,但具有用于惩罚通过交叉验证选择的单个截获的调整参数。如上所述, 在所考虑的模型中,交叉验证注定会失败,但为了完整起见,给出了结果。
SLOPE. 它是应用于连接问题的SLOPE,即y= ,其中Z是X和 与的连接, 是的连接吗 。我们在 上使用单SLOPE惩罚,权重等于(4.3)。我们只在高维实验中报告这个过程的性能,因为它总是会惩罚。这被认为主要是为了说明这样一个事实,即处理连锁问题确实是一个坏主意,必须对和使用两种不同的惩罚。
注意,IPOD和E-LASSO的区别在于在[23]中,E-LASSO用来惩罚u(和高维的β)的权重是固定的,而IPOD中的权重是数据相关的。另一个区别是IPOD不能很好地扩展到高维设置,因为它的自然扩展(在[39]中考虑)是一个阈值规则,关于连接问题,如前所述,如我们的数值实验所示,表现不佳。另一个问题,对于高维问题,文献[39]中提出的修正BIC准则没有明确的推广。
上述程序中的斜率或L1惩罚的调整需要了解噪声级。我们只需插入(4.3)或在需要对方差进行稳健估计的地方就可以克服这个问题:我们首先建立一个Huber回归模型,然后应用稳健估计
其残差的方差。我们实验中考虑的所有步骤使用相同的方差估计。
Remark 5.1 .
由于在我们的模拟中p<n,所以可以通过Huber回归直接估计噪声水平。当p可比或大于n且信号( )非常稀疏时,可以按照比例LOSSO的精神联合估计噪声水平和其他模型参数[43]。文[5]在高维独立回归的背景下,提出并研究了相应的SLOPE。然而,我们认为在超高维环境下最优估计量的选择问题仍然需要单独的研究,我们推迟了进一步的研究。
5.2. Simulation settings.
将矩阵X模拟为i.i.d行分布为 的矩阵,Toeplitz协方差 为 ,中等相关 。附录E给出了一些相关系数 的结果。X的列被标准化为1。我们根据 的模型(2.1)模拟了n=5000个观测值。u*考虑了两个震级:低震级,其中 和 ,其中 。在基于模拟数据集的所有报告结果中, 的稀疏性在1%到50%之间变化,我们显示了FDR、MSE和Power超过100次复制。
Setting 1 (low-dimension).
这是上面描述的设置,p=20。
Setting 2 (high-dimension)
这是上面描述的设置,p=1000, 和 稀疏β,稀疏性k=50,非零项均匀随机选取。
5.3. Metrics.
在我们的实验中,我们报告了“MSE系数”,即 型, 而“MSE截获”,即 号。我们还报告了FDR(4.1)和幂(4.2)来评估异常值检测问题的过程,其中期望值通过100多次模拟的平均值来近似。
5.4. Results and conclusions on simulated datasets.
- 我们对下面图1、2和3中提供的显示进行了评论。在模拟设置2中,我们只显示低震级情况下的结果,因为这是最具挑战性的情况。
- 在图1和图2中,LassoCV是非常不稳定的,因为 交叉验证在考虑的设置中不起作用:由于异常值的显著数量,数据拆分高度非平稳。
- 在低维环境下,我们的程序E-SLOPE允许几乎完美的FDR控制,其MSE是所有考虑方法中最小的。注意,在这个设置中,MSE是在减去估计器之后绘制的,对选定的支持执行普通最小二乘法。 在稀疏的(β)高维背景下,使用相关回归函数, E-SLOPE允许将FDR保持在标称水平以下,即使异常值占总数据点的50%。它还允许保持小的MSE和高功率。唯一一个改善u的E-SLOPE的方法是图3中的SLOPE,代价是更差的FDR控制
- 与之前相比,E-SLOPE提供了巨大的Power增益 在异常值难以检测的情况下,最先进的程序(Power增加30%以上)。
5.5. PGA/LPGA dataset.
此数据集包含2008年PGA和LPGA球员的射程和准确度。这将使我们能够直观地比较IPOD、E-LASSO和E-SLOPE的性能。我们的数据包含197个对应于PGA(男子)球员的点,其中我们添加了8个对应于LPGA(女子)球员的点,注入异常值。我们在 上使用SLOPE和LASSO,并有几个等级的惩罚。这导致了图4顶部图表中给出的“正则化路径”,该图显示了205个样本截获量 的值,它是SLOPE和LASSO中使用的惩罚级别的函数。垂直线表示根据相应方法(E-SLOPE、E-LASSO、IPOD)选择参数。我们观察到E-SLOPE正确地发现了异常值(女性数据),以及从散点图来看可以被视为异常值的两个男性数据。IPOD程序做得很好,没有错误发现,但是漏掉了一些真正的异常值(女性数据)和E-SLOPE检测到的可疑点。电子套索没有任何错误的发现,但清楚地显示出缺乏力量,只有一个发现。
图1:模拟设置1的高震级异常值结果。第一行给出异常值发现所考虑的每个过程的FDR(左)和幂(右)。第二行给出回归(左)和截取(右)的MSE。E-SLOPE提供完美的功率,是唯一一个尊重所需的FDR,并提供最好的MSEs。
图2:低震级异常值的模拟设置1的结果。第一行给出每个考虑的过程的FDR(左)和power(右),对于异常发现。第二行给出回归(左)和截取(右)的MSE。再次,E-SLOPE几乎提供了最佳功率,但却是唯一一个尊重所需FDR并提供最佳mse的。
图3:低震级异常值的模拟设置2的结果。第一行给出每个考虑的过程的FDR(左)和power(右)对于异常发现。第二行给出回归(左)和截取(右)的MSE。再次,E-SLOPE几乎提供了最佳功率,但却是唯一一个尊重所需FDR的功率。它为离群值估计提供了最佳的均方误差,并且在回归估计方面具有竞争力。由于本实验所考虑的模拟设定比较困难,当离群值数目较大时,所有程序的均方误差都很小:低值离群值和高维。
图4:PGA/LPGA数据集:顶部图显示了这两种处罚的规则化路径,左下方图是数据的散点图,颜色点对应于E-SLOPE的发现,右下方图显示了原始数据和真正的异常值
5.6. Retail Sales Data.
这个数据集来自美国人口普查局,1992年。其中包含的信息是845个美国县的人均零售额(1000美元)。它还包含5个协变量:人均零售机构、人均收入(以1000美元计)、人均联邦支出(以1000美元计)和每100名女性的男性人数。没有异常值是已知的,因此我们通常通过在随机选择的县的零售额中添加少量(8级,随机符号)来创建异常值。我们考虑了各种情况(异常值的1%-20%),并计算了错误发现的比例和功率。下面的图5总结了这三个过程的结果。
研究结果与E-SLOPE能够发现比竞争对手更多的异常值这一事实是一致的。E-SLOPE的功率最高,FDP保持在目标水平以下
图5:左:错误发现比例, “E-SLOPE”保持在目标水平以下;右图:power,E-SLOPE表现优于竞争对手。
5.7. Colorectal Cancer Data.
我们考虑47例原发性结直肠癌的全外显子序列数据,其特征是影响重复DNA序列的全球基因组不稳定性(也称为微卫星不稳定肿瘤,见[16])。在下面的内容中,我们将自己限制在重复序列中,其基序为单核苷酸A,并且位于uence基因表达(UTR3)的调控区(在编码区之后)。相同的分析可以在不同的基序和不同的区域(外显子,内显子)进行。最近的出版物(见[44])表明,序列突变的概率取决于重复的长度。因此,我们拟合,经过重新缩放的probit变换,我们的均值漂移模型以截距和重复的长度为协变量。分析的目的是找出两类序列:幸存者(突变低于预期的多个卫星)和转化者(突变高于预期的多个卫星),认为这些序列必须在癌症发展中发挥关键作用。
我们将FDR水平乘以 ,结果如图6所示:蓝点是47个肿瘤中每个基因的突变频率,标绘为相应基因重复长度的函数,我们的发现以红色高亮显示。
我们有37个发现, 特别值得注意的是,我们的程序同时选择了“明显”的异常值和更具“挑战性”的观测值,这些观测值可以用肉眼进行讨论。我们还强调,在前段所述的IPOD程序和套索程序中,分别有32个和22个发现,这意味着即使在如此严格的FDR水平下,我们的程序允许我们比IPOD多出约16%的发现。
图6:结直肠癌数据:E-SLOPE的37个发现,即我们的程序认为是转化子或突变子的序列(详见正文)。该程序选择“明显的”和更具“挑战性的”眼睛观察。IPOD和Lasso程序只导致了32和22个发现,尽管我们将E斜率限制在5%的严格FDR水平
6. Conclusion.
本文提出了一种新的线性回归模型同时进行稳健估计和离群点检测的方法。 给出了三个主要结果:估计问题的最优界 在第3节中,这特别改进了先前通过LASSO惩罚[23]获得的结果,以及第4节中异常值检测问题的渐近FDR控制和功率一致性。据我们所知,这是这方面涉及到FDR控制的第一个结果。
我们的理论基础建立在对真实数据集和合成数据集的深入实验的基础上, 在保持对FDR的控制的同时,即使在诸如低震级异常值、高维设置和高度相关特征等具有挑战性的情况下,我们的程序在功率方面也优于现有的程序。
最后,这项工作扩展了对 SLOPE惩罚和FDR控制,以前在线性回归中研究过,具有正交[5]或i.i.d高斯[42]特征,区别于其他流行的凸惩罚方法。
这篇关于HIGH-DIMENSIONAL ROBUST REGRESSION AND OUTLIERS DETECTION WITH SLOPE 论文翻译的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!