Why is L1 regularization supposed to lead to sparsity than L2?

2024-06-14 12:32

本文主要是介绍Why is L1 regularization supposed to lead to sparsity than L2?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Just because of its geometric shape:

Here is some intentionally non-rigorous intuition: suppose you have a linear system Ax=b for which you know there exists a sparse solution x , and that you want to get at x by solving the optimization problem minx1 subject to Ax=b . All solutions to the linear system can be expressed as x+v where v is any vector in the null space of A . You can think of the optimization problem as expanding the 1 ball until it intersects the subspace {x+v} and then returning any point in the intersection (this is guaranteed to have minimal cost w.r.t. the x1 objective function). But recall that the 1 ball looks roughly like a diamond! Intuitively, this means that as you expand the 1 ball, the only way to get a non-sparse solution when the ball intersects the solution subspace is for the “side” of the diamond to touch the subspace. But this only happens if the subspace is parallel to the ball, which happens with very low probability, so the solution will almost certainly be sparse (of course, if the ball is an actual ball from the 2 objective, then this argument doesn’t apply).

Consider an optimization problem:
min J(x) subject to Ax=b.
(Ax=b is a system of equations. by this system we include the data samples in our formulation)

if you use L0 norm instead of J(x), you'll get the sparse solution.
but L0 norm is not convex. that means it leads to hard optimization problem.

one may want to use Lp norm (0<p<1). Lp norm is also generates sparse solution,though it is not convex. To understand why L1 norm leads to sparse solution, it may be helpful to see the following graph that shows the behavior of the kernel of the norms:


as p tends to zero, |x|^p approaches the indicator function, which is zero for x=0 and 1 elsewhere.

L1 is the tightest surrogate of L0 that leads to sparse solution and it is convex. so, one can use convex opt tools to solve the optimization problem.

这篇关于Why is L1 regularization supposed to lead to sparsity than L2?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1060411

相关文章

【机器学习 sklearn】模型正则化L1-Lasso,L2-Ridge

#coding:utf-8from __future__ import divisionimport sysreload(sys)sys.setdefaultencoding('utf-8')import timestart_time = time.time()import pandas as pd# 输入训练样本的特征以及目标值,分别存储在变量X_train与y_train之中。

AI基础 L1 Introduction to Artificial Intelligence

什么是AI Chinese Room Thought Experiment 关于“强人工智能”的观点,即认为只要一个系统在行为上表现得像有意识,那么它就真的具有理解能力。  实验内容如下: 假设有一个不懂中文的英语说话者被关在一个房间里。房间里有一本用英文写的中文使用手册,可以指导他如何处理中文符号。当外面的中文母语者通过一个小窗口传递给房间里的人一些用中文写的问题时,房间里的人能够依

【Python机器学习】核心数、进程、线程、超线程、L1、L2、L3级缓存

如何知道自己电脑的CPU是几核的,打开任务管理器(同时按下:Esc键、SHIFT键、CTRL键) 然后,点击任务管理器左上角的性能选项,观察右下角中的内核:后面的数字,就是你CPU的核心数,下图中我的是16个核心的。 需要注意的是,下面的逻辑处理器:32 表示支持 32 线程(即超线程技术) 图中的进程:和线程:后面的数字代表什么 在你上传的图片中,“进程:180” 和 “线程:3251”

ASTER L2 表面反射率 SWIR 和 ASTER L2 表面反射率 VNIR V003

ASTER L2 Surface Reflectance SWIR and ASTER L2 Surface Reflectance VNIR V003 ASTER L2 表面反射率 SWIR 和 ASTER L2 表面反射率 VNIR V003 简介 ASTER 表面反射率 VNIR 和 SWIR (AST_07) 数据产品 (https://lpdaac.usgs.gov/documen

NASA:ASTER L2 表面辐射率(E(辐射率)和 T(地表温度)) V003数据集

ASTER L2 Surface Emissivity V003 ASTER L2 表面辐射率 V003 简介 ASTER L2 地表发射率是一种按需生成的产品((https://lpdaac.usgs.gov/documents/996/ASTER_Earthdata_Search_Order_Instructions.pdf)),利用 8 至 12 µm 光谱范围内的五个热红外(TIR)

Python 3.6 api-ms-win-crt-runtime-l1-1-0.dll丢失

问题: Python 3.6安装或者运行时出现丢失api-ms-win-crt-runtime-l1-1-0.dll异常: 解决办法: 下载安装VC运行库即可。 地址:https://www.microsoft.com/zh-cn/download/details.aspx?id=48145&e6b34bbe-475b-1abd-2c51-b5034bcdd6d2=True 点击

【Arm Cortex-X925】 -【第九章】-L2 内存系统

9. L2 内存系统 Cortex®-X925 核心的 L2 内存系统通过 CPU 桥接器将核心与 DynamIQ™ Shared Unit-120 连接。它包括私有的 L2 缓存。 L2 缓存是统一的,并且对集群中的每个 Cortex®-X925 核心都是私有的。 以下表格显示了 L2 内存系统的特点。 9.1 L2 缓存 集成的 L2 缓存处理来自指令和数据侧的指令和数据请求,以及

PTA L1-037 A除以B

L1-037 A除以B(10分) 真的是简单题哈 —— 给定两个绝对值不超过100的整数A和B,要求你按照“A/B=商”的格式输出结果。 输入格式: 输入在第一行给出两个整数A和B(−100≤A,B≤100),数字间以空格分隔。 输出格式: 在一行中输出结果:如果分母是正数,则输出“A/B=商”;如果分母是负数,则要用括号把分母括起来输出;如果分母为零,则输出的商应为Error。输出的商

【Arm Cortex-X925】 -【第七章】-L1 指令内存系统

7. L1 指令内存系统 Cortex-X925 核心的 L1 指令内存系统负责提取指令和预测分支。它包括 L1 指令缓存和 L1 指令转换后备缓冲区 (TLB)。L1 指令内存系统向解码器提供指令流。为了提高整体性能和降低功耗,L1 指令内存系统采用了动态分支预测和指令缓存技术。 下表显示了 L1 指令内存系统的特点。 注意 L1 指令 TLB 也位于 L1 指令内存系统中。然而,它是

c++ int n1 = l1 ? l1 ->val:0;三元运算符语句解释

这行 C++ 代码 int n1 = l1 ? l1->val : 0; 使用了三元运算符(也称为条件运算符),其基本语法是: condition ? expression_if_true : expression_if_false; 代码解析 条件判断: l1 是一个指针或对象。三元运算符的条件部分是 l1,这表示如果 l1 指向有效的对象(即 l1 不为 nullptr),条件为真;