分类的线性模型:概率判别式模型之逻辑回归LR

2023-10-16 05:50

本文主要是介绍分类的线性模型:概率判别式模型之逻辑回归LR,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

http://blog.csdn.net/pipisorry/article/details/78831441

逻辑回归Logistic Regression

逻辑回归是一种线性分类模型,而不是回归模型。也就是说,输入的因变量target y是离散值,如分类类别1,0等等,而不是连续型的数据。

判别式训练的⼀种形式:在直接⽅法中,我们最⼤化由条件概率分布p(Ck j x)定义的似然函数。判别式⽅法的⼀个优点是通常有更少的可调节参数需要确定。并且预测表现也会提升,尤其是当类条件概率密度的假设没有很好地近似真实的分布的时候更是如此。

分类问题不用回归来做是因为使用回归对异常点会相当敏感。[Machine Learning - VI. Logistic Regression逻辑回归 (Week 3) ]

⾮线性变换:固定基函数

⾸先使⽤⼀个基函数向量ϕ(x)对输⼊变量进⾏⼀个固定的⾮线性变换。最终的决策边界在特征空间ϕ中是线性的,因此对应于原始x空间中的⾮线性决策边界。在特征空间ϕ(x)线性可分的类别未必在原始的观测空间x中线性可分。

对于许多实际问题来说,类条件概率密度p(x j Ck)之间有着相当⼤的重叠。这表明⾄少对于某些x的值,后验概率p(Ck j x)不等于0或1。在这种情况下,最优解可以通过下⾯的⽅式获得:对后验概率精确建模,然后使⽤第1章中讨论的标准的决策论。需要注意的是,⾮线性变换ϕ(x)不会消除这些重叠。实际上,这些变换会增加重叠的程度,或者在原始观测空间中不存在重叠的地⽅产⽣出新的重叠。然⽽,恰当地选择⾮线性变换能够让后验概率的建模过程更简单。

某小皮

 

 

逻辑回归Hypothese(二元)

⽣成式⽅法的讨论中,我们看到在⼀些相当⼀般的假设条件(指数族分布)下,类别C1的后验概率可以写成作⽤在特征向量ϕ的线性函数上的logistic sigmoid函数的形式,即

Hypothese:

σ(·)是logistic sigmoid函数:

其导数:

 

sigmoid 原函数及导数图形如下:

[Sigmod/Softmax变换]

对于⼀个M维特征空间ϕ,这个模型有M个可调节参数。logistic回归⽅法参数数量M是线性依赖的。

逻辑回归形式的由来:

从分类的生成式模型中可以看出,对于⼀⼤类的类条件概率密度p(x j Ck)的选择,类别C1后验概率分布可以写成作⽤于x的线性函数上的logistic sigmoid函数的形式。类似地,对于多分类的情形,类别Ck的后验概率由x的线性函数的softmax变换给出。

其它可能原因:

1 预测的是离散的类label,或者预测位于[0,1]区间的后验概率分布。所以加上非线性函数(激活函数,如sigmod)对θ的线性函数进行变换。

2 sigmoid使预测位于[0,1],使用newton迭代求参时,Hessian矩阵正定,这样误差函数是参数的凸函数,从而具有唯一解。

3 求导方便;函数光滑什么的。广义线性?

4 根据上图,可能是可以将0-1分类更好区分,如预测4.6时就基本接近1了,loss不会有什么惩罚。感觉就像是svm只关注支持向量一般(只是LR还以小概率关注了非支持向量)。

LR的误差函数

最⼤似然MLE⽅法确定logistic回归参数

对于⼀个数据集ϕn, tn,其中tn ∈ {0;1}且ϕn = ϕ(xn),并且n = 1, ..., N,似然函数可以写成

其中t = (t1, ...,tN)T 且yn = p(C1 | ϕn)。

另一种由来参考[对数线性模型:逻辑斯谛回归和最大熵模型]

交叉熵( cross-entropy)误差函数

由来:通过取似然函数的负对数的⽅式,定义⼀个误差函数。这种⽅式产⽣了交叉熵( cross-entropy)误差函数:

其中yn = σ(an)且an = wT ϕn。两侧关于w取误差函数的梯度,我们有

对数似然函数的梯度的形式⼗分简单。特别地,数据点n对梯度的贡献为⽬标值和模型预测值之间的“误差”yn − tn与基函数向量ϕn相乘。函数形式与线性回归模型中的平⽅和误差函数的梯度的函数形式完全相同。

MLE方法解LR的缺陷

正则化和欠约束:机器学习中许多线性模型,包括线性回归和 PCA,都依赖于求逆矩阵 s⊤s。只要 s⊤s 是奇异的这就是不可能的。每当数据生成分布的一些方向上确实没有差异时,或因为例子较少(即相对输入特征( s 的列)来说)而在一些方向没有观察到方差,这个矩阵就是奇异的。在这种情况下, 正则化的许多形式对应于求逆 s⊤s + αA。这个正则化矩阵可以保证是可逆的。

相关矩阵可逆时,这些线性问题有闭式解。没有闭式解的问题也可能是欠定的。一个例子是应用于线性可分问题的逻辑回归。如果权重向量 r 能够实现完美分类,那么 2r 也会以较高似然实现完美分类。类似随机梯度下降的迭代优化算法将持续增加 r 的大小,理论上永远不会停止。在实践中,数值实现的梯度下降最终会达到导致数值溢出的超大权重,此时的行为将取决于程序员如何处理这些不是真正数字的值。

[深度学习]

最⼤似然⽅法对于线性可分的数据集会产⽣严重的过拟合现象。这是由于最⼤似然解出现在超平⾯对应于σ = 0.5的情况,它等价于wT ϕ = 0。最⼤似然解把数据集分成了两类,并且w的⼤⼩趋向于⽆穷⼤(lz: 为了使最大似然更大)。这种情况下, logistic sigmoid函数在特征空间中变得⾮常陡峭,对应于⼀个跳变的阶梯函数,使得每⼀个来⾃类别k的训练数据都被赋予⼀个后验概率p(Ck j x) = 1。此外,通常这些解之间存在连续性,因为任何切分超平⾯都会造成训练数据点中同样的后验概率,正如图10.13。最⼤似然⽅法⽆法区分某个解优于另⼀个解,并且在实际应⽤中哪个解被找到将会依赖于优化算法的选择和参数的初始化

注意,即使与模型的参数相⽐数据点的数量很多,只要数据是线性可分的,这个问题就会出现。通过引⼊先验概率,然后寻找w的MAP解,或者等价地,通过给误差函数增加⼀个正则化项,这种奇异性就可以被避免。

[PRML]

 

LR的参数学习

误差函数是凸函数,因此有⼀个唯⼀的最⼩值。

梯度下降法

参考[Machine Learning - VI. Logistic Regression逻辑回归 (Week 3) ]

迭代重加权最⼩平⽅(IRLS,iterative reweighted least squares)

Newton-Raphson迭代最优化框架,使⽤了对数似然函数的局部⼆次近似。lz:应该就是牛顿迭代法在LR学习上的应用吧。

权值的更新的形式

H是⼀个Hessian矩阵,它的元素由E(w)关于w的⼆阶导数组成。

把Newton-Raphson更新应⽤到logistic回归模型的交叉熵误差函数上。误差函数的梯度和Hessian矩阵为

我们引⼊了⼀个N × N的对⾓矩阵R,元素为Rnn = yn(1 − yn) 。我们看到Hessian矩阵不再是常量,⽽是通过权矩阵R依赖于w。这对应于误差函数不是⼆次函数的事实。使⽤性质0 < yn < 1(这个性质来⾃于logistic sigmoid函数形式),我们看到对于任意向量u都有uT Hu > 0,因此Hessian矩阵H是正定的。因此误差函数是w的⼀个凸函数,从⽽有唯⼀的最⼩值。

这样, logistic回归模型的Newton-Raphson更新公式就变成了

由于权矩阵R不是常量,⽽是依赖于参数向量w,因此我们必须迭代地应⽤规范⽅程,每次使⽤新的权向量w计算⼀个修正的权矩阵R(与加权的最⼩平⽅问题⼀样,对⾓矩阵R可以看成⽅差)。由于这个原因,这个算法被称为迭代重加权最⼩平⽅( iterative reweighted least squares),或者简称为IRLS( Rubin, 1983)。

某小皮

 

 

多类logistic回归

后验概率由特征变量的线性函数的softmax变换给出

使⽤最⼤似然⽅法直接确定这个模型中的参数fwkg

似然函数

使⽤“1-of-K”表达⽅式。这种表达⽅式中,属于类别Ck的特征向量ϕk的⽬标向量tn是⼀个⼆元向量,这个向量的第k个元素等于1,其余元素都等于0。从⽽,似然函数为

其中ynk = yk(ϕn), T 是⽬标变量的⼀个N × K的矩阵,元素为tnk。取负对数,可得多分类问题的交叉熵( cross-entropy)误差函数:



误差函数关于参数向量wj的梯度

又⼀次看到了梯度的这种函数形式,即误差(ynj − tnj)与基函数ϕn的乘积。这种梯度形式在线性模型的平⽅和误差函数以及logistic回归模型的误差函数中都出现过。和之前⼀样,我们可以将这个公式⽤于顺序算法。

可以使⽤Newton-Raphson更新来获得多类问题的对应的IRLS算法

[参考[Machine Learning - VI. Logistic Regression逻辑回归 (Week 3) ]]

 

代码实现

[【DL笔记3】一步步用python实现Logistic回归]

from: http://blog.csdn.net/pipisorry/article/details/78831441

ref: [PRML]

Logistic回归深入理解指南《Guide to an in-depth understanding of logistic regression》by Kevin Markham

Logic of Logistic Regression

Logistic Regression

 

这篇关于分类的线性模型:概率判别式模型之逻辑回归LR的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/219465

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

hdu4865(概率DP)

题意:已知前一天和今天的天气概率,某天的天气概率和叶子的潮湿程度的概率,n天叶子的湿度,求n天最有可能的天气情况。 思路:概率DP,dp[i][j]表示第i天天气为j的概率,状态转移如下:dp[i][j] = max(dp[i][j, dp[i-1][k]*table2[k][j]*table1[j][col] )  代码如下: #include <stdio.h>#include

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言