Logistic Regression -- 单自变量

2023-10-18 22:59

本文主要是介绍Logistic Regression -- 单自变量,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Why

传统的回归过程如线性回归解决的是 Y 为连续实数的情况。Logistic 回归是解决离散的分类问题,换句话说,要求Y是0或者1。
名字来自于指数分布家族中的Logistic 分布。

What

我们处理的是0-1分类问题. 输入n个样本, 第 i 个样本为Xi,Yi. Xi 是有限的离散空间, Yi 0 1. 当 X=xi , Yi=1 发生的概率为 P(Yi=1|Xi=xi;β) . 让 pi=P(Yi=1|Xi=xi;β) , 则 1pi=P(Yi=0|Xi=xi;β) π(xi)=E(Yi|Xi;β)=pi=F(zi) . zi 是以 β 为参数的有关 Xi 的函数. 我们知道这是伯努利分布 YiB(1,p) , F(zi)=pi 是累计分布函数.
让它更具体一些, 设 pi=P(Yi=1|Xi=xi;β)=ezi1+ezi=F(zi) 。具体针对回归问题来说,假设model是最简单的对X线性的Logistic regression, 则 Y=1 事件发生的概率/比例/proportion为 p=P(Y=1|X=x;β)=ez1+ez[0,1]z=log(p1p)=β0+β1x. F(Z)=p 形状是从0到1的S型.
通过 p 寻找z的过程也叫做logit变换( logit(p)=lnp1p ), 得出的 z=β0+β1x 毫无疑问是一条直线。所以Logistic regression 用一条直线来拟合做过logit变换后的proportion。 得出直线后我们再带入 xi p 即可做prediction了. 我们再对输出pi取一个阀值(e.g. 0.5), 当 p0.5 Yi 是0, 反之为1.

注: 其实不局限于用直线做拟合`, 只要是linear in parameters 的linear regression即可.

How

例子

图中所示为某城市心脏病数据。
这里写图片描述
左手边列表示年龄段,右手边表对应年龄段中有心脏病的比例(占样本中的)。能看到随着年龄增长心脏病比例也相应增高.
π(X)=p 表年龄为 X 的人口中有心脏病的所占比例,取年龄段中点为该年龄段的代表年龄。以π(X)为数轴, X 为横轴作图能看到呈S型(见下图), 因此我们可以考虑用Logistic Regression做拟合, 即用直线β0+β1X对做了Logit变换后的 π(X) 建模. 这种模型叫做”Logistic Linear Model”.
这里写图片描述
当我们找出合适的直线后, 对要预测的 X 带入π(X)=exp(β0+β1X)/[1+exp(β0+β1X)]即是我们想要的预测值.

比如我们算得 β08.467,β

这篇关于Logistic Regression -- 单自变量的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/235659

相关文章

perl的学习记录——仿真regression

1 记录的背景 之前只知道有这个强大语言的存在,但一直侥幸自己应该不会用到它,所以一直没有开始学习。然而人生这么长,怎就确定自己不会用到呢? 这次要搭建一个可以自动跑完所有case并且打印每个case的pass信息到指定的文件中。从而减轻手动跑仿真,手动查看log信息的重复无效低质量的操作。下面简单记录下自己的思路并贴出自己的代码,方便自己以后使用和修正。 2 思路整理 作为一个IC d

【ML--04】第四课 logistic回归

1、什么是逻辑回归? 当要预测的y值不是连续的实数(连续变量),而是定性变量(离散变量),例如某个客户是否购买某件商品,这时线性回归模型不能直接作用,我们就需要用到logistic模型。 逻辑回归是一种分类的算法,它用给定的输入变量(X)来预测二元的结果(Y)(1/0,是/不是,真/假)。我们一般用虚拟变量来表示二元/类别结果。你可以把逻辑回归看成一种特殊的线性回归,只是因为最后的结果是类别变

Spark MLlib模型训练—回归算法 Linear regression

Spark MLlib模型训练—回归算法 Linear regression 线性回归是回归分析中最基础且应用广泛的一种方法。它用于建模目标变量和一个或多个自变量之间的关系。随着大数据时代的到来,使用像 Spark 这样的分布式计算框架进行大规模数据处理和建模变得尤为重要。本文将全面解析 Spark 中的线性回归算法,介绍其原理、参数、Scala 实现、代码解读、结果分析以及实际应用场景。 1

Spark MLlib模型训练—回归算法 GLR( Generalized Linear Regression)

Spark MLlib模型训练—回归算法 GLR( Generalized Linear Regression) 在大数据分析中,线性回归虽然常用,但在许多实际场景中,目标变量和特征之间的关系并非线性,这时广义线性回归(Generalized Linear Regression, GLR)便应运而生。GLR 是线性回归的扩展,能够处理非正态分布的目标变量,广泛用于分类、回归以及其他统计建模任务。

NumPy实现logistic回归

1.sklearn实现 import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport osimport sysfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import Standard

regression and anova

regression一般是统计学的回归 回归,研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法.研究一 个或多个随机变量Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法.又称多重回归分析.通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量.回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊

机器学习—线性回归算法(Linear Regression)

目录 一、基本概念二、线性回归简单分类与模型三、线性回归的关键步骤四、线性回归问题分析五、线性回归问题的解法1、最小二乘法2、梯度下降法 六、线性回归中的过拟合与欠拟合1、过拟合1、岭回归(Ridge Regression)2、套索回归 (Lasso回归)(Lasso Regression)3、弹性网(Elastic Net) 2、欠拟合 七、线性回归中的超参数与模型评估方法1、超参数(Hy

logstic regression

李宏毅的ppt:http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/Logistic%20Regression%20(v3).pdf

初学logistic回归

一、简介   假设现在有一些数据点,我们用一条直线对这些点进行拟合,这个拟合的过程就称作回归。Logistic回归的主要思想是:根据现有数据对分类边界线建立回归方式,以此进行分类。这是一个二值型输出分类器。由于需要进行距离计算,以此要求数据类型为数值型。 二、基本思想   我们想要的函数是能够接受所有的输入然后预测出类别。我们此处用的函数是Sigmoid函数,Sigmoid函数具体的计算方式

LR(Logistic Regression)算法详解

Logistic Regression本质上还是Linear Regression的一种,只是用了一个Logistic Function将线性回归的连续值映射到了 { 0 , 1 } \{0, 1\} {0,1}空间。因此Linear Regression只能对具有线性边界的分类问题有很好的预测效果,对于非线性的边界是无能为力的。至于下面这张很经典的大家常用的图,只是做了一个feature map