generalized Linear Models

2023-12-20 15:38
文章标签 linear models generalized

本文主要是介绍generalized Linear Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对最大熵模型的学习总结。本篇介绍的大纲如下:

1、逻辑斯蒂分布,logit转换

2、在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归?

3、逻辑回归模型的求解过程?

4、实际应用逻辑回归时数据预处理的经验总结。但经验有限,如果有哪位网友这块经验丰富,忘指教,先谢过

5、为什么我们在实际中,经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数

6、从最根本的广义线性模型角度,导出经典线性模型以及逻辑回归


1、逻辑斯蒂分布,logit转换

 一个连续随机变量X,如果它的分布函数形式如下,则X服从逻辑斯蒂分布,F(x)的值在0~1之间,它的的图形是一条S型曲线

2、在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归?

      线性回归用于二分类时,首先想到下面这种形式,p是属于类别的概率:

     

      但是这时存在的问题是:

      1)等式两边的取值范围不同,右边是负无穷到正无穷,左边是[0,1],这个分类模型的存在问题

      2)实际中的很多问题,都是当x很小或很大时,对于因变量P的影响很小,当x达到中间某个阈值时,影响很大。即实际中很多问题,概率P与自变量并不是直线关系。

      所以,上面这分类模型需要修整,怎么修正呢?统计学家们找到的一种方法是通过logit变换对因变量加以变换,具体如下:

        

      

        从而,        

       

        这里的P完全解决了上面的两个问题。

3、逻辑回归模型的求解过程?

      1)求解方式

        逻辑回归中,Y服从二项分布,误差服从二项分布,而非高斯分布,所以不能用最小二乘进行模型参数估计,可以用极大似然估计来进行参数估计。

      2)似然函数、目标函数

        严谨一点的公式如下:

        

        似然函数如下:

        

        对数似然函数,优化目标函数如下:

        

         整个逻辑回归问题就转化为求解目标函数,即对数似然函数的极大值的问题,即最优化问题,可采用梯度下降法、拟牛顿法等等。

4、实际应用逻辑回归时数据预处理的经验总结,但经验有限,如果有哪位网友这块经验丰富,忘指教,先谢过

      1)枚举型的特征直接进行binary

      2)数值型特征,可以:标准化、根据分布进行binary

      3)进行pairwise

5、为什么我们在实际中,经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数

      下面公式直接从Ng notes里面复制过来。

     1) 经典线性模型的满足下面等式:

      

       这里有个假设,即最后这个误差扰动项独立同分布于均值为0的正态分布,即:

      

      从而:

      

      由于有上面的假设,从而就有下面的似然函数:

      

      从而这线性回归的问题就可转化为最大化下面的对数似然估计,由于下面公式前面的项是常数,所以这个问题等价于最小化下面等式中的最后一项,即least mean squares。

      

      2)逻辑斯蒂回归中,因变量y不再是连续的变量,而是二值的{0,1},中间用到logit变换,将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线性回归用于分类问题中,也有一个假设(对应于上面回归问题中误差项独立同分布于正态分布),其中h(x)是logistic function

      

      即,给定x和参数,y服从二项分布,上面回归问题中,给定x和参数,y服从正态分布。从而。

      

            

      问题不同(一个是分类、一个是回归)对应假设也就不同,决定了logistic regression问题最优化目标函数是上面这项,而非回归问题中的均方误差LMS。

6、从最根本的广义线性模型角度,导出经典线性模型以及逻辑回归

     1)指数家族

      

        当固定T时,这个分布属于指数家族中的哪种分布就由a和b两个函数决定。下面这种是伯努利分布,对应于逻辑回归问题

                                   

          注:从上面可知 ,从而,在后面用GLM导logistic regression的时候会用到这个sigmoid函数。

        下面这种是高斯分布,对应于经典线性回归问题

                

      2)GLM(广义线性模型)

        指数家族的问题可以通过广义线性模型来解决。如何构建GLM呢?在给定x和参数后,y的条件概率p(y|x,θ) 需要满足下面三个假设:

        assum1)      y | x; θ ∼ ExponentialFamily(η).

        assum2)      h(x) = E[y|x]. 即给定x,目标是预测T(y)的期望,通常问题中T(y)=y

        assum3)       η = θTx,即η和x之间是线性的

       3)经典线性回归、逻辑回归

       经典线性回归:预测值y是连续的,假设给定x和参数,y的概率分布服从高斯分布(对应构建GLM的第一条假设)。由上面高斯分布和指数家族分布的对应关系可知,η=µ,根据构建GLM的第2、3条假设可将model表示成:

      
        

        逻辑回归:以二分类为例,预测值y是二值的{1,0},假设给定x和参数,y的概率分布服从伯努利分布(对应构建GLM的第一条假设)。由上面高斯分布和指数家族分布的对应关系可知,,根据构建GLM的第2、3条假设可model表示成:

        

        可以从GLM这种角度理解为什么logistic regression的公式是这个形式~

转载自:http://blog.csdn.net/lilyth_lilyth/article/details/10032993

这篇关于generalized Linear Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/516547

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

理解分类器(linear)为什么可以做语义方向的指导?(解纠缠)

Attribute Manipulation(属性编辑)、disentanglement(解纠缠)常用的两种做法:线性探针和PCA_disentanglement和alignment-CSDN博客 在解纠缠的过程中,有一种非常简单的方法来引导G向某个方向进行生成,然后我们通过向不同的方向进行行走,那么就会得到这个属性上的图像。那么你利用多个方向进行生成,便得到了各种方向的图像,每个方向对应了很多

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言 今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 密集检索需要学习具有区分性的文本嵌入,以表示查询和文档之间的语义关系。考虑到大语言模

ModuleNotFoundError: No module named ‘diffusers.models.dual_transformer_2d‘解决方法

Python应用运行报错,部分错误信息如下: Traceback (most recent call last): File “\pipelines_ootd\unet_vton_2d_blocks.py”, line 29, in from diffusers.models.dual_transformer_2d import DualTransformer2DModel ModuleNotF

阅读笔记--Guiding Attention in End-to-End Driving Models

作者:Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间:arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力,以提高它们的驾驶质量和获得更直观的激活图。 摘 要   介绍

【CSS渐变】背景中的百分比:深入理解`linear-gradient`,进度条填充

在现代网页设计中,CSS渐变是一种非常流行的视觉效果,它为网页背景或元素添加了深度和动态感。linear-gradient函数是实现线性渐变的关键工具,它允许我们创建从一种颜色平滑过渡到另一种颜色的视觉效果。在本篇博客中,我们将深入探讨linear-gradient函数中的百分比值,特别是像#C3002F 50%, #e8e8e8 0这样的用法,以及它们如何影响渐变效果。 什么是linear-g

National Contest for Private Universities (NCPU), 2019 E. Generalized Pascal's Triangle

编辑代码 2000ms 262144K Generalized Pascal's Triangle Pascal's triangle is a triangular array in which each number can be calculated by the sum of the two numbers directly above that number as shown i

The Llama 3 Herd of Models【论文原文下载】

关注B站可以观看更多实战教学视频:hallo128的个人空间 The Llama 3 Herd of Models【论文原文】 点击下载:原文下载链接 摘要 现代人工智能(AI)系统由基础模型驱动。本文介绍了一组新的基础模型,称为 Llama 3。它是一群原生支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个密集型 Transformer,具有 405    B {40