generalized Linear Models

2023-12-20 15:38

文章标签 linear models generalized

本文主要是介绍generalized Linear Models，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

经典线性模型自变量的线性预测就是因变量的估计值。广义线性模型：自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有：probit模型、poisson模型、对数线性模型等等。对数线性模型里有：logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结，以及广义线性模型导出逻辑回归的过程。下一篇将是对最大熵模型的学习总结。本篇介绍的大纲如下：

1、逻辑斯蒂分布，logit转换

2、在二分类问题中，为什么弃用传统的线性回归模型，改用逻辑斯蒂回归？

3、逻辑回归模型的求解过程？

4、实际应用逻辑回归时数据预处理的经验总结。但经验有限，如果有哪位网友这块经验丰富，忘指教，先谢过

5、为什么我们在实际中，经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函数

6、从最根本的广义线性模型角度，导出经典线性模型以及逻辑回归

1、逻辑斯蒂分布，logit转换

一个连续随机变量X，如果它的分布函数形式如下，则X服从逻辑斯蒂分布，F（x）的值在0~1之间，它的的图形是一条S型曲线。

2、在二分类问题中，为什么弃用传统的线性回归模型，改用逻辑斯蒂回归？

线性回归用于二分类时，首先想到下面这种形式，p是属于类别的概率：

但是这时存在的问题是：

1）等式两边的取值范围不同，右边是负无穷到正无穷，左边是[0,1]，这个分类模型的存在问题

2）实际中的很多问题，都是当x很小或很大时，对于因变量P的影响很小，当x达到中间某个阈值时，影响很大。即实际中很多问题，概率P与自变量并不是直线关系。

所以，上面这分类模型需要修整，怎么修正呢？统计学家们找到的一种方法是通过logit变换对因变量加以变换，具体如下：

从而，

这里的P完全解决了上面的两个问题。

3、逻辑回归模型的求解过程？

1）求解方式

逻辑回归中，Y服从二项分布，误差服从二项分布，而非高斯分布，所以不能用最小二乘进行模型参数估计，可以用极大似然估计来进行参数估计。

2）似然函数、目标函数

严谨一点的公式如下：

似然函数如下：

对数似然函数，优化目标函数如下：

整个逻辑回归问题就转化为求解目标函数，即对数似然函数的极大值的问题，即最优化问题，可采用梯度下降法、拟牛顿法等等。

4、实际应用逻辑回归时数据预处理的经验总结，但经验有限，如果有哪位网友这块经验丰富，忘指教，先谢过

1）枚举型的特征直接进行binary

2）数值型特征，可以：标准化、根据分布进行binary

3）进行pairwise

5、为什么我们在实际中，经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函数

下面公式直接从Ng notes里面复制过来。

1） 经典线性模型的满足下面等式：

这里有个假设，即最后这个误差扰动项独立同分布于均值为0的正态分布，即：

从而：

由于有上面的假设，从而就有下面的似然函数：

从而这线性回归的问题就可转化为最大化下面的对数似然估计，由于下面公式前面的项是常数，所以这个问题等价于最小化下面等式中的最后一项，即least mean squares。

2）逻辑斯蒂回归中，因变量y不再是连续的变量，而是二值的{0,1}，中间用到logit变换，将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线性回归用于分类问题中，也有一个假设（对应于上面回归问题中误差项独立同分布于正态分布），其中h(x)是logistic function

即，给定x和参数，y服从二项分布，上面回归问题中，给定x和参数，y服从正态分布。从而。

问题不同（一个是分类、一个是回归）对应假设也就不同，决定了logistic regression问题最优化目标函数是上面这项，而非回归问题中的均方误差LMS。

6、从最根本的广义线性模型角度，导出经典线性模型以及逻辑回归

1）指数家族

当固定T时，这个分布属于指数家族中的哪种分布就由a和b两个函数决定。下面这种是伯努利分布，对应于逻辑回归问题

注：从上面可知，从而，在后面用GLM导logistic regression的时候会用到这个sigmoid函数。

下面这种是高斯分布，对应于经典线性回归问题

2）GLM（广义线性模型）

指数家族的问题可以通过广义线性模型来解决。如何构建GLM呢？在给定x和参数后，y的条件概率p(y|x,θ) 需要满足下面三个假设：

assum1) y | x; θ ∼ ExponentialFamily(η).

assum2) h(x) = E[y|x]. 即给定x，目标是预测T(y)的期望，通常问题中T(y)=y

assum3) η = θTx，即η和x之间是线性的

3）经典线性回归、逻辑回归

经典线性回归：预测值y是连续的，假设给定x和参数，y的概率分布服从高斯分布（对应构建GLM的第一条假设）。由上面高斯分布和指数家族分布的对应关系可知，η=µ，根据构建GLM的第2、3条假设可将model表示成：

逻辑回归：以二分类为例，预测值y是二值的{1,0}，假设给定x和参数，y的概率分布服从伯努利分布（对应构建GLM的第一条假设）。由上面高斯分布和指数家族分布的对应关系可知，，根据构建GLM的第2、3条假设可model表示成：

可以从GLM这种角度理解为什么logistic regression的公式是这个形式~

转载自：http://blog.csdn.net/lilyth_lilyth/article/details/10032993

这篇关于generalized Linear Models的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/516547。 23002807@qq.com

相关文章

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染：一项综述文章目录大规模语言模型的基准数据污染：一项综述摘要1 引言摘要大规模语言模型（LLMs），如GPT-4、Claude-3和Gemini的快

阅读更多...

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中文章目录验证测试集污染在黑盒语言模型中摘要1 引言摘要大型语言模型是在大量互联网数据上训练的，这引发了人们的担忧和猜测，即它们可能已

阅读更多...

理解分类器（linear）为什么可以做语义方向的指导？（解纠缠）

理解分类器（linear）为什么可以做语义方向的指导？（解纠缠）

Attribute Manipulation（属性编辑）、disentanglement（解纠缠）常用的两种做法：线性探针和PCA_disentanglement和alignment-CSDN博客在解纠缠的过程中，有一种非常简单的方法来引导G向某个方向进行生成，然后我们通过向不同的方向进行行走，那么就会得到这个属性上的图像。那么你利用多个方向进行生成，便得到了各种方向的图像，每个方向对应了很多

阅读更多...

速通GPT-3：Language Models are Few-Shot Learners全文解读

速通GPT-3：Language Models are Few-Shot Learners全文解读

文章目录论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

阅读更多...

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。密集检索需要学习具有区分性的文本嵌入，以表示查询和文档之间的语义关系。考虑到大语言模

阅读更多...

ModuleNotFoundError: No module named ‘diffusers.models.dual_transformer_2d‘解决方法

ModuleNotFoundError: No module named ‘diffusers.models.dual_transformer_2d‘解决方法

Python应用运行报错，部分错误信息如下： Traceback (most recent call last): File “\pipelines_ootd\unet_vton_2d_blocks.py”, line 29, in from diffusers.models.dual_transformer_2d import DualTransformer2DModel ModuleNotF

阅读更多...

阅读笔记--Guiding Attention in End-to-End Driving Models

阅读笔记--Guiding Attention in End-to-End Driving Models

作者：Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间：arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力，以提高它们的驾驶质量和获得更直观的激活图。摘要介绍

阅读更多...

【CSS渐变】背景中的百分比：深入理解`linear-gradient`，进度条填充

【CSS渐变】背景中的百分比：深入理解`linear-gradient`，进度条填充

在现代网页设计中，CSS渐变是一种非常流行的视觉效果，它为网页背景或元素添加了深度和动态感。linear-gradient函数是实现线性渐变的关键工具，它允许我们创建从一种颜色平滑过渡到另一种颜色的视觉效果。在本篇博客中，我们将深入探讨linear-gradient函数中的百分比值，特别是像#C3002F 50%, #e8e8e8 0这样的用法，以及它们如何影响渐变效果。什么是linear-g

阅读更多...

National Contest for Private Universities (NCPU), 2019 E. Generalized Pascal's Triangle

National Contest for Private Universities (NCPU), 2019 E. Generalized Pascal's Triangle

编辑代码 2000ms 262144K Generalized Pascal's Triangle Pascal's triangle is a triangular array in which each number can be calculated by the sum of the two numbers directly above that number as shown i

阅读更多...

The Llama 3 Herd of Models【论文原文下载】

The Llama 3 Herd of Models【论文原文下载】

关注B站可以观看更多实战教学视频：hallo128的个人空间 The Llama 3 Herd of Models【论文原文】点击下载：原文下载链接摘要现代人工智能（AI）系统由基础模型驱动。本文介绍了一组新的基础模型，称为 Llama 3。它是一群原生支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个密集型 Transformer，具有 405 B {40

阅读更多...