第3章-从线性概率模型到广义线性模型(2)

2024-04-17 09:18

本文主要是介绍第3章-从线性概率模型到广义线性模型(2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

回顾上节文章中提到的logistic和probit模型:

我们假定了潜变量模型
y*=xβ+u
(y=1,when y*>0; y=0,when y*<=0)
中的残差变量服从对应的是logistic分布或正态分布,并且我们假定
P ( y = 1 ∣ x ) = G ( β 0 + β 1 x 1 + β 2 x 2 + … + β n x n ) = G ( β 0 + x β ) = G ( x β ) P(y=1|x)=G(β_0+β_1x_1+β_2x_2+…+β_nx_n)=G(β_0+xβ)=G(xβ) P(y=1x)=G(β0+β1x1+β2x2++βnxn)=G(β0+xβ)=G(xβ)
的变换函数G()为对应的"标准的Logistic随机变量的累计分布函数"或
“标准的正态随机变量的累计分布函数”。

那么这两个模型的因变量都是离散的或者说是定性( or 分类)变量。
这类变量除了第一节讨论的名义变量中的二元变量外,还有下面三种形式:

  • 名义变量中的多元变量
  • 定序变量
  • 计数变量

备注:
1,由0-1二元变量的期望等于P(Y=1|x)的概率可知,我们的研究问题也可以是针对因变量为概率型
2,对于因变量为数据值的数据,也是可以分组为上述几种离散数据的形式的
3,对于因变量的意义为“占比”时,可以转换为计数问题
4,根据变量的层级关系:名义变量<定序变量 <计数或者说间隔变量,我们的模型适用情况如下,低层的模型可以适用于高层,反之不成立。举例说明,针对名义变量设计出来模型可以适用于定序变量,但是针对定序变量设计出来的模型不适用于名义变量。但是要记住一点,这种跨层级模型使用方式并不是最优的,因为模型并没有充分利用数据中的信息。

接下来,我们思考,并学习:
1,如果残差不服从logistics分布或正态分布,而服从其他分布时的情况
2,变换函数,除了logit变换,还有其他的变换形式时的情况
3,有没有一种能够概括这些模型的统一方法

正文

一,我们先来回归一些常用的离散变量的概率分布

1,伯努利分布(0-1分布)

P r ( x = 1 ) = p , P r ( x = 0 ) = 1 − p , 0 &lt; p &lt; 1 Pr(x=1)=p, Pr(x=0)=1-p, 0&lt;p&lt;1 Pr(x=1)=p,Pr(x=0)=1p,0<p<1
E ( x ) = p E(x)=p E(x)=p
D ( x ) = p ( 1 − p ) D(x)=p(1-p) D(x)=p(1p)

例子:扔硬币正面朝上的概率	

2,二项分布

二项分布是n次独立的伯努利试验。

P ( x = k ) = P(x=k)= P(x=k)= ( n k ) p k ( 1 − p ) n − k = b ( k ; n , p ) \left(\begin{array}{} n \\ k \end{array}\right)p^k(1-p)^{n-k}=b(k; n,p) (nk)pk(1p)nk=b(k;n,p)
E ( x ) = n p E(x)=np E(x)=np
D ( x ) = n p ( 1 − p ) D(x)=np(1-p) D(x)=np(1p)

np之积>5时,分布近似正态分布
例子:扔硬币k次正面朝上的概率p

3,多项分布

多项式分布是二项式分布的推广 ,把二项分布公式推广至多种状态,就得到了多项分布。

某随机实验如果有k个可能结局 A 1 、 A 2 、 … 、 A k A_1、A_2、…、A_k A1A2Ak,分别将他们的出现次数记为随机变量 X 1 、 X 2 、 … 、 X k X_1、X_2、…、X_k X1X2Xk,它们的概率分布分别是 p 1 , p 2 , … , p k p_1,p_2,…,p_k p1p2pk,那么在n次采样的总结果中, A 1 A_1 A1出现 n 1 n_1 n1次、 A 2 A_2 A2出现 n 2 次 、 … 、 A k n_2次、…、A_k n2Ak出现 n k n_k nk次的这种事件的出现概率P有下面公式:

P ( X 1 = n 1 , X 2 = n 2 , . . . , X k = n k ) = n ! n 1 ! n 2 ! . . . n k ! p 1 n 1 p 2 n 2 . . . p k n k , ∑ i = 1 k n i = n P(X_1=n_1,X_2=n_2,...,X_k=n_k)=\frac{n!}{n_1!n_2!...n_k!}p_1^{n_1}p_2^{n_2}...p_k^{n_k}, \sum^k_{i=1}{n_i}_=n P(X1=n1,X2=n2,...,Xk=nk)=n1!n2!...nk!n!p1n1p2n2...pknk,i=1kni=n

E [ n i ] = n p i E[n_i] = n p_i E[ni]=npi
D [ n i ] = n p i ( 1 − p i ) D[n_i] = n p_i(1-p_i) D[ni]=npi(1pi)

例子:扔骰子,k次中均由其中一个面(比如说点数6)朝上的概率

4,负二项分布

二项分布从状态上扩展,即为多项分布,从试验成功的次数上来研究,即拓展为负二项分布。

已知一个事件在伯努利试验中每次的出现概率是 p p p,在一连串伯努利试验中,一件事件刚好在第 r + k r+k r+k次试验出现第 r r r次的概率。(当r是整数时,负二项分布又称帕斯卡分布)。

X = k X=k X=k表示在第r次成功之前,失败的次数,则

P r ( x = k ) = Pr(x=k)= Pr(x=k)= ( r + k − 1 k ) p r ( 1 − p ) k = f ( k ; r , p ) \left(\begin{array}{} r+k-1 \\ k \end{array}\right)p^r(1-p)^{k}=f(k;r,p) (r+k1k)pr(1p)k=f(k;r,p)

E ( x ) = r ( 1 − p ) p E(x)=\frac{r(1-p)}{p} E(x)=pr(1p)

D ( x ) = r ( 1 − p ) p 2 D(x)=\frac{r(1-p)}{p^2} D(x)=p2r(1p)

例子:扔硬币,刚好在第r+k次试验出现第r次正面朝上的概率

5,泊松分布

在二项分布的基础上,如果 n → ∞ n→∞ n p = λ n → 0 时 , 则 极 限 结 果 为 泊 松 分 布 。 p=\frac{\lambda}{n}→0时,则极限结果为泊松分布。 p=nλ0

P ( X = x ) = λ x x ! e − λ P(X=x)=\frac{\lambda^x}{x!}e^{-\lambda} P(X=x)=x!λxeλ

E ( x ) = D ( x ) = λ E(x)=D(x)=\lambda E(x)=D(x)=λ

X:一定时间或空间内,稀有事件发生的个数,一般服从泊松分布
当二项分布的p很小,n很大时,极限分布为泊松分布
当然,二项分布、泊松分布与正态分布之间都有关系,

参见

5.1 泊松分布的:overdispersion
我们知道,理论上,泊松分布的期望和方差是相等的,但此时若观测到的样本方差系统地大于分布假设下的方差,就出现了所谓的 “超散布性”(overdispersion),类似地,若出现方差偏小的情况,也就相应出现了 “超聚集性”(underdispersion)。

5.2 当泊松分布出现overdispersion现象时,通常可以转换成使用负二项分布进行建模。
负二项分布可以看成是广义的泊松分布,它可由 X|λ∼Poisson(λ) 且 λ∼Gamma(α,β),推导得到。

(1) 如果, X ∣ λ ∼ P o i s s o n ( λ ) , 则 f ( x ∣ λ ) = P r ( X = x ∣ λ ) = λ x e − λ x ! X|λ∼Poisson(λ) ,则 f(x|λ)=Pr(X=x|λ)=\frac{λ^xe^{−λ}}{x!} XλPoisson(λ)f(xλ)=Pr(X=xλ)=x!λxeλ
(2) 且, λ ∼ G a m m a ( α , β ) , 则 f ( λ ) = a β Г ( β ) λ β − 1 e − a λ λ∼Gamma(α,β),则 f(λ)= \frac{a^β}{Г(β)}λ^{β-1}e^{-aλ} λGamma(α,β)f(λ)=Г(β)aβλβ1eaλ
(3) 我们可以得到,联合概率
P r ( X = x ∣ λ ) P r ( λ ) Pr(X=x|λ)Pr(λ) Pr(X=xλ)Pr(λ)

= λ x e − λ x ! ∗ a β Г ( β ) λ β − 1 e − a λ =\frac{λ^xe^{−λ}}{x!}*\frac{a^β}{Г(β)}λ^{β-1}e^{-aλ} =x!λxeλГ(β)aβλβ1eaλ

= a β x ! • Г ( β ) λ x + β − 1 e − ( a + 1 ) λ =\frac{a^β}{x!•Г(β)}λ^{x+β-1}e^{-(a+1)λ} =x!Г(β)aβλx+β1e(a+1)λ

则,x的边际分布即为负二项分布:

P r ( X = x ) = a β x ! • Г ( β ) ∫ 0 ∞ λ x + β − 1 e − ( a + 1 ) λ d λ Pr(X=x)=\frac{a^β}{x!•Г(β)}\int^{∞}_{0}λ^{x+β-1}e^{-(a+1)λ}dλ Pr(X=x)=x!Г(β)aβ0λx+β1e(a+1)λdλ
= C n + β − 1 n ( a a + 1 ) β ( 1 a + 1 ) n =C_{n+β-1}^{n}(\frac{a}{a+1})^β(\frac{1}{a+1})^n =Cn+β1n(a+1a)β(a+11)n

表示,第r=β次成功的负二项分布,且成功的概率为 p = a a + 1 p=\frac{a}{a+1} p=a+1a

6,引入先验信息

二项分布或多项分布中,随机事件发生的概率是固定的,但是如果对于总体中的不同个体,,随机事件发生是概率是不同时,在贝叶斯研究体系下,我们就可以引入先验概率对不同个体的发生概率进行的估计,然后再根据后验概率进行调整。

6.1 共轭分布

如果先验分布 p(θ) 和似然函数 p(X|θ) 可以使得先验 p(θ) 和后验分布 p(θ|X) 有相同的形式,那么就称先验分布与似然函数是共轭分布.

共轭性质:

  • 当先验为 Beta ,似然为 Binomial分布时,后验仍然为 Beta ,但是这里的 Beta 是融入了 Binomial分布的计数的;
  • 当先验为 Dirichlet,似然为 Multinomial 分布时,后验仍然为 Dirichlet,但是这里的 Dirichlet是融入了 Multinomial 分布的计数的.

6.2 Beta-Binomial distribution
假设,X|π∼Bin(n,π),π∼Beta(α,β)
我们就可以根据数据得到π的先验概率,进而计算π的后验概率,最终推断出似然函数。

6.3 Dirichlet-MultiNomial distribution

二,Poisson 回归

我们回顾一下简介中提到的前两个问题,如果残差分布,以及变化函数是其他情况时,回归模型会变成什么情况?下面以poison回归为例进行思考。

  • 当因变量研究的是计数或比率问题时:我们通常假设残差u服从Poisson分布(回归分析中假定x是确定性变量,由于残差服从泊松分布,所以因变量y也服从于泊松分布),

  • G()变换为指数函数exp() (连接函数link=log())。则,此时对应的回归方程,则是Poisson回归。

1,假设我们有n个观测值, y 1 , y 2 . . . , y n y_1,y_2...,y_n y1,y2...,yn是分别服从泊松分布的随机变量,且 Y i Y_{i} Yi ~ P o i s s o n ( μ i ) Poisson(μ_i) Poisson(μi)

P r { Y = y } = e − μ μ y y ! Pr\{Y=y\}=\frac{e^{-μ}μ^y}{y!} Pr{Y=y}=y!eμμy

性质1:
且,满足(μ>0):
E ( Y ) = v a r ( Y ) = μ E(Y)=var(Y)=μ E(Y)=var(Y)=μ

从上式可知,任何影响均值的因素都会影响到方差,所以,同方差性假设不再适用与泊松数据。

性质2:
如果, Y 1 Y_{1} Y1 ~ P ( μ 1 ) P(μ_1) P(μ1) Y 2 Y_{2} Y2 ~ P ( μ 2 ) P(μ_2) P(μ2),则 Y 1 + Y 2 Y_{1}+Y_{2} Y1+Y2 ~ P ( μ 1 + μ 2 ) P(μ_1+μ_2) P(μ1+μ2)

2, log 变换

因为 E ( y i ∣ x i ) = μ i E(y_i|x_i) = μ_i E(yixi)=μi,在线性概率模型中,我们研究的是 E ( y i ∣ x i ) E(y_i|x_i) E(yixi) x i ′ β x_i&#x27;β xiβ之间的线性关系,如果二者之间不再是线性关系,也不再像logistics中的logit关系,而是log关系,则

l o g ( μ i ) log(μ_i) log(μi)= x i ′ β x_i&#x27;β xiβ 即为泊松回归模型的一般形式。

3,比率问题
单位时间或空间上的计数即为比率,对于泊松分布来说,问题转化为u/t
l o g ( μ / t ) = α + β x log(μ/t)=α+βx log(μ/t)=α+βx
l o g ( μ ) − l o g ( t ) = α + β x log(μ)−log(t)=α+βx log(μ)log(t)=α+βx
l o g ( μ ) = α + β x + l o g ( t ) log(μ)=α+βx+log(t) log(μ)=α+βx+log(t)
μ = e x p ( α + β x + l o g ( t ) ) = ( t ) e x p ( α ) e x p ( β x ) μ=exp(α+βx+log(t))=(t)exp(α)exp(βx) μ=exp(α+βx+log(t))=(t)exp(α)exp(βx)

三,GLM(广义线性模型)

我们回顾一下简介中提到的最后个问题,有没有什么通用的形式,能抽象的把一类变换的模型整理到一起呢?我们来做一些变换看看。

条件1,
我们定义线性自变量(linear predictor)
η i = β 0 + β 1 x 1 i + . . . + β p x p i \eta_i=\beta_0+\beta_1x_{1i}+...+\beta_px_{pi} ηi=β0+β1x1i+...+βpxpi

条件2,
我们定义连接方程(link function),描述了因变量的期望与线性自变量之间的关系
g ( μ i ) = η i g(\mu_i)=\eta_i g(μi)=ηi

如果 θ = η θ=η θ=η,此时的连接方程又叫,Canonical link function.

例,对于线性回归方程来说,g(x)=x
所以, g ( μ ) = μ = η g(\mu)=\mu=\eta g(μ)=μ=η ,即 E ( y ) = β 0 + β 1 x 1 + . . . + β p x p E(y)=\beta_0+\beta_1x_{1}+...+\beta_px_{p} E(y)=β0+β1x1+...+βpxp

条件3,因变量的方差,是其期望值方差的函数表达式

V a r ( Y i ) = ϕ V ( μ i ) w i Var(Y_i)=\frac{\phi V(\mu_i)}{w_i} Var(Yi)=wiϕV(μi)
其中, ϕ \phi ϕ是方差的离散性参数, w i w_i wi是方差V(x)的权重,一般为1。
而,方差V(x)的函数表达式,因条件1的假设不同而不同。

满足前三个条件的前提下,
我们定义广义线性模型的一般形式为

f ( y ; θ , ϕ ) = e x p { y θ − b ( θ ) a ( ϕ ) + c ( y , ϕ ) } f(y;\theta,\phi)=exp\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi) \} f(y;θ,ϕ)=exp{a(ϕ)yθb(θ)+c(y,ϕ)}

其中,
μ = E ( y ; θ , ϕ ) = b ′ ( θ ) \mu=E(y;\theta,\phi)=b&#x27;(\theta) μ=E(y;θ,ϕ)=b(θ) μ \mu μ是一个关于 θ \theta θ的函数
v a r ( y ) = b ′ ′ ( θ ) a ( ϕ ) var(y)=b&#x27;&#x27;(\theta)a(\phi) var(y)=b(θ)a(ϕ)

Y分布 θ \theta θCanonical link : g(x) ϕ \phi ϕ V ( μ ) V(\mu) V(μ) E ( y ) = μ ( θ ) = b ′ ( θ ) E(y)=\mu(\theta)=b&#x27;(\theta) E(y)=μ(θ)=b(θ)
Normal~ N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) θ i = η i θ_i=\eta_i θi=ηig(x)=x σ 2 \sigma^2 σ21 θ \theta θ
Binomial~ B ( m , π ) / m B(m,\pi)/m B(m,π)/m θ i = η i θ_i=\eta_i θi=ηig(x)=logit(x)= l o g ( x 1 − x ) log(\frac{x}{1-x}) log(1xx)1/m μ ( 1 − μ ) \mu(1-\mu) μ(1μ) e θ ( 1 + e θ ) \frac{e^\theta}{(1+e^\theta)} (1+eθ)eθ
Poisson~ P ( μ ) P(\mu) P(μ) θ i = η i θ_i=\eta_i θi=ηig(x)=ln(x)1 μ \mu μ e θ e^{\theta} eθ
Gamma~ G ( μ , v ) G(\mu,v) G(μ,v) θ i = η i θ_i=\eta_i θi=ηig(x)=1/x v − 1 v^{-1} v1 μ 2 \mu^2 μ2 − 1 θ -\frac{1}{\theta} θ1
Inverse Gaussian~ I G ( μ , σ 2 / w ) IG(\mu,\sigma^2/w) IG(μ,σ2/w) θ i = η i θ_i=\eta_i θi=ηig(x)= 1 / x 2 1/x^2 1/x2 σ 2 \sigma^2 σ2 μ 3 \mu^3 μ3 ( − 2 θ ) − 1 / 2 (-2\theta)^{-1/2} (2θ)1/2

根据Canonical link, θ i = η i θ_i=\eta_i θi=ηi,即广义线性模型公式中的 θ i θ_i θi可以被替换为 η i \eta_i ηi

并且又因
μ = E ( y ; θ , ϕ ) = b ′ ( θ ) \mu=E(y;\theta,\phi)=b&#x27;(\theta) μ=E(y;θ,ϕ)=b(θ)
η = g ( μ ) \eta=g(\mu) η=g(μ)
μ = g − 1 ( η ) = b ′ ( θ ) = b ′ ( η ) \mu=g^{-1}(\eta)=b&#x27;(\theta)=b&#x27;(\eta) μ=g1(η)=b(θ)=b(η)
g − 1 ( η ) = b ′ ( η ) g^{-1}(\eta)=b&#x27;(\eta) g1(η)=b(η)
所以, g − 1 ( ) = b ′ ( ) g^{-1}()=b&#x27;() g1()=b()

在这里插入图片描述

上一节:第3章-从线性概率模型到广义线性模型(1)


原文参考
斯坦福机器学习cs229-2-Generative Learning algorithms
https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF
http://data.princeton.edu/wws509/notes/c4a.pdf
http://www.cnblogs.com/ooon/p/5845917.html
https://www.casact.org/pubs/dpp/dpp04/04dpp1.pdf

这篇关于第3章-从线性概率模型到广义线性模型(2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/911392

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号