第3章-从线性概率模型到广义线性模型(2)

2024-04-17 09:18

本文主要是介绍第3章-从线性概率模型到广义线性模型(2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

回顾上节文章中提到的logistic和probit模型:

我们假定了潜变量模型
y*=xβ+u
(y=1,when y*>0; y=0,when y*<=0)
中的残差变量服从对应的是logistic分布或正态分布,并且我们假定
P ( y = 1 ∣ x ) = G ( β 0 + β 1 x 1 + β 2 x 2 + … + β n x n ) = G ( β 0 + x β ) = G ( x β ) P(y=1|x)=G(β_0+β_1x_1+β_2x_2+…+β_nx_n)=G(β_0+xβ)=G(xβ) P(y=1x)=G(β0+β1x1+β2x2++βnxn)=G(β0+xβ)=G(xβ)
的变换函数G()为对应的"标准的Logistic随机变量的累计分布函数"或
“标准的正态随机变量的累计分布函数”。

那么这两个模型的因变量都是离散的或者说是定性( or 分类)变量。
这类变量除了第一节讨论的名义变量中的二元变量外,还有下面三种形式:

  • 名义变量中的多元变量
  • 定序变量
  • 计数变量

备注:
1,由0-1二元变量的期望等于P(Y=1|x)的概率可知,我们的研究问题也可以是针对因变量为概率型
2,对于因变量为数据值的数据,也是可以分组为上述几种离散数据的形式的
3,对于因变量的意义为“占比”时,可以转换为计数问题
4,根据变量的层级关系:名义变量<定序变量 <计数或者说间隔变量,我们的模型适用情况如下,低层的模型可以适用于高层,反之不成立。举例说明,针对名义变量设计出来模型可以适用于定序变量,但是针对定序变量设计出来的模型不适用于名义变量。但是要记住一点,这种跨层级模型使用方式并不是最优的,因为模型并没有充分利用数据中的信息。

接下来,我们思考,并学习:
1,如果残差不服从logistics分布或正态分布,而服从其他分布时的情况
2,变换函数,除了logit变换,还有其他的变换形式时的情况
3,有没有一种能够概括这些模型的统一方法

正文

一,我们先来回归一些常用的离散变量的概率分布

1,伯努利分布(0-1分布)

P r ( x = 1 ) = p , P r ( x = 0 ) = 1 − p , 0 &lt; p &lt; 1 Pr(x=1)=p, Pr(x=0)=1-p, 0&lt;p&lt;1 Pr(x=1)=p,Pr(x=0)=1p,0<p<1
E ( x ) = p E(x)=p E(x)=p
D ( x ) = p ( 1 − p ) D(x)=p(1-p) D(x)=p(1p)

例子:扔硬币正面朝上的概率	

2,二项分布

二项分布是n次独立的伯努利试验。

P ( x = k ) = P(x=k)= P(x=k)= ( n k ) p k ( 1 − p ) n − k = b ( k ; n , p ) \left(\begin{array}{} n \\ k \end{array}\right)p^k(1-p)^{n-k}=b(k; n,p) (nk)pk(1p)nk=b(k;n,p)
E ( x ) = n p E(x)=np E(x)=np
D ( x ) = n p ( 1 − p ) D(x)=np(1-p) D(x)=np(1p)

np之积>5时,分布近似正态分布
例子:扔硬币k次正面朝上的概率p

3,多项分布

多项式分布是二项式分布的推广 ,把二项分布公式推广至多种状态,就得到了多项分布。

某随机实验如果有k个可能结局 A 1 、 A 2 、 … 、 A k A_1、A_2、…、A_k A1A2Ak,分别将他们的出现次数记为随机变量 X 1 、 X 2 、 … 、 X k X_1、X_2、…、X_k X1X2Xk,它们的概率分布分别是 p 1 , p 2 , … , p k p_1,p_2,…,p_k p1p2pk,那么在n次采样的总结果中, A 1 A_1 A1出现 n 1 n_1 n1次、 A 2 A_2 A2出现 n 2 次 、 … 、 A k n_2次、…、A_k n2Ak出现 n k n_k nk次的这种事件的出现概率P有下面公式:

P ( X 1 = n 1 , X 2 = n 2 , . . . , X k = n k ) = n ! n 1 ! n 2 ! . . . n k ! p 1 n 1 p 2 n 2 . . . p k n k , ∑ i = 1 k n i = n P(X_1=n_1,X_2=n_2,...,X_k=n_k)=\frac{n!}{n_1!n_2!...n_k!}p_1^{n_1}p_2^{n_2}...p_k^{n_k}, \sum^k_{i=1}{n_i}_=n P(X1=n1,X2=n2,...,Xk=nk)=n1!n2!...nk!n!p1n1p2n2...pknk,i=1kni=n

E [ n i ] = n p i E[n_i] = n p_i E[ni]=npi
D [ n i ] = n p i ( 1 − p i ) D[n_i] = n p_i(1-p_i) D[ni]=npi(1pi)

例子:扔骰子,k次中均由其中一个面(比如说点数6)朝上的概率

4,负二项分布

二项分布从状态上扩展,即为多项分布,从试验成功的次数上来研究,即拓展为负二项分布。

已知一个事件在伯努利试验中每次的出现概率是 p p p,在一连串伯努利试验中,一件事件刚好在第 r + k r+k r+k次试验出现第 r r r次的概率。(当r是整数时,负二项分布又称帕斯卡分布)。

X = k X=k X=k表示在第r次成功之前,失败的次数,则

P r ( x = k ) = Pr(x=k)= Pr(x=k)= ( r + k − 1 k ) p r ( 1 − p ) k = f ( k ; r , p ) \left(\begin{array}{} r+k-1 \\ k \end{array}\right)p^r(1-p)^{k}=f(k;r,p) (r+k1k)pr(1p)k=f(k;r,p)

E ( x ) = r ( 1 − p ) p E(x)=\frac{r(1-p)}{p} E(x)=pr(1p)

D ( x ) = r ( 1 − p ) p 2 D(x)=\frac{r(1-p)}{p^2} D(x)=p2r(1p)

例子:扔硬币,刚好在第r+k次试验出现第r次正面朝上的概率

5,泊松分布

在二项分布的基础上,如果 n → ∞ n→∞ n p = λ n → 0 时 , 则 极 限 结 果 为 泊 松 分 布 。 p=\frac{\lambda}{n}→0时,则极限结果为泊松分布。 p=nλ0

P ( X = x ) = λ x x ! e − λ P(X=x)=\frac{\lambda^x}{x!}e^{-\lambda} P(X=x)=x!λxeλ

E ( x ) = D ( x ) = λ E(x)=D(x)=\lambda E(x)=D(x)=λ

X:一定时间或空间内,稀有事件发生的个数,一般服从泊松分布
当二项分布的p很小,n很大时,极限分布为泊松分布
当然,二项分布、泊松分布与正态分布之间都有关系,

参见

5.1 泊松分布的:overdispersion
我们知道,理论上,泊松分布的期望和方差是相等的,但此时若观测到的样本方差系统地大于分布假设下的方差,就出现了所谓的 “超散布性”(overdispersion),类似地,若出现方差偏小的情况,也就相应出现了 “超聚集性”(underdispersion)。

5.2 当泊松分布出现overdispersion现象时,通常可以转换成使用负二项分布进行建模。
负二项分布可以看成是广义的泊松分布,它可由 X|λ∼Poisson(λ) 且 λ∼Gamma(α,β),推导得到。

(1) 如果, X ∣ λ ∼ P o i s s o n ( λ ) , 则 f ( x ∣ λ ) = P r ( X = x ∣ λ ) = λ x e − λ x ! X|λ∼Poisson(λ) ,则 f(x|λ)=Pr(X=x|λ)=\frac{λ^xe^{−λ}}{x!} XλPoisson(λ)f(xλ)=Pr(X=xλ)=x!λxeλ
(2) 且, λ ∼ G a m m a ( α , β ) , 则 f ( λ ) = a β Г ( β ) λ β − 1 e − a λ λ∼Gamma(α,β),则 f(λ)= \frac{a^β}{Г(β)}λ^{β-1}e^{-aλ} λGamma(α,β)f(λ)=Г(β)aβλβ1eaλ
(3) 我们可以得到,联合概率
P r ( X = x ∣ λ ) P r ( λ ) Pr(X=x|λ)Pr(λ) Pr(X=xλ)Pr(λ)

= λ x e − λ x ! ∗ a β Г ( β ) λ β − 1 e − a λ =\frac{λ^xe^{−λ}}{x!}*\frac{a^β}{Г(β)}λ^{β-1}e^{-aλ} =x!λxeλГ(β)aβλβ1eaλ

= a β x ! • Г ( β ) λ x + β − 1 e − ( a + 1 ) λ =\frac{a^β}{x!•Г(β)}λ^{x+β-1}e^{-(a+1)λ} =x!Г(β)aβλx+β1e(a+1)λ

则,x的边际分布即为负二项分布:

P r ( X = x ) = a β x ! • Г ( β ) ∫ 0 ∞ λ x + β − 1 e − ( a + 1 ) λ d λ Pr(X=x)=\frac{a^β}{x!•Г(β)}\int^{∞}_{0}λ^{x+β-1}e^{-(a+1)λ}dλ Pr(X=x)=x!Г(β)aβ0λx+β1e(a+1)λdλ
= C n + β − 1 n ( a a + 1 ) β ( 1 a + 1 ) n =C_{n+β-1}^{n}(\frac{a}{a+1})^β(\frac{1}{a+1})^n =Cn+β1n(a+1a)β(a+11)n

表示,第r=β次成功的负二项分布,且成功的概率为 p = a a + 1 p=\frac{a}{a+1} p=a+1a

6,引入先验信息

二项分布或多项分布中,随机事件发生的概率是固定的,但是如果对于总体中的不同个体,,随机事件发生是概率是不同时,在贝叶斯研究体系下,我们就可以引入先验概率对不同个体的发生概率进行的估计,然后再根据后验概率进行调整。

6.1 共轭分布

如果先验分布 p(θ) 和似然函数 p(X|θ) 可以使得先验 p(θ) 和后验分布 p(θ|X) 有相同的形式,那么就称先验分布与似然函数是共轭分布.

共轭性质:

  • 当先验为 Beta ,似然为 Binomial分布时,后验仍然为 Beta ,但是这里的 Beta 是融入了 Binomial分布的计数的;
  • 当先验为 Dirichlet,似然为 Multinomial 分布时,后验仍然为 Dirichlet,但是这里的 Dirichlet是融入了 Multinomial 分布的计数的.

6.2 Beta-Binomial distribution
假设,X|π∼Bin(n,π),π∼Beta(α,β)
我们就可以根据数据得到π的先验概率,进而计算π的后验概率,最终推断出似然函数。

6.3 Dirichlet-MultiNomial distribution

二,Poisson 回归

我们回顾一下简介中提到的前两个问题,如果残差分布,以及变化函数是其他情况时,回归模型会变成什么情况?下面以poison回归为例进行思考。

  • 当因变量研究的是计数或比率问题时:我们通常假设残差u服从Poisson分布(回归分析中假定x是确定性变量,由于残差服从泊松分布,所以因变量y也服从于泊松分布),

  • G()变换为指数函数exp() (连接函数link=log())。则,此时对应的回归方程,则是Poisson回归。

1,假设我们有n个观测值, y 1 , y 2 . . . , y n y_1,y_2...,y_n y1,y2...,yn是分别服从泊松分布的随机变量,且 Y i Y_{i} Yi ~ P o i s s o n ( μ i ) Poisson(μ_i) Poisson(μi)

P r { Y = y } = e − μ μ y y ! Pr\{Y=y\}=\frac{e^{-μ}μ^y}{y!} Pr{Y=y}=y!eμμy

性质1:
且,满足(μ>0):
E ( Y ) = v a r ( Y ) = μ E(Y)=var(Y)=μ E(Y)=var(Y)=μ

从上式可知,任何影响均值的因素都会影响到方差,所以,同方差性假设不再适用与泊松数据。

性质2:
如果, Y 1 Y_{1} Y1 ~ P ( μ 1 ) P(μ_1) P(μ1) Y 2 Y_{2} Y2 ~ P ( μ 2 ) P(μ_2) P(μ2),则 Y 1 + Y 2 Y_{1}+Y_{2} Y1+Y2 ~ P ( μ 1 + μ 2 ) P(μ_1+μ_2) P(μ1+μ2)

2, log 变换

因为 E ( y i ∣ x i ) = μ i E(y_i|x_i) = μ_i E(yixi)=μi,在线性概率模型中,我们研究的是 E ( y i ∣ x i ) E(y_i|x_i) E(yixi) x i ′ β x_i&#x27;β xiβ之间的线性关系,如果二者之间不再是线性关系,也不再像logistics中的logit关系,而是log关系,则

l o g ( μ i ) log(μ_i) log(μi)= x i ′ β x_i&#x27;β xiβ 即为泊松回归模型的一般形式。

3,比率问题
单位时间或空间上的计数即为比率,对于泊松分布来说,问题转化为u/t
l o g ( μ / t ) = α + β x log(μ/t)=α+βx log(μ/t)=α+βx
l o g ( μ ) − l o g ( t ) = α + β x log(μ)−log(t)=α+βx log(μ)log(t)=α+βx
l o g ( μ ) = α + β x + l o g ( t ) log(μ)=α+βx+log(t) log(μ)=α+βx+log(t)
μ = e x p ( α + β x + l o g ( t ) ) = ( t ) e x p ( α ) e x p ( β x ) μ=exp(α+βx+log(t))=(t)exp(α)exp(βx) μ=exp(α+βx+log(t))=(t)exp(α)exp(βx)

三,GLM(广义线性模型)

我们回顾一下简介中提到的最后个问题,有没有什么通用的形式,能抽象的把一类变换的模型整理到一起呢?我们来做一些变换看看。

条件1,
我们定义线性自变量(linear predictor)
η i = β 0 + β 1 x 1 i + . . . + β p x p i \eta_i=\beta_0+\beta_1x_{1i}+...+\beta_px_{pi} ηi=β0+β1x1i+...+βpxpi

条件2,
我们定义连接方程(link function),描述了因变量的期望与线性自变量之间的关系
g ( μ i ) = η i g(\mu_i)=\eta_i g(μi)=ηi

如果 θ = η θ=η θ=η,此时的连接方程又叫,Canonical link function.

例,对于线性回归方程来说,g(x)=x
所以, g ( μ ) = μ = η g(\mu)=\mu=\eta g(μ)=μ=η ,即 E ( y ) = β 0 + β 1 x 1 + . . . + β p x p E(y)=\beta_0+\beta_1x_{1}+...+\beta_px_{p} E(y)=β0+β1x1+...+βpxp

条件3,因变量的方差,是其期望值方差的函数表达式

V a r ( Y i ) = ϕ V ( μ i ) w i Var(Y_i)=\frac{\phi V(\mu_i)}{w_i} Var(Yi)=wiϕV(μi)
其中, ϕ \phi ϕ是方差的离散性参数, w i w_i wi是方差V(x)的权重,一般为1。
而,方差V(x)的函数表达式,因条件1的假设不同而不同。

满足前三个条件的前提下,
我们定义广义线性模型的一般形式为

f ( y ; θ , ϕ ) = e x p { y θ − b ( θ ) a ( ϕ ) + c ( y , ϕ ) } f(y;\theta,\phi)=exp\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi) \} f(y;θ,ϕ)=exp{a(ϕ)yθb(θ)+c(y,ϕ)}

其中,
μ = E ( y ; θ , ϕ ) = b ′ ( θ ) \mu=E(y;\theta,\phi)=b&#x27;(\theta) μ=E(y;θ,ϕ)=b(θ) μ \mu μ是一个关于 θ \theta θ的函数
v a r ( y ) = b ′ ′ ( θ ) a ( ϕ ) var(y)=b&#x27;&#x27;(\theta)a(\phi) var(y)=b(θ)a(ϕ)

Y分布 θ \theta θCanonical link : g(x) ϕ \phi ϕ V ( μ ) V(\mu) V(μ) E ( y ) = μ ( θ ) = b ′ ( θ ) E(y)=\mu(\theta)=b&#x27;(\theta) E(y)=μ(θ)=b(θ)
Normal~ N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) θ i = η i θ_i=\eta_i θi=ηig(x)=x σ 2 \sigma^2 σ21 θ \theta θ
Binomial~ B ( m , π ) / m B(m,\pi)/m B(m,π)/m θ i = η i θ_i=\eta_i θi=ηig(x)=logit(x)= l o g ( x 1 − x ) log(\frac{x}{1-x}) log(1xx)1/m μ ( 1 − μ ) \mu(1-\mu) μ(1μ) e θ ( 1 + e θ ) \frac{e^\theta}{(1+e^\theta)} (1+eθ)eθ
Poisson~ P ( μ ) P(\mu) P(μ) θ i = η i θ_i=\eta_i θi=ηig(x)=ln(x)1 μ \mu μ e θ e^{\theta} eθ
Gamma~ G ( μ , v ) G(\mu,v) G(μ,v) θ i = η i θ_i=\eta_i θi=ηig(x)=1/x v − 1 v^{-1} v1 μ 2 \mu^2 μ2 − 1 θ -\frac{1}{\theta} θ1
Inverse Gaussian~ I G ( μ , σ 2 / w ) IG(\mu,\sigma^2/w) IG(μ,σ2/w) θ i = η i θ_i=\eta_i θi=ηig(x)= 1 / x 2 1/x^2 1/x2 σ 2 \sigma^2 σ2 μ 3 \mu^3 μ3 ( − 2 θ ) − 1 / 2 (-2\theta)^{-1/2} (2θ)1/2

根据Canonical link, θ i = η i θ_i=\eta_i θi=ηi,即广义线性模型公式中的 θ i θ_i θi可以被替换为 η i \eta_i ηi

并且又因
μ = E ( y ; θ , ϕ ) = b ′ ( θ ) \mu=E(y;\theta,\phi)=b&#x27;(\theta) μ=E(y;θ,ϕ)=b(θ)
η = g ( μ ) \eta=g(\mu) η=g(μ)
μ = g − 1 ( η ) = b ′ ( θ ) = b ′ ( η ) \mu=g^{-1}(\eta)=b&#x27;(\theta)=b&#x27;(\eta) μ=g1(η)=b(θ)=b(η)
g − 1 ( η ) = b ′ ( η ) g^{-1}(\eta)=b&#x27;(\eta) g1(η)=b(η)
所以, g − 1 ( ) = b ′ ( ) g^{-1}()=b&#x27;() g1()=b()

在这里插入图片描述

上一节:第3章-从线性概率模型到广义线性模型(1)


原文参考
斯坦福机器学习cs229-2-Generative Learning algorithms
https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF
http://data.princeton.edu/wws509/notes/c4a.pdf
http://www.cnblogs.com/ooon/p/5845917.html
https://www.casact.org/pubs/dpp/dpp04/04dpp1.pdf

这篇关于第3章-从线性概率模型到广义线性模型(2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/911392

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G