【Deep Learning】Variational Autoencoder ELBO:优美的数学推导

2024-04-13 00:52

本文主要是介绍【Deep Learning】Variational Autoencoder ELBO:优美的数学推导,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Variational Autoencoder

  • In this note, we talk about the generation model, where x x x represents the given dataset, z z z represents the latent variable, θ , ϕ \theta,\phi θ,ϕ denote the parameters of models.

Latent Variable Model

  • Generate x x x by latent variable z z z: p ( x , z ) = p ( x ) p ( x ∣ z ) p(x,z)=p(x)p(x|z) p(x,z)=p(x)p(xz)
  • Training: Maximum likelihood

L ( θ ) = ∑ x ∈ D log ⁡ p ( x ) = ∑ x ∈ D log ⁡ ∑ z p ( x , z ; θ ) = ∑ x ∈ D log ⁡ ∑ z q ( z ) p ( x , z ; θ ) q ( z ) Important Sampling ≥ ∑ x ∈ D ∑ z q ( z ) log ⁡ p ( x , z ; θ ) q ( z ) Concavcity of log \begin{align*} L(\theta)&=\sum_{x\in D}\log p(x)\\ &=\sum_{x\in D}\log \sum_{z}p(x,z;\theta)\\ &=\sum_{x\in D}\log \sum_{z} q(z)\frac{p(x,z;\theta)}{q(z)} & \text{Important Sampling}\\ &\ge\sum_{x\in D}\sum_{z}q(z)\log \frac{p(x,z;\theta)}{q(z)} & \text{Concavcity of log} \end{align*} L(θ)=xDlogp(x)=xDlogzp(x,z;θ)=xDlogzq(z)q(z)p(x,z;θ)xDzq(z)logq(z)p(x,z;θ)Important SamplingConcavcity of log

  • Assumption: ∑ z q ( z ) = 1 \sum_z q(z)=1 zq(z)=1. The summation can be regarded as expectation(just for simplicity)

ELBO

  • In the above deriviation, ∑ z q ( z ) log ⁡ p ( x , z ; θ ) q ( z ) \sum_zq(z)\log \frac{p(x,z;\theta)}{q(z)} zq(z)logq(z)p(x,z;θ) is the Evidence Lower Bound of log ⁡ p ( x ) \log p(x) logp(x)
  • When q ( z ) = p ( z ∣ x ; θ ) q(z)=p(z|x;\theta) q(z)=p(zx;θ),

∑ z q ( z ) log ⁡ p ( x , z ; θ ) q ( z ) = log ⁡ p ( x ; θ ) \sum_zq(z)\log\frac{p(x,z;\theta)}{q(z)}=\log p(x;\theta) zq(z)logq(z)p(x,z;θ)=logp(x;θ)

  • We can set q ( z ) = p ( z ∣ x ; θ ) q(z)=p(z|x;\theta) q(z)=p(zx;θ) to optimize a tight lowerbound of log ⁡ p ( x ; θ ) \log p(x;\theta) logp(x;θ)

    • We call p ( z ∣ x ; θ ) p(z|x;\theta) p(zx;θ) posterior.
    • Don’t know p ( z ∣ x ; θ ) p(z|x;\theta) p(zx;θ)? Use network q ( z ; ϕ ) q(z;\phi) q(z;ϕ) to paratermize p ( z ∣ x ) p(z|x) p(zx).
    • Optimize q ( z ; ϕ ) ≈ p ( z ∣ x ; θ ) q(z;\phi)\approx p(z|x;\theta) q(z;ϕ)p(zx;θ) and p ( x ∣ z ; θ ) p(x|z;\theta) p(xz;θ) alternatively.
  • Since we use q ( z ; ϕ ) q(z;\phi) q(z;ϕ) to approximate p ( z ∣ x ; θ ) p(z|x;\theta ) p(zx;θ), what is the distance metric between them?

    • K L ( q ∣ ∣ p ) = ∑ z q ( z ) log ⁡ q ( z ) p ( z ) KL(q||p)=\sum_z q(z)\log \frac{q(z)}{p(z)} KL(q∣∣p)=zq(z)logp(z)q(z)
      • Compared to K L ( p ∣ ∣ q ) KL(p||q) KL(p∣∣q), K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p) is reverse KL.
        • Empirically, We often use K L ( p ∣ ∣ q ) KL(p||q) KL(p∣∣q), where p p p is the groundtruth distribution, that’s why K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p) is ‘reverse’.
    • We call the procedure to find such ϕ \phi ϕ by Variational Inference: min ⁡ ϕ K L ( q ∣ ∣ p ) \min_\phi KL(q||p) minϕKL(q∣∣p).
  • Look at the optimization of K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p):
    K L ( q ( z ; ϕ ) ∣ ∣ p ( z ∣ x ) ) = ∑ z q ( z ; ϕ ) log ⁡ q ( z ; ϕ ) p ( z ∣ x ) = ∑ z q ( z ; ϕ ) log ⁡ q ( z ; ϕ ) p ( x ) p ( z , x ) = log ⁡ p ( x ) − ∑ z q ( z ; ϕ ) log ⁡ p ( z , x ) q ( z ; ϕ ) \begin{align*} KL(q(z;\phi)||p(z|x))&=\sum_{z}q(z;\phi)\log \frac{q(z;\phi)}{p(z|x)}\\ &=\sum_{z}q(z;\phi)\log \frac{q(z;\phi)p(x)}{p(z,x)}\\ &=\log p(x)-\sum_zq(z;\phi)\log \frac{p(z,x)}{q(z;\phi)} \end{align*} KL(q(z;ϕ)∣∣p(zx))=zq(z;ϕ)logp(zx)q(z;ϕ)=zq(z;ϕ)logp(z,x)q(z;ϕ)p(x)=logp(x)zq(z;ϕ)logq(z;ϕ)p(z,x)
    Amazing! ∑ z q ( z ; ϕ ) log ⁡ p ( z , x ) q ( z ; ϕ ) \sum_{z}q(z;\phi)\log \frac{p(z,x)}{q(z;\phi)} zq(z;ϕ)logq(z;ϕ)p(z,x) is just the ELBO! When we minimize K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p), we are also maximizing ELBO, which means the objective we alternatively trained for p ( x ∣ z ; θ ) p(x|z;\theta) p(xz;θ) and q ( z ; ϕ ) q(z;\phi) q(z;ϕ) is magically the same!

    What’s more, we can also find that
    log ⁡ p ( x ) = K L ( q ( z ; ϕ ) ∣ ∣ p ( z ∣ x ) ) + E L B O = A p p r o x E r r o r + E L B O \log p(x) = KL(q(z;\phi)||p(z|x)) + ELBO=ApproxError+ELBO logp(x)=KL(q(z;ϕ)∣∣p(zx))+ELBO=ApproxError+ELBO
    which verifies that ELBO is the lowerbound of log ⁡ p ( x ) \log p(x) logp(x), and there difference is exactly the approximate error between q ( z ; ϕ ) q(z;\phi) q(z;ϕ) and p ( z ∣ x ) p(z|x) p(zx).

  • Notice: q ( z ; ϕ ) ≈ p ( z ∣ x , θ ) q(z;\phi)\approx p(z|x,\theta) q(z;ϕ)p(zx,θ). q q q depends on x x x, hence we can use q ( z ∣ x ; ϕ ) q(z|x;\phi) q(zx;ϕ) instead of q ( z ; ϕ ) q(z;\phi) q(z;ϕ), named Amortized Variational Inference.

  • Now, only ELBO is our only joint objective. Train θ , ϕ \theta,\phi θ,ϕ together!
    J ( θ , ϕ ; x ) = ∑ z q ( z ∣ x ; ϕ ) log ⁡ p ( x , z ; θ ) q ( z ∣ x ; ϕ ) = ∑ z q ( z ∣ x ; ϕ ) ( log ⁡ p ( x ∣ z ; θ ) + log ⁡ p ( z ; θ ) − log ⁡ q ( z ∣ x ; ϕ ) ) = ∑ z q ( z ∣ x ; ϕ ) log ⁡ p ( x ∣ z ; θ ) − ∑ z q ( z ∣ x ; ϕ ) log ⁡ q ( z ∣ x ; ϕ ) log ⁡ p ( z ; θ ) = E z ∼ q ( ⋅ ∣ x ; ϕ ) log ⁡ p ( x ∣ z ; θ ) − K L ( q ( z ∣ x ; ϕ ) ∣ ∣ p ( z ; θ ) ) \begin{align*} J(\theta,\phi;x)&=\sum_z q(z|x;\phi)\log\frac{p(x,z;\theta)}{q(z|x;\phi)}\\ &=\sum_z q(z|x;\phi)\left( \log p(x|z;\theta)+\log p(z;\theta)-\log q(z|x;\phi)\right)\\ &=\sum_z q(z|x;\phi)\log p(x|z;\theta)-\sum_zq(z|x;\phi)\frac{\log q(z|x;\phi)}{\log p(z;\theta)}\\ &=\mathbb{E}_{z\sim q(\cdot|x;\phi)}\log p(x|z;\theta )-KL(q(z|x;\phi)||p(z;\theta)) \end{align*} J(θ,ϕ;x)=zq(zx;ϕ)logq(zx;ϕ)p(x,z;θ)=zq(zx;ϕ)(logp(xz;θ)+logp(z;θ)logq(zx;ϕ))=zq(zx;ϕ)logp(xz;θ)zq(zx;ϕ)logp(z;θ)logq(zx;ϕ)=Ezq(x;ϕ)logp(xz;θ)KL(q(zx;ϕ)∣∣p(z;θ))

VAE

  • Pratically, we obtain VAE from E L B O ELBO ELBO.

  • Assume that
    p ( z ) ∼ N ( 0 , I ) q ( z ∣ x ; ϕ ) ∼ N ( μ ϕ ( x ) , σ ϕ ( x ) ) p ( x ∣ z ; θ ) ∼ N ( μ θ ( z ) , σ μ ( z ) ) p(z)\sim N(0,I)\\q(z|x;\phi)\sim N(\mu_\phi(x),\sigma_\phi(x))\\ p(x|z;\theta)\sim N(\mu_\theta(z),\sigma_\mu(z)) p(z)N(0,I)q(zx;ϕ)N(μϕ(x),σϕ(x))p(xz;θ)N(μθ(z),σμ(z))
    They are all Gaussian, where the mean and variance are from net work.

  • Let q ( z ∣ x ; ϕ ) q(z|x;\phi) q(zx;ϕ) be the encoder, p ( x ∣ z ; θ ) p(x|z;\theta) p(xz;θ) be the decoder, then E z ∼ q ( ⋅ ∣ x ; ϕ ) log ⁡ p ( x ∣ z ; θ ) \mathbb{E}_{z\sim q(\cdot|x;\phi)}\log p(x|z;\theta ) Ezq(x;ϕ)logp(xz;θ) represents reconstruction error:

    • The error after encoding into latent space, then decoding into the original space.
    • We wish this term big, so that the original data can be recovered with high probability.
  • Re-parameterization trick:

    • In E z ∼ q ( ⋅ ∣ x ; ϕ ) log ⁡ p ( x ∣ z ; θ ) \mathbb{E}_{z\sim q(\cdot|x;\phi)}\log p(x|z;\theta ) Ezq(x;ϕ)logp(xz;θ) term, ϕ \phi ϕ is the sampling parameters, whose gradient can’t be computed.
    • Sample z ′ ∼ N ( 0 , I ) z'\sim N(0,I) zN(0,I), then compute z = μ + z ′ ⋅ σ z=\mu+z'\cdot \sigma z=μ+zσ.

Conclusion

  • The amazing and elegent mathematical deviation behind VAE inspires me to write down this blog.
  • Furthermore, VAE shows its great stability through many tasks, compared to GAN. There are still more Pro and Cons to talk about.

这篇关于【Deep Learning】Variational Autoencoder ELBO:优美的数学推导的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/898715

相关文章

uva 10014 Simple calculations(数学推导)

直接按照题意来推导最后的结果就行了。 开始的时候只做到了第一个推导,第二次没有继续下去。 代码: #include<stdio.h>int main(){int T, n, i;double a, aa, sum, temp, ans;scanf("%d", &T);while(T--){scanf("%d", &n);scanf("%lf", &first);scanf

uva 10025 The ? 1 ? 2 ? ... ? n = k problem(数学)

题意是    ?  1  ?  2  ?  ...  ?  n = k 式子中给k,? 处可以填 + 也可以填 - ,问最小满足条件的n。 e.g k = 12  - 1 + 2 + 3 + 4 + 5 + 6 - 7 = 12 with n = 7。 先给证明,令 S(n) = 1 + 2 + 3 + 4 + 5 + .... + n 暴搜n,搜出当 S(n) >=

uva 11044 Searching for Nessy(小学数学)

题意是给出一个n*m的格子,求出里面有多少个不重合的九宫格。 (rows / 3) * (columns / 3) K.o 代码: #include <stdio.h>int main(){int ncase;scanf("%d", &ncase);while (ncase--){int rows, columns;scanf("%d%d", &rows, &col

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

CSP-J基础之数学基础 初等数论 一篇搞懂(一)

文章目录 前言声明初等数论是什么初等数论历史1. **古代时期**2. **中世纪时期**3. **文艺复兴与近代**4. **现代时期** 整数的整除性约数什么样的整数除什么样的整数才能得到整数?条件:举例说明:一般化: 判断两个数能否被整除 因数与倍数质数与复合数使用开根号法判定质数哥德巴赫猜想最大公因数与辗转相除法计算最大公因数的常用方法:举几个例子:例子 1: 计算 12 和 18

2024年AMC10美国数学竞赛倒计时两个月:吃透1250道真题和知识点(持续)

根据通知,2024年AMC10美国数学竞赛的报名还有两周,正式比赛还有两个月就要开始了。计划参赛的孩子们要记好时间,认真备考,最后冲刺再提高成绩。 那么如何备考2024年AMC10美国数学竞赛呢?做真题,吃透真题和背后的知识点是备考AMC8、AMC10有效的方法之一。通过做真题,可以帮助孩子找到真实竞赛的感觉,而且更加贴近比赛的内容,可以通过真题查漏补缺,更有针对性的补齐知识的短板。

一些数学经验总结——关于将原一元二次函数增加一些限制条件后最优结果的对比(主要针对公平关切相关的建模)

1.没有分段的情况 原函数为一元二次凹函数(开口向下),如下: 因为要使得其存在正解,必须满足,那么。 上述函数的最优结果为:,。 对应的mathematica代码如下: Clear["Global`*"]f0[x_, a_, b_, c_, d_] := (a*x - b)*(d - c*x);(*(b c+a d)/(2 a c)*)Maximize[{f0[x, a, b,

2024年高教社杯数学建模国赛最后一步——结果检验-事关最终奖项

2024年国赛已经来到了最后一天,有必要去给大家讲解一下,我们不需要过多的去关注模型的结果,因为模型的结果的分值设定项最多不到20分。但是如果大家真的非常关注的话,那有必要给大家讲解一下论文结果相关的问题。很多的论文,上至国赛优秀论文下至不获奖的论文并不是所有的论文都可以进行完整的复现求解,大部分数模论文都为存在一个灰色地带。         白色地带即认为所有的代码均可运行、公开

CSP-J基础之数学基础 初等数论 一篇搞懂(二)

文章目录 前言算术基本定理简介什么是质数?举个简单例子:重要的结论:算术基本定理公式解释:举例: 算术基本定理的求法如何找出质因数:举个简单的例子: 重要的步骤:C++实现 同余举个例子:同余的性质简介1. 同余的自反性2. 同余的对称性3. 同余的传递性4. 同余的加法性质5. 同余的乘法性质 推论 总结 前言 在计算机科学和数学中,初等数论是一个重要的基础领域,涉及到整数