论文阅读:神经 MCMC 的深度内卷生成模型 Deep Involutive Generative Models for Neural MCMC

本文主要是介绍论文阅读:神经 MCMC 的深度内卷生成模型 Deep Involutive Generative Models for Neural MCMC,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章总结:本文提出了使用一种生成式的模型作为MCMC算法中的建议方式,并通过GAN进行优化。

原文:Deep Involutive Generative Models for Neural MCMC

我们引入了深度内卷生成模型(一种深度生成建模的新架构),并使用它们来定义内卷神经 MCMC(一种快速神经 MCMC 的新方法)。 内卷生成模型将概率核 G ( ϕ → ϕ ′ ) G( \phi→ \phi') G(ϕϕ) 表示为包含辅助变量 π π π 的放大状态空间上的内合(即自反转)确定性函数 f ( ϕ , π ) f(\phi, π) f(ϕ,π)。 我们展示了如何使这些模型保持体积,以及如何使用深度保持体积的内卷生成模型,基于具有易于计算的接受率的辅助变量方案进行有效的 Metropolis-Hastings 更新。 我们证明深度卷合生成模型及其体积保持特例是概率核的通用逼近器。 这一结果意味着,只要有足够的网络容量和训练时间,它们就可以用于学习任意复杂的 MCMC 更新。 我们为给定模拟数据的训练参数定义损失函数和优化算法。 我们还提供了初步实验,表明内卷神经 MCMC 可以有效地探索混合蒙特卡罗难以处理的多模态分布,并且可以比最近引入的神经 MCMC 技术 A-NICE-MC 收敛得更快。

1.Introduction

神经 MCMC 是指一类新兴的深度学习方法 [21,22,16],它试图从数据中学习好的 MCMC 建议。 随着 MCMC 迭代次数的增加,神经 MCMC 方法可以保证收敛到正确的分布,这与神经变分推理 [17,13,19] 不同,后者可能会受到有偏差的近似的影响。 最近,宋等人 [21]认为内卷神经提案是可取的,但很难实现:

“如果我们的建议是确定性的,那么 fθ(fθ(x, v)) = (x, v) 对于所有 (x, v) 应该成立,但这个条件很难实现。” [21]

贡献
本文提出了[21]提出的学习内卷提案问题的解决方案。
具体来说,它提出了以下贡献:

  • 1.本文介绍了对合神经网络,这是一类通过构造保证对合的新型神经网络; 我们还展示了如何将这些网络的雅可比矩阵约束为 1,即保持体积。
  • 2.本文使用内卷网络定义了内卷生成模型,这是一类新的辅助变量模型,并表明体积保持模型可以用作Metropolis-Hastings提案。
    1. 本文证明了体积保持的内卷生成模型是转换核的通用逼近器,证明了它们用于良好 MCMC 建议的黑盒学习的合理性。
    1. 本文描述了一种新的、低方差的 Markov-GAN 训练目标估计器 [21],我们用它来训练内卷生成模型。
    1. 本文表明,内卷神经 MCMC 可以提高 A-NICE-MC(一种最先进的神经 MCMC 技术)的收敛速度。
    1. 本文在一个简单问题上阐述了内卷神经 MCMC。

我们通过证明几个常见的 Metropolis–Hastings 提案是内卷提案的特殊情况(第 2 节)来激发我们的方法。 然后,我们证明,通过使用一类满足适当普遍性条件(第 4 节)的精确内卷神经网络架构(第 3 节)并使用对抗性训练(第 5 节),我们可以找到经验上收敛速度极快的内卷提案(第 6 节) 。

2. Background

回想一下,Metropolis-Hastings 算法的收敛速度很大程度上取决于提议分布与后验分布的匹配程度。 为了使用给定的提议分布,通常会构造一个满足详细平衡条件的转换,该转换(在遍历设置中)确保收敛到后验。 对于一般提案来说,满足这个条件是很困难的,这导致研究人员使用较小类别的提案来解决这个问题。

我们的方法,Involutive Neural MCMC满足通用类提案分布的详细平衡,该提案分布是从由体积保持对合函数指定的生成模型中得出的。 我们的方法建立在先前关于可逆神经网络 [1] 的工作基础上,例如,我们在普遍性的建设性证明中使用的架构使用了级联的加性耦合层 [7] [8, 12]。 我们现在描述几个现有的提案类别,并观察到每个提案都可以被视为内卷提案。

一类提议分布的典型示例是多元高斯的偏移集合。 由于它们的对称性,它们立即满足细节平衡,即前向转移的概率 P ( ϕ → ϕ ′ ) P(\phi→ \phi ' ) P(ϕϕ) 等于后向转移的概率 P ( ϕ ′ → ϕ ) P(\phi'→ \phi ) P(ϕϕ) 。 然而,多元高斯函数通常对后验的近似较差,导致收敛缓慢。 我们观察到这些提议可以被视为内卷提议:选择辅助变量 π π π 作为多元高斯的样本,并将状态转换定义为 ( ϕ , π ) → ( ϕ + π , − π ) (\phi, π) → (\phi + π, −π) (ϕ,π)(ϕ+π,π)

提议分布的另一类示例是由混合蒙特卡罗算法中的哈密顿动力学生成的分布 [9]。 这些提案可以被证明满足详细的平衡,因为它们是内卷的:混合蒙特卡罗的提案是通过模拟粒子一段时间然后忽略其动量而获得的; 如果执行此操作两次,粒子将以其初始状态结束。

最近,研究人员开始使用神经网络来参数化提议分布的类别,从而产生了神经 MCMC 算法。 A-NICE-MC 方法涉及选择由可逆神经网络参数化的对称类提案:其 Metropolis-Hastings 提案将 1/2 概率分配给网络的输出,将 1/2 分配给网络的逆输出的输出网络。 该提议是对称的,因此满足细节平衡。 然而,人们也可以将其视为内卷性的。 具体来说,设 f f f 为可逆神经网络, π ∼ N ( 0 , 1 ) π ∼ N(0, 1) πN(0,1)为辅助变量。 定义状态转换为
在这里插入图片描述
我们已经看到,所有这些例子都是内卷提案的特例。 我们现在介绍一类完全对合神经网络架构(第 3 节),并表明它们满足普遍性条件,因此可以用来任意好地近似任何对合提议(第 4 节)。

Involutive Neural Networks

在本节中,我们将描述如何构建完全内卷的深度神经网络。 为此,我们首先描述三种较小的对合构建块,然后描述如何组合这些块以形成深度对合网络:

  • 对合函数块,它们是相当一般的非线性映射,但不完全混合信息, 因为输出的每个元素都独立于输入的一半元素。
  • 内卷置换块,是线性映射,无法优化,但可以混合信息。
  • 包含矩阵块,它们是线性映射,但可以优化并且可以混合信息。

photo

4.Universality of Involutive Generative Models

使用机器学习模型时,了解模型可以表示哪类函数非常有用。 在本节中,我们考虑从深度内卷网络构建的生成模型,并表明它们在某种意义上是通用逼近器。 具体来说,我们证明这些网络将状态和辅助变量 ( ϕ , π ) ∈ ( R n , R m ) (\phi, π) \in (R^n, R^m) (ϕ,π)(Rn,Rm) 映射到解释为另一个状态和辅助变量 ( ϕ ′ , π ′ ) (\phi' , π' ) (ϕ,π) 的输出,可以任意充当 R n R^n Rn 的任何紧凑子集上的高斯连续函数的良好生成模型。

5. Training and sampling algorithm

建立了对合 MCMC 过程的通用性后,我们现在描述一种训练优化的对合转移核的方法。 正如[21]中所讨论的,一个有用的转换内核满足三个标准:1)极限偏差低; 2)快速收敛; 3)低自相关性。 体积保持的对合函数导致过渡核在极限内具有零偏差(正如我们在第 4.2 节中看到的,假设遍历性),因此满足标准 1。 之前的工作表明,使用“Markov-GAN”或 MGAN 目标 [21] 可以通过在接近后验的提案和高提案接受率之间找到良好的权衡来满足标准 2。

6 Experimental Result

在这里插入图片描述
图 4:A-NICE-MC 和渐进神经 MCMC 样本的密度图。 请注意 A-NICE-MC 中剩余的异常值,这些样本从未提出过前向过渡。 几乎每个来自内卷神经 MCMC 的样本仅经过一步后就接近后验。

在这里插入图片描述
图 5:来自内卷神经 MCMC 和 HMC 的单个长链样本的密度图。 请注意,内卷神经 MCMC 在 10 步内完全混合,而 HMC 即使在 10000 步后也不会混合
在这里插入图片描述
图 6:A-NICE-MC 和内卷神经 MCMC 样本相对于真实后验样本的预期负对数似然。

这篇关于论文阅读:神经 MCMC 的深度内卷生成模型 Deep Involutive Generative Models for Neural MCMC的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/563659

相关文章

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

详解Java中如何使用JFreeChart生成甘特图

《详解Java中如何使用JFreeChart生成甘特图》甘特图是一种流行的项目管理工具,用于显示项目的进度和任务分配,在Java开发中,JFreeChart是一个强大的开源图表库,能够生成各种类型的图... 目录引言一、JFreeChart简介二、准备工作三、创建甘特图1. 定义数据集2. 创建甘特图3.

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n