独家 | ​PyMC3 介绍:用于概率编程的Python包

2024-04-13 21:18

本文主要是介绍独家 | ​PyMC3 介绍:用于概率编程的Python包,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Tung T. Nguye

翻译:王雨桐

校对:廖倩颖

本文约1900字,建议阅读8分钟

本文为你介绍PyMC3原理,并结合一个实际案例教你如何使用包实现计算。

介绍

我们经常从天气预报中听到:明天的降水率是80%。这意味着什么?我们很难直白地解释这种说法,尤其是从概率学派的角度:无限次(或非多次)地重复下雨/不下雨实验是不现实的。

 

贝叶斯方法可以解释这种说法。以下句子摘自《为黑客设计的概率规划与贝叶斯方法》一书,它完美地总结了贝叶斯学派的关键思想之一。

 

贝叶斯世界观将概率解释为事件可信度的量度,即我们对事件发生有多少信心。

 

这意味着在贝叶斯方法中,我们永远不能绝对确定自己的“信念”,但可以肯定表达我们对于相关事件发生有多少信心。此外随着收集到更多数据,我们可以对自己的信念更加信心。

 

作为一名科学家,我被训练着去相信数据,并且对所有事物都很谨慎。所以我认为贝叶斯推理是相当直观的。

 

但是使用贝叶斯推断在计算和概念上通常具有挑战性。完成工作经常需要大量耗时而复杂的数学计算。即使作为数学家,我有时也觉得这些计算很乏味;特别是要快速了解待解决的问题时。

 

幸运的是我的导师AustinRochford最近向我介绍了一个名为PyMC3的程序包,它使我们能够进行数值贝叶斯推理。本文将通过一个具体示例快速介绍PyMC3。

 

一个具体的例子

假设我们有一枚硬币,我们将其翻转三遍,结果是:

[0,1,1]

 

其中0表示硬币背面向上,1表示人头向上。我们有信心说这是一个公平的硬币吗?换句话说,如果让θ为人头向上的概率,那么证据是否足以支持θ= 0.5的说法?

 

由于除了上述实验的结果外,我们对硬币一无所知,因此很难确定地说什么。从概率学派的角度来看,θ的点估计为:

尽管这个数字是合理的,但是概率学派的方法并不能真正为它提供一定的信心置信。特别是如果我们进行更多试验,则可能会得到不同的θ点估计。

 

这是贝叶斯方法可以提供一些改进的地方。这个想法很简单,因为我们对θ一无所知,因此可以假设θ可以是[0,1]上的任何值。在数学上,我们的先验信念是θ遵循均匀分布Uniform(0,1)分布。悄悄提醒需要复习数学的同学,Uniform(0,1)的pdf如下:

 

然后我们可以使用证据/观察来更新我们关于θ分布的信念。

 

让我们正式将D称为证据(我们的例子中是抛硬币的结果。)根据贝叶斯规则,后验分布可通过以下公式计算:

其中p(D |θ)是似然函数,p(θ)是先验分布(在这种情况下,为Uniform(0,1))从这里开始有两种方法。

 

显式方法

在这个特定示例中,我们可以手动完成所有操作。更准确地说,给定θ三个抛硬币中有2个人头向上的概率为:

通过假设,p(θ)= 1。接下来,我们计算分母:

通过一些简单计算,我们可以看到上述积分等于1/4,因此:

注意:通过相同的计算,我们还可以看到,如果θ的先验分布是参数为α,β的Beta分布,即p(θ)= B(α,β),并且样本大小为N,k它们是人头向上的次数,则θ的后验分布由B(α+ k,β+ N-K)给出。在我们的案例下,α=β= 1,N = 3,k = 2。

量化方法

在显式方法中,我们能够使用共轭先验来显式计算θ的后验分布。但有时使用共轭先验来简化计算,它们可能无法反映现实。此外找到共轭先验并不总是可行的。

 

我们可以通过使用马尔可夫链蒙特卡洛(MCMC)方法来近似后验分布来克服此问题。这里的数学计算很多,但是出于本文目的,我们不会深入探讨。我们将侧重解释如何使用PyMC3实现此方法。

 

运行代码前,我们导入以下软件包。

import pymc3 as pm
import scipy.stats as stats
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline
from IPython.core.pylabtools import figsize

首先我们需要初始化θ的先验分布。在PyMC3中,可以通过以下代码来实现。

with pm.Model() as model:
theta=pm.Uniform('theta',lower=0, upper=1)

 

然后我们将模型与观测数据拟合。这可以通过以下代码完成。

occurrences=np.array([1,1,0]) #our observation 
with model:obs=pm.Bernoulli("obs", p,observed=occurrences) #input the observationsstep=pm.Metropolis()trace=pm.sample(18000, step=step)burned_trace=trace[1000:]

在内部计算逻辑上,PyMC3使用Metropolis-Hastings算法来近似后验分布。Trace功能确定从后验分布中抽取的样本数。最后由于该算法在开始时可能不稳定,因此在经过一定的迭代周期后,提取的样本更有用。这就是我们代码最后一行的目的。

 

然后,我们可以绘制从后验分布获得的样本的直方图,并将其与真实密度函数进行比较。

from IPython.core.pylabtools import figsize
p_true=0.5
figsize(12.5, 4)
plt.title(r"Posterior distribution of$\theta$")
plt.vlines(p_true,0, 2, linestyle='--',label=r"true $\theta$ (unknown)", color='red')
plt.hist(burned_trace["theta"],bins=25, histtype='stepfilled', density=True, color='#348ABD')
x=np.arange(0,1.04,0.04)
plt.plot(x, 12*x*x*(1-x), color='black')
plt.legend()
plt.show()

我们可以清楚地看到,数值逼近非常接近真实的后验分布。

 

如果我们增加样本容量?

如前所述,获得的数据越多,我们对θ的真实值的信心就越大。让我们通过一个简单的模拟来检验我们的假设。

 

我们将随机抛硬币1000次,使用PyMC3估算θ的后验分布。然后绘制从该分布获得样本的直方图。所有这些步骤都可以通过以下代码来完成:

N=1000 #the number of samples
occurences=np.random.binomial(1, p=0.5, size=N)
k=occurences.sum() #the number of head#fit the observed data 
with pm.Model() as model1:theta=pm.Uniform('theta', lower=0,upper=1)with model1:obs=pm.Bernoulli("obs",theta, observed=occurrences)step=pm.Metropolis()trace=pm.sample(18000, step=step)burned_trace1=trace[1000:]
#plot the posterior distribution of theta.p_true=0.5
figsize(12.5, 4)
plt.title(r"Posterior distribution of $\theta for sample sizeN=1000$")
plt.vlines(p_true,0, 25, linestyle='--', label="true $\theta$(unknown)", color='red')
plt.hist(burned_trace1["theta"], bins=25, histtype='stepfilled',density=True, color='#348ABD')
plt.legend()
plt.show()

 

下图为我们得到的结果:

如图所示,后验分布现在以θ的真实值为中心。

我们可以通过取样本均值来估算θ。

 

burned_trace1['theta'].mean()
0.4997847718651745

 

这确实接近真实答案。

 

结论

PyMC3可以很好地执行统计推断任务,它使概率编程变得相当轻松。

 

参考资料:

[1] https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers

原文标题:

Introduction to PyMC3: A Python package forprobabilistic programming

原文链接:

https://towardsdatascience.com/introduction-to-pymc3-a-python-package-for-probabilistic-programming-5299278b428

编辑:黄继彦

校对:林亦霖

译者简介

王雨桐,统计学在读,数据科学硕士预备,跑步不停,弹琴不止。梦想把数据可视化当作艺术,目前日常是摸着下巴看机器学习。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

这篇关于独家 | ​PyMC3 介绍:用于概率编程的Python包的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901240

相关文章

python中列表list切分的实现

《python中列表list切分的实现》列表是Python中最常用的数据结构之一,经常需要对列表进行切分操作,本文主要介绍了python中列表list切分的实现,文中通过示例代码介绍的非常详细,对大家... 目录一、列表切片的基本用法1.1 基本切片操作1.2 切片的负索引1.3 切片的省略二、列表切分的高

基于Python实现一个PDF特殊字体提取工具

《基于Python实现一个PDF特殊字体提取工具》在PDF文档处理场景中,我们常常需要针对特定格式的文本内容进行提取分析,本文介绍的PDF特殊字体提取器是一款基于Python开发的桌面应用程序感兴趣的... 目录一、应用背景与功能概述二、技术架构与核心组件2.1 技术选型2.2 系统架构三、核心功能实现解析

通过Python脚本批量复制并规范命名视频文件

《通过Python脚本批量复制并规范命名视频文件》本文介绍了如何通过Python脚本批量复制并规范命名视频文件,实现自动补齐数字编号、保留原始文件、智能识别有效文件等功能,听过代码示例介绍的非常详细,... 目录一、问题场景:杂乱的视频文件名二、完整解决方案三、关键技术解析1. 智能路径处理2. 精准文件名

基于Python开发PDF转Doc格式小程序

《基于Python开发PDF转Doc格式小程序》这篇文章主要为大家详细介绍了如何基于Python开发PDF转Doc格式小程序,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 用python实现PDF转Doc格式小程序以下是一个使用Python实现PDF转DOC格式的GUI程序,采用T

Python使用PIL库将PNG图片转换为ICO图标的示例代码

《Python使用PIL库将PNG图片转换为ICO图标的示例代码》在软件开发和网站设计中,ICO图标是一种常用的图像格式,特别适用于应用程序图标、网页收藏夹图标等场景,本文将介绍如何使用Python的... 目录引言准备工作代码解析实践操作结果展示结语引言在软件开发和网站设计中,ICO图标是一种常用的图像

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

Python中如何控制小数点精度与对齐方式

《Python中如何控制小数点精度与对齐方式》在Python编程中,数据输出格式化是一个常见的需求,尤其是在涉及到小数点精度和对齐方式时,下面小编就来为大家介绍一下如何在Python中实现这些功能吧... 目录一、控制小数点精度1. 使用 round() 函数2. 使用字符串格式化二、控制对齐方式1. 使用

Python如何快速下载依赖

《Python如何快速下载依赖》本文介绍了四种在Python中快速下载依赖的方法,包括使用国内镜像源、开启pip并发下载功能、使用pipreqs批量下载项目依赖以及使用conda管理依赖,通过这些方法... 目录python快速下载依赖1. 使用国内镜像源临时使用镜像源永久配置镜像源2. 使用 pip 的并

Python如何实现读取csv文件时忽略文件的编码格式

《Python如何实现读取csv文件时忽略文件的编码格式》我们再日常读取csv文件的时候经常会发现csv文件的格式有多种,所以这篇文章为大家介绍了Python如何实现读取csv文件时忽略文件的编码格式... 目录1、背景介绍2、库的安装3、核心代码4、完整代码1、背景介绍我们再日常读取csv文件的时候经常