Python高层解雇和客户活跃度量化不确定性模型

本文主要是介绍Python高层解雇和客户活跃度量化不确定性模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

🎯要点

🍇Python贝叶斯推理

贝叶斯推理是一种找出变量分布的方法（例如高度 $h$ 的分布）。贝叶斯推理的有趣特征是，统计学家（或数据科学家）可以利用他们的先验知识作为改进我们对分布情况的猜测的手段。贝叶斯推理依赖于贝叶斯统计的主要公式：贝叶斯定理。贝叶斯定理接受我们对分布的假设，即新的数据，并输出更新后的分布。对于数据科学，贝叶斯定理通常表示如下：
$P(\theta \mid \text { Data })=\frac{P(\text { Data } \mid \theta) * P(\theta)}{P(\text { Data })}$

$P(\theta \mid D a t a)$ 后验
$P ($ Data $\mid \theta)$ 似然
$P(\theta)$ 先验
$P ($ Data $)$ 事实

我们可以从贝叶斯定理中看出，先验是一个概率：P(θ)。首先，让我们深入研究一下“θ”的含义。θ 通常表示为我们对最能描述我们试图研究的变量的模型的假设。让我们回到身高的例子。根据背景知识和常识，我们推断出身高在一个班级中呈正态分布。正式来说：
$\sim N (\mu, \sigma)$
其中 $N$ 表示正态分布， $\mu$ 表示平均值， $\sigma$ 表示标准差。

现在，我们的先验并不完全是上面的表达式。相反，它是我们对每个参数 $\mu$ 和 $\sigma$ 如何分布的假设。请注意，这就是贝叶斯统计的定义特征的体现：我们如何找到这些参数的分布？有趣的是，我们根据先验知识“编造”它们。如果我们的先验知识很少，我们可以选择一个非常无信息的先验，以免使过程产生偏差。例如，我们可以定义平均高度 $\mu$ 介于 $1.65 m$ 和 $1.8 m$ 之间。如果我们想要一个无信息的先验，我们可以说 $\mu$ 沿着该区间均匀分布。相反，如果我们认为平均高度在某种程度上偏向于更接近 $1.65 m$ 而不是 $1.8 m$ 的值，我们可以定义 $\mu$ 服从 beta 分布，由“超”参数 $\alpha$ 定义和 $\beta$ 。我们可以看看下面这些选项：

import scipy.stats as sts
import numpy as np
import matplotlib.pyplot as pltmu = np.linspace(1.65, 1.8, num = 50)
test = np.linspace(0, 2)
uniform_dist = sts.uniform.pdf(mu) + 1 
uniform_dist = uniform_dist/uniform_dist.sum() 
beta_dist = sts.beta.pdf(mu, 2, 5, loc = 1.65, scale = 0.2) 
beta_dist = beta_dist/beta_dist.sum()
plt.plot(mu, beta_dist, label = 'Beta Dist')
plt.plot(mu, uniform_dist, label = 'Uniform Dist')
plt.xlabel("Value of $\mu$ in meters")
plt.ylabel("Probability density")
plt.legend()

请注意 y 轴如何为我们提供“概率密度”，即我们认为真正的 $\mu$ 是 $x$ 轴上的概率密度。另外，请注意，β 分布和均匀分布会导致我们对 $\mu$ 的值可能得出的不同结论。如果我们选择均匀分布，我们就表示我们不倾向于判断 $\mu$ 是否接近我们范围内的任何值，我们只是认为它位于其中的某个位置。如果我们选择 beta 分布，我们相当确定 $\mu$ 的“真实”值介于 $1.68 m$ 和 $1.72 m$ 之间，如蓝线峰值所示。

请注意，我们正在讨论 $\mu$ 的先验，但我们的模型实际上有两个参数： $(\mu, \sigma)$ 。一般来说，我们也可以定义 $\sigma$ 上的先验。然而，如果我们对 $\sigma$ 的猜测感到幸运，或者如果我们想为了示例而简化过程，我们可以将 $\sigma$ 设置为固定值，例如 $0.1 m$ 。

似然表示为 $P ($ Data $\mid \theta)$ 。在这种情况下，“数据”将是高度的观测值。假设我们要测量一名随机挑选的学生，他们的身高为 1.7m。考虑到有了这个数据，我们现在可以了解 $\theta$ 的每个选项有多好。我们通过以下问题来做到这一点：如果 $\theta$ 的一个特定选项（称为 $\theta 1$ ）是真实的，那么我们观察到 $1.7 m$ 高度的“可能性”有多大？ $\theta 2$ 怎么样：如果 $\theta 2$ 是“正确”模型，观察到 $1.7 m$ 高度的可能性有多大？

然而，就我们目前的目的而言，我们正在改变分布/模型本身。这意味着我们的 $x$ 轴实际上将具有变量 $\mu$ 的不同可能性，而我们的 $y$ 轴将具有每种可能性的概率密度。看看下面的代码，它代表了我们的似然函数及其可视化：

def likelihood_func(datum, mu):likelihood_out = sts.norm.pdf(datum, mu, scale = 0.1) return likelihood_out/likelihood_out.sum()likelihood_out = likelihood_func(1.7, mu)plt.plot(mu, likelihood_out)
plt.title("Likelihood of $\mu$ given observation 1.7m")
plt.ylabel("Probability Density/Likelihood")
plt.xlabel("Value of $\mu$")
plt.show()

一些统计学家将 $P ($ Data $)$ 称为“证据”。这个变量的含义非常简单：它是产生价值数据的概率。然而，这很难直接计算。值得庆幸的是，我们有一个好办法。考虑以下方程：
$\int P(\text { Data } \mid \theta) * P(\theta) d \theta=P(\text { Data })$
贝叶斯定理的右侧 $(\theta \mid$ Data) 称为“后验”。这是我们对数据如何分布的后验理解，因为我们目睹了数据，并且我们有先验知识。我们如何得到后验呢？回到方程：
$P(\theta \mid \text { Data })=\frac{P(\text { Data } \mid \theta) * P(\theta)}{P(\text { Data })}$
那么，第一步是将似然度 (P(Data $\mid \theta))$ 与先验 $(\theta))$ 相乘：

import scipy as spunnormalized_posterior = likelihood_out * uniform_dist
plt.plot(mu, unnormalized_posterior)
plt.xlabel("$\mu$ in meters")
plt.ylabel("Unnormalized Posterior")
plt.show()

👉参阅一：计算思维

👉参阅二：亚图跨际

这篇关于Python高层解雇和客户活跃度量化不确定性模型的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Python高层解雇和客户活跃度量化不确定性模型

🎯要点

🍇Python贝叶斯推理

👉参阅一：计算思维

👉参阅二：亚图跨际

相关文章

Python的Darts库实现时间序列预测

Python正则表达式匹配和替换的操作指南

Python使用FastAPI实现大文件分片上传与断点续传功能

通过Docker容器部署Python环境的全流程

Python一次性将指定版本所有包上传PyPI镜像解决方案

Python实现Excel批量样式修改器(附完整代码)

python获取指定名字的程序的文件路径的两种方法

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

Python实现批量CSV转Excel的高性能处理方案

Python中 try / except / else / finally 异常处理方法详解