置信区间的置信区间_R:自举置信区间

2023-10-08 13:40
文章标签 置信区间

本文主要是介绍置信区间的置信区间_R:自举置信区间,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

置信区间的置信区间

最近,我在Julia Evans的博客上遇到了一篇有趣的文章,展示了如何通过对我们实际上使用bootstrapping 的一小部分数据点进行采样来生成更大的数据点集 。 Julia的示例全部使用Python,因此我认为将它们转换为R是一个有趣的练习。

我们正在进行引导,以模拟一次航班的未出现次数,因此我们可以算出可以超额预定飞机的座位数。

我们从一小部分未出现的航班开始,然后假设可以将某人从5%的航班中踢出去是可以的。 让我们算出最初样本中有多少人:

> data = c(0, 1, 3, 2, 8, 2, 3, 4)
> quantile(data, 0.05)5% 
0.35

0.35人! 这不是一个特别有用的结果,因此我们将对原始数据集重新采样10,000次,每次取5%的位数,以查看是否得出更好的结果:

我们将使用带有替换功能的sample函数来生成我们的重采样:

> sample(data, replace = TRUE)
[1] 0 3 2 8 8 0 8 0
> sample(data, replace = TRUE)
[1] 2 2 4 3 4 4 2 2

现在,让我们编写一个函数来多次执行此操作:

library(ggplot)bootstrap_5th_percentile = function(data, n_bootstraps) {return(sapply(1:n_bootstraps, function(iteration) quantile(sample(data, replace = TRUE), 0.05)))
}values = bootstrap_5th_percentile(data, 10000)ggplot(aes(x = value), data = data.frame(value = values)) + geom_histogram(binwidth=0.25)

2015-07-19_18-05-48

因此,该可视化告诉我们,我们可以以0-2人的价格超额销售,但我们不知道确切的数字。

让我们尝试相同的练习,但是初始数据集包含更大的1,000个值而不是8个值。首先,我们将生成一个分布(平均值为5,标准差为2)并将其可视化:

library(dplyr)df = data.frame(value = rnorm(1000,5, 2))
df = df %>% filter(value >= 0) %>% mutate(value = as.integer(round(value)))
ggplot(aes(x = value), data = df) + geom_histogram(binwidth=1)

2015-07-19_18-09-15

我们的发行版似乎具有更多的4和5值,而Python版本的发行版更扁平-我不确定为什么这样,如果您有任何想法让我知道。 无论如何,让我们检查此数据集的5%ile:

> quantile(df$value, 0.05)
5% 2

凉! 现在至少我们有一个整数值,而不是我们之前获得的0.35。 最后,让我们对新发行版进行一些引导,看看我们得出的5%ile:

resampled = bootstrap_5th_percentile(df$value, 10000)
byValue = data.frame(value = resampled) %>% count(value)> byValue
Source: local data frame [3 x 2]value    n
1   1.0    3
2   1.7    2
3   2.0 9995ggplot(aes(x = value, y = n), data = byValue) + geom_bar(stat = "identity")

2015-07-19_18-23-29

“ 2”是迄今为止最受欢迎的5%ile,尽管它似乎比使用Julia的Python版本更重视该值,这是因为我们似乎是从略有不同的分布中取样的。

翻译自: https://www.javacodegeeks.com/2015/07/r-bootstrap-confidence-intervals.html

置信区间的置信区间

这篇关于置信区间的置信区间_R:自举置信区间的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/165684

相关文章

参数估计,置信区间

参数估计: 用样本统计量去估计总体的参数。 置信区间: 大数定律: 样本多了能代表整体。         中心极限定理: 随机变量,量大会接近正态分布。  python代码实现 import numpy as nprandom_data = np.random.randint(1,7,1000)print(random_data)samples = []

区间预测 | Matlab实现EVO-CNN-SVM能量谷算法优化卷积神经网络支持向量机结合核密度估计多置信区间多变量回归区间预测

区间预测 | Matlab实现EVO-CNN-SVM能量谷算法优化卷积神经网络支持向量机结合核密度估计多置信区间多变量回归区间预测 目录 区间预测 | Matlab实现EVO-CNN-SVM能量谷算法优化卷积神经网络支持向量机结合核密度估计多置信区间多变量回归区间预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现EVO-CNN-SVM

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《计及电-气园区综合能源系统多重不确定性的变置信区间优化调度 》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源程序擅长文章解读,论文与完整源程序,等方面的知识,电网论文源程序关注python

从零开始学统计 11 | 理解置信区间

置信区间 假设现在测量了12个小鼠体重的值,注意这里只测量了12只小鼠(样本),而不是地球上的每一只小鼠(总体) 取12个测量值,计算平均值,注意这里是样本均值,而不是总体均值(地球上所有小鼠的均值) 理解样本均值与总体均值:https://zhenglei.blog.csdn.net/article/details/108392410 但是,我们可以通过 Bootstrap 方法,

【机器学习荐货情报局】置信区间-看这一篇就够了

置信区间 - 看这一篇就够了 欢迎关注公众号:机器学习荐货情报局 一起进步,一起学习,一起充电~ 欢迎投稿,讨论,拍砖 1. 定义 在统计学中,一个样本的置信区间是对总体参数的一个区间估计。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度或者说是概率。这个概率又叫做置信水平。举例来说:再一次大选中,上帝视角看到某人的支持率是55%,而置信水平0.95上的置信区间是

数据分析的几个数值P值、T值和R值(相关系数)中位数、众数、 方差、 标准差、 协方差、 置信区间

统计学中包含了多个基本概念和数值,以下是关于P值、T值和R值(相关系数)的简要解释,以及其他一些常见的统计学数值: P值(P value): P值是用来判定假设检验结果的一个参数。它表示在原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,拒绝原假设的理由越充分。 T值(T-

数理统计中95%置信区间的含义

95%置信区间,意味着如果你用同样的步骤,去选样本,计算置信区间,那么100次这样的独立过程,有95%的概率你计算出来的区间会包含真实参数值,即大概会有95个置信区间会包含真值。而对于某一次计算得到的某一个置信区间,其包含真值的概率,我们无法讨论。参源 1.点估计与区间估计 首先我们看看点估计的含义: 是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表

区间预测 | Matlab实现带有置信区间的BP神经网络时间序列未来趋势预测

区间预测 | Matlab实现带有置信区间的BP神经网络时间序列未来趋势预测 目录 区间预测 | Matlab实现带有置信区间的BP神经网络时间序列未来趋势预测预测效果基本介绍研究回顾程序设计参考资料 预测效果 基本介绍 BP神经网络(Backpropagation neural network)是一种常用的人工神经网络模型,用于解决各种问题,包括时间序列预测。时间

置信概率的含义如何?与置信区间有何关系?

http://cal.ceprei.com/news_details.asp?id=219&category_id=11     按测量不确定度的定义,合理赋予被测量之值的分散区间是包括全部被测量的测量结果的,即测量结果100%存在于这一区间。这一分散区间的半宽一般用a表示。但是如只要求某个区间只包含其95%的赋予被测量之值,这个区间就称为概率p=95%的置信区间,其半宽就是扩展不

置信区间(confidence interval)

置信区间(confidence interval) 1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值范围(“一个区间”)。 2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。 3、该区间包含了参数θ真值的可信程度。 4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。 http://bbs.antpedia.com/vi