数据分享|R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR...

本文主要是介绍数据分享|R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

全文链接:http://tecdat.cn/?p=26915 

零膨胀泊松回归用于对超过零计数的计数数据进行建模。此外,理论表明,多余的零点是通过与计数值不同的过程生成的,并且可以独立地对多余的零点进行建模。因此,zip模型有两个部分,泊松计数模型和用于预测多余零点的 logit 模型。

相关视频

零膨胀泊松回归示例

示例 。野生动物生物学家想要模拟公园的渔民捕获了多少鱼。游客会被问到他们逗留了多长时间,团队中有多少人,团队中是否有儿童以及捕获了多少鱼。一些游客不钓鱼,但没有关于一个人是否钓鱼的数据。一些钓鱼的游客没有钓到任何鱼,因此数据中存在多余的零,因为人们没有钓鱼。

数据说明

我们有 250 个去公园的团体的数据查看文末了解数据获取方式。每个小组都被询问他们捕获了多少鱼(count),小组中有多少孩子(child),小组中有多少人(persons),以及他们是否带露营者到公园(camper)。

让我们看一下数据。

summary(zib)

b09bb95b9f2b1a87d93c40bd86dde4c1.png

## 直方图的X轴为对数10标
ggplot(znb, aes(ount))

d83d56e9f6b0ebf530c8e9848e7c9e43.png


点击标题查阅往期内容

d04109a77ed6d5095d6aaaaf436154a9.png

R语言泊松Poisson回归模型分析案例

outside_default.png

左右滑动查看更多

outside_default.png

01

d4a907e65f259fc6d0a8e4d3f5c78806.jpeg

02

602d2204bb9fa14778eecde2ce3ab227.png

03

131f4f0434ac36f69899177c89d672a4.png

04

86396ecf5fbb6129daec94134daafed8.jpeg

您可能会考虑的分析方法

以下是您可能遇到的一些分析方法的列表。列出的一些方法是相当合理的,而另一些方法要么失宠,要么有局限性。

  • 零膨胀泊松回归。

  • 零膨胀负二项式回归——负二项式回归在分散数据时表现更好,即方差远大于平均值。

  • 普通计数模型 。

  • OLS 回归——您可以尝试使用 OLS 回归分析这些数据。然而,计数数据是高度非正态的,并且不能通过 OLS 回归很好地估计。

零膨胀泊松回归

summary(m1)

17812da7941fd843bc2f8eeebbf9ded7.png

输出看起来非常像 R 中两个 OLS 回归的输出。在模型调用下方,您会发现一个输出块,其中包含每个变量的泊松回归系数以及标准误差、z 分数和 p 值系数。接下来是对应于通货膨胀模型的第二个块。这包括用于预测多余零点的 logit 系数及其标准误差、z 分数和 p 值。

模型的计数和膨胀部分中的所有预测变量都具有统计显着性。该模型对数据的拟合显着优于空模型,即仅截距模型。为了证明情况确实如此,我们可以使用对数似然差异的卡方检验将当前模型与没有预测变量的空模型进行比较。

mnl <- update(m1, . ~ 1)

14aea85052bf6c41eb6b8aac742d3820.png

由于我们在完整模型中有三个预测变量,因此卡方检验的自由度为 3。这会产生较高的显着 p 值;因此,我们的整体模型具有统计学意义。

请注意,上面的模型输出并没有以任何方式表明我们的零膨胀模型是否是对标准泊松回归的改进。我们可以通过运行相应的标准 Poisson 模型然后对这两个模型进行 Vuong 检验来确定这一点。

349f87f4938bec95aa1a6ab5f3c30f05.png

vuong(p, m)

832e514a74170568f87096755bff4352.png

Vuong 检验将零膨胀模型与普通泊松回归模型进行比较。在这个例子中,我们可以看到我们的检验统计量是显着的,表明零膨胀模型优于标准泊松模型。

我们可以使用自举获得参数和指数参数的置信区间。对于泊松模型,这些将是事件风险比,对于零通胀模型,优势比。此外,对于最终结果,可能希望增加重复次数以帮助确保结果稳定。

dt(coef(m1, "count"))

0227017cdeaee561e4e363dc476a1e1b.png

dpt(coef(m1, "zero"))

a4ad094b9e9ed9ce18c5a5a4c38b10c6.png

res <- boot(znb, f, R = 1200, pralel = "snow", ncus = 4)
## 输出结果
res

f4561d8dc8439768b7f2297b6055aec0.png

结果是交替的参数估计和标准误差。也就是说,第一行具有我们模型的第一个参数估计值。第二个具有第一个参数的标准误差。第三列包含自举的标准误差。

现在我们可以得到所有参数的置信区间。我们从原始比例开始,使用百分位数和偏差调整的 CI。我们还将这些结果与基于标准误差的置信区间进行比较。

## 带百分位数和偏差调整的CI的基本参数估计值## 添加行名
row.names(pms) <- names(coef(m))
## 输出结果
parms

063d8a31ee4581d7ef45ad64bd425772.png

## 与基于正常的近似值相比
confint(m1)

a86f04caa6a0775a3126dfd4df7eb020.png

bootstrap置信区间比基于正态的近似值要宽得多。使用稳健标准误差时,自举 CI 与来自 Stata 的 CI 更加一致。

现在我们可以估计泊松模型的事件风险比 (IRR) 和逻辑(零通胀)模型的优势比 (OR)。

## 带百分位数和偏差调整的CI的指数化参数估计值
exps <- t(sapply(c(1, 3, 5, 7, 9), function(i) {out <- boot.ci

为了更好地理解我们的模型,我们可以计算预测变量的不同组合所捕获的鱼的预期数量。事实上,由于我们基本上使用的是分类预测,我们可以使用函数来计算所有组合的期望值来创建所有组合。最后我们创建一个图表。

ggplot(neda1, aes(x = cld, y = pat, colour = factor(pos))) +geom_point() +geom_line() +facet_wrap(~cmp)

62356d93dbb5089614dfbe0475daa17c.png

需要考虑的事项

  • 由于 zip 同时具有计数模型和 logit 模型,因此这两个模型中的每一个都应该具有良好的预测器。这两个模型不一定需要使用相同的预测变量。

  • 零膨胀模型的逻辑部分可能会出现完美预测、分离或部分分离的问题。

  • 计数数据通常使用暴露变量来指示事件可能发生的次数。

  • 不建议将零膨胀泊松模型应用于小样本。

数据获取

在下面公众号后台回复“钓鱼数”,可获取完整数据。


99929772b93cae0b8ab69594a7e14fd1.png

点击文末“阅读原文”

获取全文完整资料。

本文选自《R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR》。

点击标题查阅往期内容

R语言贝叶斯Poisson泊松-正态分布模型分析职业足球比赛进球数

R语言贝叶斯METROPOLIS-HASTINGS GIBBS 吉布斯采样器估计变点指数分布分析泊松过程车站等待时间

R语言和Python用泊松过程扩展:霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列

数据分享|R语言广义线性模型GLM:线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟

生态学模拟对广义线性混合模型GLMM进行功率(功效、效能、效力)分析power analysis环境监测数据

广义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和交叉验证

有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据

R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据

R语言贝叶斯MCMC:GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例

R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据

R语言广义线性模型GLM、多项式回归和广义可加模型GAM预测泰坦尼克号幸存者

R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)

R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

R语言广义线性模型(GLMs)算法和零膨胀模型分析

R语言中广义线性模型(GLM)中的分布和连接函数分析

R语言中GLM(广义线性模型),非线性和异方差可视化分析

R语言中的广义线性模型(GLM)和广义相加模型(GAM):多元(平滑)回归分析保险资金投资组合信用风险敞口

用广义加性模型GAM进行时间序列分析

R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析

在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析

用广义加性模型GAM进行时间序列分析

R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析

在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析

c51ec05dbf4e9c72d0cd6a0037003f79.png

9e41b454ef7bf92bae14b7f6ed7569a8.jpeg

54649f3b87fafa277e9c7510322a5465.png

这篇关于数据分享|R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/222842

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业