R语言有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请、支出数据

本文主要是介绍R语言有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请、支出数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近我们被客户要求撰写关于有限混合模型聚类的研究报告,包括一些图形和统计输出。

 【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福质量系数可视化实例

KMEANS均值聚类和层次聚类:R语言分析生活幸福质量系数可视化实例

,时长06:05

摘要

有限混合模型是对未观察到的异质性建模或近似一般分布函数的流行方法。它们应用于许多不同的领域,例如天文学、生物学、医学或营销。本文给出了这些模型的概述以及许多应用示例。

相关视频:线性混合效应模型(LMM,Linear Mixed Models)和R语言实现

线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例

时长12:13

介绍

有限混合模型是对未观察到的异质性建模或近似一般分布函数的流行方法。它们应用于许多不同的领域,例如天文学、生物学、医学或营销。最近的专着 McLachlan 和 Peel (2000) 以及 Frühwirth-Schnatter (2006) 中给出了这些模型的概述以及许多应用示例。

有限混合模型

有限混合模型由 K 个不同分量的凸组合给出,即分量的权重为非负且总和为 1。对于每个组件,假设它遵循参数分布或由更复杂的模型给出,例如广义线性模型 (GLM)。下面我们考虑有限混合密度 h(·|·) 与 K 个分量、因变量 y 和(可选)自变量 x:

其中 ∀w, α:

我们假设分量分布 f(·|·) 来自具有分量特定参数 ϑk 的相同分布族。分量权重或先验类别概率 πk 可选地取决于伴随变量 w 和参数 α,并通过多项 logit 模型进行建模,例如 Dayton 和 Macready (1988) 中的建议。McLachlan 和 Peel (2000, p. 145) 中也描述了类似的模型类。该模型可以使用 EM 算法(参见 Dempster 等人,1977 年;McLachlan 和 Peel,2000 年)进行 ML 估计或使用 MCMC 方法进行贝叶斯分析(参见例如 Frühwirth-Schnatter,2006 年)。

示例应用

下面我们将展示两个使用该包的示例。第一个示例演示基于模型的聚类,第二个示例给出了拟合广义线性回归模型的混合的应用。

基于模型的聚类

以下数据集参考了 Simmons 媒体和市场研究。它包含去年使用威士忌品牌的所有家庭,并提供了今年 21 个威士忌品牌的品牌使用情况的二元关联矩阵。我们首先加载包和数据集。威士忌数据集包含来自 2218 个家庭的观察结果。图 1 中给出了每个品牌的相对使用频率。提供了其他品牌信息,表明威士忌的类型:混合威士忌或单一麦芽威士忌。


R> set.seed(102)

图 1:威士忌品牌的相对频率。

我们将二项式分布的混合拟合到数据集,其中假设每个组件特定模型中的变量是独立的。使用随机初始化将 EM 算法重复 3 次,即每个观察值分配给一个后验概率为 0.9 和 0.1 的成分,否则以相等的概率选择该成分。

mix(Ine ~ 1,
+ wets = ~ Freq, data = wey,
+ mol = FL,
+ conol = list(mior = 0.005),
+ k = 1:7, nrep = 3)

基于模型的聚类不使用解释变量,因此公式 Incidence ~ 1 的右侧是常数。我们改变 k = 1:7 的成分数量。关于每个不同数量成分的对数似然的最佳解决方案在类“stepFlexmix”的对象中返回。控制参数可用于控制 EM 算法的拟合。使用 minprior 指定成分的最小相对大小,在 EM 算法期间将删除低于此阈值的成分。

权重参数的使用允许仅使用唯一观察的数量进行拟合,这可以大大减少模型矩阵的大小,从而加快估计过程。对于这个数据集,这意味着模型矩阵有 484 行而不是 2218 行。可以使用信息标准进行模型选择,例如 BIC(参见 Fraley 和 Raftery,1998)。

R> BICbest <- Model(mix, "BIC")

可以使用诸如prior() 或parameters() 之类的函数来检查估计的参数。

R> priorR> parameters

每种成分的混合物拟合参数如图 2 所示。可以看出,成分 4(占家庭的 1.1%)包含购买不同品牌数量最多的家庭,所有品牌的购买程度相似。来自第 5 成分的家庭 (8.5%) 也购买各种威士忌品牌,但倾向于避免单一麦芽威士忌。成分 3 (43.1%) 的使用模式与成分 5 相似,但总体上购买的品牌较少。成分 1 (14.2%) 似乎偏爱单一麦芽威士忌,成分 2 (33%) 尤其喜欢其他品牌,不喜欢尊尼获加黑标。

混合回归分析专利数据

专利数据包括从国家经济研究局的关于制药和生物医学公司的专利申请、研发支出和销售额(以百万元计)的 70 项观察结果。数据如图 3 所示。

Wang等人选择的最佳模型(1998) 是三个泊松回归模型的有限混合,其中专利作为因变量,对数化​​的研发支出 lgRD 作为自变量,每个销售 RDS 的研发支出作为伴随变量。该模型可以使用特定于成分的模型驱动程序在 R 中拟合,拟合 GLM 的有限混合。作为伴随变量模型,用于多项 logit 模型,其中后验概率是因变量。

mix(Pats ~ RD,
+ k = 3, data ,
+ modlfaily = "poisson"),
+ coninom(~RS))

图 4 中给出了每个成分的观测值和拟合值。用于绘制观测值的颜色是根据使用最大后验概率的成分分配,这些概率是使用 聚类获得的。

图 4:专利数据以及每个成分的拟合值。

在图 5 中给出了观测值的后验概率的根图。这是拟合函数返回的对象的默认图。它可用于任意混合模型,并指示混合对观察结果的聚类程度。为便于解释,后验概率小于 eps=10−4 的观察被省略。对于第三个分量的后验概率最大的观测值用不同的颜色着色。该图是使用以下命令生成的。

plot(pamix)

所有三个分量的后验都在 0 和 1 处具有模式,表明聚类分离良好(Leisch,2004)。

图 5:后验概率的根图。

可以获得拟合混合物的更多详细信息,返回拟合值以及近似标准偏差和显着性检验,参见图 6。标准偏差只是近似值,因为它们是为每个成分单独确定的,而不是采用考虑到成分已被同时估计。图 7 中给出了估计系数。黑线表示(近似的)95% 置信区间。

plot(refit, byclu = FALSE)

参数 cluster 指示成分或不同变量是否用作面板的条件变量。

图 7:具有相应 95% 置信区间的成分特定模型的估计系数。

该图表明,即使第一个和第三个分量的 lgRD 系数相似,估计的系数在所有分量之间也有所不同。可以使用聚类参数的估计后验概率初始化 EM 算法。由于在这种情况下,第一个和第三个分量被限制为具有相同的 lgRD 系数,在重新排序分量以使这两个分量彼此相邻后,拟合混合的后验用于初始化。使用 BIC 将修改后的模型与原始模型进行比较。

fix(fam = "poisson",
+ nesd = list(k = c(1,2),
+ fora = ~lgRD))mix(Pats ~ 1,
+ cont = FLom(~RDS),
+ data , cluster

在这个例子中,原始模型是首选 被BIC选中。 

fit(patx)

概括

本文提供了使用 EM 算法拟合有限混合模型的基础方法,以及用于模型选择和模型诊断的工具。我们已经展示了该包在基于模型的聚类以及拟合有限混合模型回归分析方面的应用。将来,我们希望实现新的模型序,例如,用于具有平滑项的广义可加模型,以及扩展用于模型选择、诊断和模型验证的工具。


这篇关于R语言有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请、支出数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/370673

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个