R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据

本文主要是介绍R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近我们被客户要求撰写关于桑基图的研究报告,包括一些图形和统计输出。

本文介绍了冲积/桑基图,以及

  • 定义了命名方案和冲积/桑基图的基本组成部分(轴、冲积层、流)。
  • 描述了所识别的冲积/桑基图数据结构。
  • 展示了一些流行的主题。

冲积/桑基图

这里有一个典型的冲积/桑基图。

现在,我们以该图像为参考点,定义典型冲积图的以下元素。

  • 轴是一个维度(变量),数据沿着这个维度在一个固定的水平位置被垂直分组。上面的图使用了三个分类轴。 船舱等级、性别和年龄。
  • 每个轴上的组被描述为不透明的块,称为类别。例如,类别轴包含四个等级的舱:一等舱、二等舱、三等舱和船员。
  • 水平样条被称为冲积流,横跨该图。在该图中,每个冲积层对应于每个轴变量的一个固定值,由其在轴上的垂直位置表示,由其填充颜色表示。
  • 相邻轴对之间的冲积段是流动的。
  • 冲积与层相交的节点。节点在上面的图中并不直观,但可以推断为填充的矩形,它将层中的流延伸到图的两端,或者将中心层两边的流连接起来。

正如下一节中的例子所示,这些元素中哪些被纳入冲积图,取决于基础数据的结构和创建者希望图中传达的内容。

冲积/桑基图数据

识别两种格式的 "冲积/桑基图数据",它们基本上对应于分类重复测量数据的 "宽 "和 "长 "格式。第三种,表格(或数组)形式,流行于存储具有多个分类维度的数据,如泰坦尼克号幸存数据和大学录取情况数据集。

(宽)格式数据

宽格式数据每一行都对应于在每个变量上取一个特定值的观察队列,每个变量都有自己的列。另外一列包含了每一行的数量,如队列中的观察单元数,可用于控制层的高度。 基本上,宽格式由每一冲积层的一行组成。这是基础函数as.data.frame()转换频率表的格式,例如3维的大学录取情况数据集。

head(as.data.frame(UCBAdmissions), n = 12)

这种格式:用户声明数量的轴变量,识别并处理。


plot(pltdat1,aes(y = Freq)) +
strat(width = 1/12) +
geom_label(stat = "stratum")) +
ggtitle("大学录取和拒绝情况,按性别和系别分列")+theme_bw()

这些图的一个重要特征是纵轴的意义。各层之间没有插入空隙,所以图的总高度反映了观测值的累积数量。


plot((Titanic),stratumwidth = 1/8, reverse = FALSE ,stat = "stratum", aes(label = after_stat(stratum)), labels = c("幸存", "性别", "船舱等级")) +
title("按等级和性别划分的泰坦尼克号幸存状况")+theme_bw()

这种格式和功能对很多应用都很有用。

  • axis[0-9]*表示位置。
  • 由stat_stratum()产生的分层变量。
  • 横轴反映识别该轴的隐含分类变量。

此外,像填充这样的格式美学对于每个冲积图来说都是固定的;例如,它们不能根据每个轴的取值而在轴之间变化。这意味着,尽管它们可以重现平行集的分支树结构,但这种格式和功能不能产生具有这里("冲积图")和这里("控制颜色")特色的颜色方案的冲积图,它们在每个轴上都被 "重置"。

(长)格式

长格式包含了每一节的一行,变成一个键值对,编码轴为键,层为值的列。这种格式需要一个额外的索引列,将对应于一个共同队列的行连接起来,即一个冲积层的结点。

在宽格式(alluvia)和长格式(lodes)之间转换数据的函数包括几个参数。

同样的stat和geom可以使用一套不同的位置美学来接收这种格式的数据。

  • x,表示该行所对应的轴的 "键 "变量,要沿横轴排列。
  • 层,由x表示的轴变量的 "值";以及
  • 冲积层,连接单个冲积层的行的索引方案。

难民数据分析

在这些情况下,分层没有包含比冲积层更多的信息,因此通常不会被绘制。作为一个例子,我们可以将难民数据集中的国家按地区分组,以比较不同规模的难民数量。

qplot(data = Refug,x = year, y = refugees,alluvium = country,fill = country, 
colour = country)

该格式允许我们指定沿同一冲积层的不同轴线变化的美学,对重复测量数据集很有用。需要为每个冲积物生成一个单独的图形对象。

学术课程分析

下面的图表使用了一组学生在几个学期内的学术课程的(变化)。在所有学期中跟踪每个学生。

ggplot(majos,flow = "alluvium", lode = "frontback",legend.position = "bottom")

分层高度y没有被指定,所以每一行都被赋予单位高度。这个例子展示了处理缺失数据的一种方式。缺失数据的处理(特别是层的顺序)也取决于层变量是字符还是因子/数字的。

最后,我们提供了汇总相邻轴之间流量的选项。我们可以在流感疫苗调查的数据上演示这个选项。

qplot(vaccina,x = survey, stratum = response, alluvium = subject,y = freq, stat = "stratum", size = 3) 

这张图忽略了轴之间流动的连续性。这种 "无记忆 "图产生了一个不那么杂乱的图,其中最多只有一个流量从一个轴上的每个层到下一个轴上的每个层。


这篇关于R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/278756

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

GO语言短变量声明的实现示例

《GO语言短变量声明的实现示例》在Go语言中,短变量声明是一种简洁的变量声明方式,使用:=运算符,可以自动推断变量类型,下面就来具体介绍一下如何使用,感兴趣的可以了解一下... 目录基本语法功能特点与var的区别适用场景注意事项基本语法variableName := value功能特点1、自动类型推

GO语言中函数命名返回值的使用

《GO语言中函数命名返回值的使用》在Go语言中,函数可以为其返回值指定名称,这被称为命名返回值或命名返回参数,这种特性可以使代码更清晰,特别是在返回多个值时,感兴趣的可以了解一下... 目录基本语法函数命名返回特点代码示例命名特点基本语法func functionName(parameters) (nam

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十