Statistical transformations 统计转换

2024-03-17 08:48

本文主要是介绍Statistical transformations 统计转换,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

下图显示了钻石数据集中的钻石总数,按切工分组。钻石数据集来自 ggplot2,包含大约 54,000 颗钻石的信息,包括每颗钻石的价格、克拉、颜色、净度和切工。该图表显示,与低质量切割相比,高质量切割的钻石更多。

ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut))

在 x 轴上,图表显示切工,这是钻石的一个变量。 在 y 轴上,它显示计数,但计数不是钻石中的变量! 计数从何而来? 许多图表(如散点图)绘制数据集的原始值。 其他图形,如条形图,计算要绘制的新值:

  • 条形图、直方图和频率多边形对您的数据进行分箱,然后绘制分箱计数,即落在每个分箱中的点数。
  • 平滑器将模型拟合到您的数据,然后根据模型绘制预测。
  • boxplots 计算分布的可靠摘要,然后显示一个特殊格式的框。

用于计算图形新值的算法称为 stat,是统计变换的缩写。 下图描述了这个过程如何与 geom_bar() 一起工作。

您可以通过检查 stat 参数的默认值来了解 geom 使用的统计信息。 例如,?geom_bar 显示 stat 的默认值是“count”,这意味着 geom_bar() 使用 stat_count()。 stat_count() 与 geom_bar() 记录在同一页面上,如果向下滚动,您可以找到名为“计算变量”的部分。 这描述了它如何计算两个新变量:count 和 prop。 您通常可以交替使用 geoms 和 stats。 例如,您可以使用 stat_count() 而不是 geom_bar() 重新创建之前的图:

ggplot(data = diamonds) + stat_count(mapping = aes(x = cut))

 

在下面的代码中,我将 geom_bar() 的 stat 从 count(默认)更改为 identity。 这让我可以将条形的高度映射到 y 的原始值.

demo <- tribble(~cut,         ~freq,"Fair",       1610,"Good",       4906,"Very Good",  12082,"Premium",    13791,"Ideal",      21551
)ggplot(data = demo) +geom_bar(mapping = aes(x = cut, y = freq), stat = "identity")

例如,您可能想要显示比例条形图,而不是计数:

 

ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut, y = stat(prop), group = 1))

 

 

 例如,您可以使用 stat_summary() 来汇总每个唯一 x 值的 y 值,以引起对您正在计算的摘要的注意:

ggplot(data = diamonds) + stat_summary(mapping = aes(x = cut, y = depth),fun.min = min,fun.max = max,fun = median)

 

ggplot2 提供超过 20 个统计数据供您使用。 每个 stat 都是一个函数,因此您可以通过通常的方式获得帮助,例如 ?stat_bin。 要查看完整的统计信息列表,请尝试 ggplot2 备忘单。 

 

 

 

这篇关于Statistical transformations 统计转换的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/818445

相关文章

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

usaco 1.2 Transformations(模拟)

我的做法就是一个一个情况枚举出来 注意计算公式: ( 变换后的矩阵记为C) 顺时针旋转90°:C[i] [j]=A[n-j-1] [i] (旋转180°和270° 可以多转几个九十度来推) 对称:C[i] [n-j-1]=A[i] [j] 代码有点长 。。。 /*ID: who jayLANG: C++TASK: transform*/#include<

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

hdu4267区间统计

题意:给一些数,有两种操作,一种是在[a,b] 区间内,对(i - a)% k == 0 的加value,另一种操作是询问某个位置的值。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import

hdu4417区间统计

给你一个数列{An},然后有m次查询,每次查询一段区间 [l,r] <= h 的值的个数。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamRead

hdu3333区间统计

题目大意:求一个区间内不重复数字的和,例如1 1 1 3,区间[1,4]的和为4。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;

实例:如何统计当前主机的连接状态和连接数

统计当前主机的连接状态和连接数 在 Linux 中,可使用 ss 命令来查看主机的网络连接状态。以下是统计当前主机连接状态和连接主机数量的具体操作。 1. 统计当前主机的连接状态 使用 ss 命令结合 grep、cut、sort 和 uniq 命令来统计当前主机的 TCP 连接状态。 ss -nta | grep -v '^State' | cut -d " " -f 1 | sort |

PDF 软件如何帮助您编辑、转换和保护文件。

如何找到最好的 PDF 编辑器。 无论您是在为您的企业寻找更高效的 PDF 解决方案,还是尝试组织和编辑主文档,PDF 编辑器都可以在一个地方提供您需要的所有工具。市面上有很多 PDF 编辑器 — 在决定哪个最适合您时,请考虑这些因素。 1. 确定您的 PDF 文档软件需求。 不同的 PDF 文档软件程序可以具有不同的功能,因此在决定哪个是最适合您的 PDF 软件之前,请花点时间评估您的

C# double[] 和Matlab数组MWArray[]转换

C# double[] 转换成MWArray[], 直接赋值就行             MWNumericArray[] ma = new MWNumericArray[4];             double[] dT = new double[] { 0 };             double[] dT1 = new double[] { 0,2 };

Python脚本:TXT文档行数统计

count = 0 #计数变量file_dirs = input('请输入您要统计的文件根路径:')filename = open(file_dirs,'r') #以只读方式打开文件file_contents = filename.read() #读取文档内容到file_contentsfor file_content in file_contents: