《Practical Statistics for Data Scientists》Chapter 2:Data and Sampling distributions

本文主要是介绍《Practical Statistics for Data Scientists》Chapter 2:Data and Sampling distributions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本章主要总结几个概念性的东西:

  • target shuffle:discern between signal and noise
  • confidence intervals | the level of confidence
  • QQ-plots:利用该图判定数据是否服从正态分布
  • long-tailed distribution
  • t-distribution
  • binomial distribution
  • possion distribution | exponential distribution | weibull distribution

1、target shuffle:当你训练了一个model后,想要验证model的预测效果,可以首先用model预测若干sample的label,然后将这些label重新shuffle,得到label*,将这2种label与sample实际的label_y进行比较,如果label与label_y大部分相同,而label*与label_y仅有几例是相同的,说明,model能够有效预测sample。target shuffle这种方法可以convince client to believe the model。
参考文章:target shuffle

2、confidence interval(置信区间) && the level of confidence(置信度)
置信区间 一般与 置信度 相对应,如下图所示:90%的置信度 对应的 置信区间为:[53610,62279]。

对于上述置信度和置信区间,我们可以这样理解:我们有90%的把握说,总体的真值在[53610,62279]区间内。
一般,置信度越小,置信区间越窄。

3、在真实世界,鲜少有raw data服从normal distribution,要判断一个raw data是否服从normal distribution(Guassian),我们可以通过如下步骤进行判断:
step1:将raw data中的value进行z-score转换,记为Z;(z-score就是将value进行如下转化:(value - mean)/std )
step2:将Z进行升序排序;
step3:plots each value’s z-score on the y-axis; the x-axis is the corresponding quantile of a normal distribution for that value’s rank.
step4:If the points roughly fall on the diagonal line, then the sample distribution can be considered close to normal.

在R中的代码实现如下:

norm_samp <- rnorm(100)
qqnorm(norm_samp)
abline(a=0, b=1, col='grey')


4、介绍几种分布

  • long-tailed distribution
    Most data is not normally distributed.
    Assuming a normal distribution can lead to underestimation of extreme events,下图为QQ-plot,图中展现了long-tailed distribution 与 normal distribution的区别,从图中可以看出,在long-tailed distribution中,极值部分 都与 normal dsitribution(diagonal line)不重叠,long-tailed distribution更能代表“实际数据的分布”。
    除此以外,从图中还可以看出,在均值的1个标准差范围内,long-tailed distribution接近line。

    在实际中,对于raw data的distribution要根据“领域经验”和“统计知识”一起判断。比如,拟合“events per time period”,可以采用Possion distribution。
  • Student’s t-Distribution
  1. The t-distribution is actually a family of distributions resembling the normal distribution, but with thicker tails.
  2. It is widely used as a reference basis for the distribution of sample means, differerences between two sample means, regression parameters, and other sample statistics.
  3. sample数量越大,其拟合的t-distribution越接近于normal distribution.
  • Binomial distribution
  1. Binomial outcomes are important to model, since they represent, among other things, fundamental decisions (buy or don’t buy, click or don’t click, survive or die, etc.).
  2. A binomial trial is an experiment with two possible outcomes: one with probability p and the other with probability 1 – p.
  3. With large n, and provided p is not too close to 0 or 1, the binomial distribution can be approximated by the normal distribution.
  • Possion and related distribution
DistributionParameter描述事件
Possion distributionlambda:The rate (per unit of time or space) at which events occur ;lambda = mean = varianceThe frequency distribution of the number of events in sampled units of time or space.
Exponential distributionlambda:The rate (per unit of time or space) at which events occur ;The frequency distribution of the time or distance from one event to the next event.
Weibull distributionWeibull distribution中有2个参数,一个是shape parameter “beta”:用于刻画event rate,If “beta>1”,the probability of an event increases over time, if “beta< 1”, it decreases;另一个是scale parameter “eta”,用于刻画“特征寿命”,A generalized version of the exponential, in which the event rate is allowed to shift over time.

这篇关于《Practical Statistics for Data Scientists》Chapter 2:Data and Sampling distributions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/505989

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统

引言 在企业级应用开发中,数据库操作是非常重要的一环。Spring Data JPA提供了一种简化的方式来进行数据库交互,它使得开发者无需编写复杂的JPA代码就可以完成常见的CRUD操作。此外,设计模式如单例模式可以帮助我们更好地管理和控制对象的创建过程,从而提高系统的性能和可维护性。本文将展示如何结合Spring Boot、Spring Data JPA以及单例模式来构建一个基本的库存管理系统

15 组件的切换和对组件的data的使用

划重点 a 标签的使用事件修饰符组件的定义组件的切换:登录 / 注册 泡椒鱼头 :微辣 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-

12C 新特性,MOVE DATAFILE 在线移动 包括system, 附带改名 NID ,cdb_data_files视图坏了

ALTER DATABASE MOVE DATAFILE  可以改名 可以move file,全部一个命令。 resue 可以重用,keep好像不生效!!! system照移动不误-------- SQL> select file_name, status, online_status from dba_data_files where tablespace_name='SYSTEM'

Chapter 13 普通组件的注册使用

欢迎大家订阅【Vue2+Vue3】入门到实践 专栏,开启你的 Vue 学习之旅! 文章目录 前言一、组件创建二、局部注册三、全局注册 前言 在 Vue.js 中,组件是构建应用程序的基本单元。本章详细讲解了注册和使用 Vue 的普通组件的两种方式:局部注册和全局注册。 本篇文章参考黑马程序员 一、组件创建 ①定义 Vue 组件是一种具有特定功能的 Vue 实

Chapter 10 Stability and Frequency Compensation

Chapter 10 Stability and Frequency Compensation Chapter 8介绍了负反馈, 这一章介绍稳定性, 如果设计不好, 负反馈系统是要发生震荡的. 首先我们学习理解稳定判断标准和条件, 然后学习频率补偿, 介绍适用于不同运放的补偿方式, 同时介绍不同补偿对两级运放slew rate的影响, 最后介绍Nyquist’s判断标准 10.1 Gener

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

java.sql.SQLException: No data found

Java代码如下: package com.accord.utils;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import

FORM的ENCTYPE=multipart/form-data 时request.getParameter()值为null问题的解决

此情况发生于前台表单传送至后台java servlet处理: 问题:当Form需要FileUpload上传文件同时上传表单其他控件数据时,由于设置了ENCTYPE=”multipart/form-data” 属性,后台request.getParameter()获取的值为null 上传文件的参考代码:http://www.runoob.com/jsp/jsp-file-uploading.ht