Statistic with Python 1

本文主要是介绍Statistic with Python 1 - Introduction，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Statistic with Python 1

统计学至关重要，相信我们每一个人都有所耳闻！但是统计学具体运用在什么方面？我们又应该怎么学？本章将带你探索 Python 中的统计学基础概念和工具。通过深入的示例和逐步学习，你将掌握如何处理数据、进行可视化和进行统计分析，从而更好地理解数据并做出数据驱动的决策。立即启程，让 Python 成为你统计学学习之旅的得力伙伴！

What are Statistics

1.定义和范畴：

统计学是涵盖从数据中学习的主题。
方法论方面涉及工具和方法，以便理解和分析数据。
统计学家应用和发展数据分析方法，不断寻求了解这些方法的性质。
-Landscape:
方法属性、应用与发展、Data types、Computing 复杂分析
Data misleading- meaningful; 探寻真理

2.用途：

决策：在不确定性中做决策的领域。平衡不同方法的成本和效益，以做出决策。
变异：focus on central value, 了解变化variation
-预测forecasting：预测或预测 = 统计学的核心任务。无法绝对确定未来，但对可用数据的有效利用有时能够对未来做出准确的预测。
测量：Statistics as the “science of measurement”
a. High accuracy: person’s age or height
b. More difficult: blood pressure (varies minute to minute)
c. Harder: "mood”, “political ideology’, "personality”

3. 方法：

同质性和多维数组：
- NumPy数组的同质性和多维性。
- 数组的轴和秩的概念。
  -索引和形状：
- 通过零起始的整数位置进行索引。
- 数组的维度是秩，形状是沿每个维度的大小的元组。
术语区分：
- 区分统计量和统计学领域。
- 统计量是数据集的数值或图形摘要。
- 统计学是专注于研究方法论的学科。
数据总结：
- 对数据进行数值或图形总结，使其对人类观察者可理解。
- 统计学家使用各种技术来总结数据，以满足数据使用者的目标。
数据收集原则：
- 数据的最小收集原则，以管理资源限制。

4.与其他领域的交叉

概率论、遗传学、计量经济学对现代统计学的影响。
统计学作为研究和工业的关键领域。
统计学在各个领域中的应用，如计算机视觉、医疗保健、环境评估等。
- 统计学领域的不断发展和动态性。

Data

数据的形式：

数字数据：
- 表示为电子表格中的数字，例如国家健康和营养调查(NHANES)数据。
- 包括对特定变量的数字表示，例如性别。
图像数据：
- 利用图像，如Eigenfaces，将面部表示为数字。
- 应用于面部识别、Snapchat的面部交换等。
文本数据：
- 通过处理文本，如Harry Potter的整个文本，生成新章节。
- 电子健康记录中包含丰富的词汇，可用于匹配健康记录、文档分类以及去偏词嵌入。
音频数据：
- 通过应用如Shazam，识别音频的来源，如歌曲标题和艺术家。
- 利用Adobe Suite等应用进行声音编辑和语音复制。

数据应用示例：

面向单细胞RNA测序数据的统计学研究：
- 主要关注应用于单细胞RNA测序数据的统计学方法，解决批次效应等问题。
历史例子：
- 弗洛伦斯·南丁格尔作为护理创始人，同时也是统计学奠基人。
- 利用 Coxcomb 图分析克里米亚战争期间士兵的死亡原因和死亡率随时间和季节的变化。

Resources:

1. Organic/Process Data:
有机数据源自自然过程，如金融交易、网络浏览活动、体育赛事和温度监测，通常属于“大数据”范畴。设计采集的数据则包括有针对性的研究，如调查或对提取的推文进行编码分析。
讲座引入了“大数据”一词，强调有机过程生成的大规模数据，需要先进的计算资源进行分析。数据科学家通过挖掘这些数据集来发现趋势和关系，并提到了处理大数据的挑战。

2.Designed Data Collection。
由严格设计的数据采集方法产生的数据。这些研究涉及从人群中抽样(sample)个体或提取和编码特定推文进行分析。设计采集的数据通常规模较小，计算上更易处理。
引入了数据独立且同分布（i.i.d.）的概念：
== i= independent and id = identically distributed==
指出i.i.d.数据对于某些统计程序至关重要，并使分布特征能够得到精确估计。讲座最后讨论了数据不满足i.i.d.条件的情况，列举了一些例子，如考试作弊、性别得分差异和子群体之间的差异。在这些情况下，需要专门的分析程序，强调了在选择适当的统计方法之前了解数据来源的重要性。
重点：
• Need to Ask: Can we can apply procedures that assume i.i.d. data!
• Always consider where data came from!

变量类型

讲师Mark Rulkowski介绍了不同类型的变量，并根据NHANES数据集中的四个变量进行了说明。NHANES是美国国家卫生和营养检查调查，用于评估美国儿童和成年人的健康和营养状况。

数量变量Quantitative Variables：涵盖了连续量和离散量两个子类。
- 连续量变量Continuous（in range，不止是整数，任意取到），如体质指数（BMI）、身高、体重、年龄。
- 离散量变量Discrete，如家庭中的儿童人数，只能是有限的可数数字。
分类变量Categorical Variables：又称为定性变量，用于将个体或项目分类到不同组。分为有序分类变量和名义分类变量。
- 有序分类变量ordinal有一定的顺序或排名，如学生的年级；
- 名义分类变量Nominal则没有顺序，如种族或婚姻状况。

注意：
在处理数据时需要考虑变量类型，因为不同类型的变量可能需要不同的数据摘要和视角。这对后续的统计分析和数据解释至关重要。

Categorical Ordinal: The variable represents categories or groups (adult or not adult).
Would imply an ordered relationship among categories (e.g., low, medium, high).
Categorical Nominal: There is no inherent order or ranking among the categories; they are simply different groups.
Quantitative Continuous: Would represent numeric values that can take any real number within a range.
Quantitative Discrete: Would represent numeric values that are distinct and separate.

学习计划

观看视频：研究设计的不同类型，探索性与确认性研究、比较性与非比较性研究，以及观察性研究与实验研究的基本概念。
理解研究设计的谱系：了解从数据的探索性分析到高度计划的收集和分析数据的研究设计谱系。
分类研究设计：学习如何分类不同领域的研究设计，包括临床试验、可靠性和质量保证研究、人类健康观察研究、舆论调查、行政数据研究、市场调研和农业实地试验等。
掌握研究设计的基本概念：理解探索性研究和确认性研究的区别，以及比较性研究和非比较性研究的特点。同时，深入了解观察性研究和实验研究的基本概念，包括自我选择和实验者干预等。
Experiments：often involve random assignment of subjects to "treatment arms”.治疗分组
Observational Studies：often say subjects are "exposed to a condition rather than being “assigned”(passive or self-selected, used when impractical or unethical to assign)
关注实例和案例研究：比如比较不同施肥条件下橙子产量、观察吸烟对寿命或肺癌状态的影响等。这有助于将理论知识与实际情境联系起来。
学习关于研究中的偏见bias和权力分析Power analysis：measurements are off-target偏离目标 + sample is not representative/ study design- yield result;