【Pandas】数据分析预备

2024-09-06 05:12
文章标签 pandas 数据分析 预备

本文主要是介绍【Pandas】数据分析预备,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Pandas

构建在NumPy之上,继承了NumPy高性能的数组计算功能,同时提供更多复杂精细的数据处理功能

  • 安装
    pip install pandas
  • 导入
import pandas as pd

Series

键值对列表

# 创建Series
s1 = pd.Series([5, 17, 3, 26, 31])
s1

0 5
1 17
2 3
3 26
4 31
dtype: int64

# 获得Series的元素和索引
s1.values

array([ 5, 17, 3, 26, 31])

s1.index

RangeIndex(start=0, stop=5, step=1)

# 索引和切片操作
print(s1[2])
print(s1[1:3])

3
1 17
2 3
dtype: int64

#既可以用标签索引也可以用位置索引
s1 = pd.Series([5, 17, 3, 26, 31], index=["a","d","b","c","e"])
print(s1)
print(s1["b"])
print(s1[1])

a 5
d 17
b 3
c 26
e 31
dtype: int64
3
17

# 标签索引切片包含结束值
s1["d":"c"]

d 17
b 3
c 26
dtype: int64

# 用索引获得任意元素
s1[["a","e","c"]]

a 5
e 31
c 26
dtype: int64

# loc:用标签索引 iloc:用位置索引
s2 = pd.Series([5,17,3,26,31], index=[1,3,5,7,9])
print(s2.loc[3])
print(s2.iloc[3])print(s2.loc[1:3]) #包括结束
print(s2.iloc[1:3]) #不包括结束位置

17
26
1 5
3 17
dtype: int64
3 17
5 3
dtype: int64

# 创建Series的另一种方式
s3 = pd.Series({"qc":4.1,"blb":2.2,"xhs":5.3,"td":3.7,"hg":6.8})
s3

qc 4.1
blb 2.2
xhs 5.3
td 3.7
hg 6.8
dtype: float64

# 查看标签是否存在
"qc" in s3
# 可以根据条件筛选
s3[(s3>5)&(s3<6)]
# 计算操作索引自动对齐,缺失值用0代替
s1.add(s2, fill_value=0)
# 统计信息
s1.describe()

count 5.000000
mean 16.400000
std 12.401613
min 3.000000
25% 5.000000
50% 17.000000
75% 26.000000
max 31.000000
dtype: float64

# 对元素分别操作
# 使用函数作为参数,不改变原始Series,返回新Series
# grades = scores.apply(get_grade_from_score)

Dataframe

数据表格,可以看成由Series组成的字典

  • 创建:值是Series或列表,列是各个Series对应的列名
df4 = pd.DataFrame({"学号":{"小明":"01","小红":"02","小杰":"03"}, "班级":{"小明":"二班","小红":"一班","小杰":"二班"},"成绩":{"小明":92,"小红":67,"小杰":70}})
df4

在这里插入图片描述

df4.index #获取索引
df4.columns #获取列名
df4.values #获取值(返回NumPy数组)
# 转置
df4.T
df4["班级"]

小明 二班
小红 一班
小杰 二班
Name: 班级, dtype: object

df4.班级  #列名也是dataFrame的属性,特殊符号不适用

小明 二班
小红 一班
小杰 二班
Name: 班级, dtype: object

df4[["学号", "成绩"]]
df4.loc["小红"]

学号 02
班级 一班
成绩 67
Name: 小红, dtype: object

df4.loc["小红","成绩"]

np.int64(67)

df4.loc[:,"成绩"]
df4[df4.成绩 > 67]
# 返回前5行  df4.head()
df4.head(2)# 对列赋值:更新或者增加列值
df4["成绩"] = pd.Series([88, 77, 66], index=["小明","小红","小杰"])
df4["性别"] = ["男", "女", "男"]
df4# 对行用loc
df4.loc["小虎"] = ["04", "三班", 99, "男"]
df4df4.drop(["小明", "小虎"]) # 删除行df4.drop("班级", axis=1) # 删除列 axis=1横向依次(判断)操作# df1.mean(axis=1) # 对行求平均值# df1.apply(函数)# 将函数用在每列
# df1.applymap(function) # 用在每个元素
# 原始df并不改变df4.describe() # 忽略非数字列

这篇关于【Pandas】数据分析预备的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141091

相关文章

Python下载Pandas包的步骤

《Python下载Pandas包的步骤》:本文主要介绍Python下载Pandas包的步骤,在python中安装pandas库,我采取的方法是用PIP的方法在Python目标位置进行安装,本文给大... 目录安装步骤1、首先找到我们安装python的目录2、使用命令行到Python安装目录下3、我们回到Py

解读Pandas和Polars的区别及说明

《解读Pandas和Polars的区别及说明》Pandas和Polars是Python中用于数据处理的两个库,Pandas适用于中小规模数据的快速原型开发和复杂数据操作,而Polars则专注于高效数据... 目录Pandas vs Polars 对比表使用场景对比Pandas 的使用场景Polars 的使用

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

Pandas中多重索引技巧的实现

《Pandas中多重索引技巧的实现》Pandas中的多重索引功能强大,适用于处理多维数据,本文就来介绍一下多重索引技巧,具有一定的参考价值,感兴趣的可以了解一下... 目录1.多重索引概述2.多重索引的基本操作2.1 选择和切片多重索引2.2 交换层级与重设索引3.多重索引的高级操作3.1 多重索引的分组聚

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

【Python从入门到进阶】64、Pandas如何实现数据的Concat合并

接上篇《63.Pandas如何实现数据的Merge》 上一篇我们学习了Pandas如何实现数据的Merge,本篇我们来继续学习Pandas如何实现数据的Concat合并。 一、引言 在数据处理过程中,经常需要将多个数据集合并为一个统一的数据集,以便进行进一步的分析或建模。这种需求在多种场景下都非常常见,比如合并不同来源的数据集以获取更全面的信息、将时间序列数据按时间顺序拼接起来以观察长期趋势等

图神经网络(2)预备知识

1. 图的基本概念         对于接触过数据结构和算法的读者来说,图并不是一个陌生的概念。一个图由一些顶点也称为节点和连接这些顶点的边组成。给定一个图G=(V,E),  其 中V={V1,V2,…,Vn}  是一个具有 n 个顶点的集合。 1.1邻接矩阵         我们用邻接矩阵A∈Rn×n表示顶点之间的连接关系。 如果顶点 vi和vj之间有连接,就表示(vi,vj)  组成了