【Pandas驯化-04】Pandas中drop_duplicates、describe、翻转操作

2024-06-16 13:20

本文主要是介绍【Pandas驯化-04】Pandas中drop_duplicates、describe、翻转操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【Pandas驯化-04】Pandas中drop_duplicates、describe、翻转操作
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

🌵文章目录🌵

  • 🎯 1. 基本介绍
  • 💡 2. 使用方法
    • 2.1 去重drop_duplicates
    • 2.2 描述信息describe
    • 2.3 行列的翻转
  • 🔍 3. 高阶用法
    • 3.1 describe高阶用法
  • 🔍 4. 注意事项
  • 🔧 5. 总结

下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1. 基本介绍

  在处理数据集时,我们经常需要执行一些基本操作,如去除重复项、获取数据的描述性统计信息,以及对数据进行翻转操作。本文将介绍 Pandas 中的 drop_duplicates、describe 函数以及翻转操作的使用方法。

💡 2. 使用方法

2.1 去重drop_duplicates

  drop_duplicates 函数用于删除 DataFrame 中的重复行。默认情况下,它会检查所有列,找出重复的行,并只保留第一次出现的行。

import pandas as pd# 创建一个包含重复行的 DataFrame
data = {'Name': ['Alice', 'Bob', 'Alice', 'David'],'Age': [24, 27, 24, 32]}
df = pd.DataFrame(data)# 去除重复项,默认保留第一个出现的重复项
df_unique = df.drop_duplicates()
print(df_unique)# 删除数据中的重复项数据 df.drop_duplicated() # 有subset, keep等参数可以选择,# 对哪些列重复数据 进行操作,保留最重复项中的哪一个 # 输出所以数据中重复的数据 df[df.duplicated()], #原理和上述输出空值差不多,都是将重复的数据转为True和False来提取为True的数据

2.2 描述信息describe

  describe 函数提供了一个快速的方法来获取 DataFrame 中数值列的描述性统计信息,包括计数、平均值、标准差、最小值、四分位数和最大值。

import pandas as pd# 使用 describe 获取描述性统计信息
desc_stats = df.describe()
print(desc_stats)

2.3 行列的翻转

  Pandas 中的翻转操作包括轴向翻转(transpose)和行或列的反转。transpose 方法用于交换 DataFrame 的行和列,而行或列的反转可以使用 iloc 或布尔索引实现,具体的用法如下所示:

# 使用 transpose 翻转 DataFrame 的行和列
df_transposed = df.transpose()
print(df_transposed)# 使用 iloc 反转 DataFrame 的行
df_reversed_rows = df.iloc[::-1]
print(df_reversed_rows)# 使用 iloc 反转 DataFrame 的列
df_reversed_columns = df.iloc[:, ::-1]
print(df_reversed_columns)

🔍 3. 高阶用法

3.1 describe高阶用法

   默认情况下,describe()函数只会包括数值类型的列,而会忽略对象类型的列。如果想要包括对象类型的列,可以通过设置参数include='all’来实现。下面是一个示例代码,演示如何使用describe()函数包括对象类型的列:

import pandas as pd# 创建示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie'],'Age': [25, 30, 35],'City': ['Beijing', 'Shanghai', 'Guangzhou']}
df = pd.DataFrame(data)# 默认describe()
print(df.describe())# 包括对象类型的列
print(df.describe(include='all'))Age
count   3.000000
mean   30.000000
std     5.000000
min    25.000000
25%    27.500000
50%    30.000000
75%    32.500000
max    35.000000Name        Age      City
count     3   3.000000         3
unique    3        NaN         3
top     Bob        NaN  Shanghai
freq      1        NaN         1
mean    NaN  30.000000       NaN
std     NaN   5.000000       NaN
min   Alice  25.000000       NaN
25%     NaN  27.500000       NaN
50%     NaN  30.000000       NaN
75%     NaN  32.500000       NaN
max  Charlie  35.000000       NaN

  

🔍 4. 注意事项

  对上述的各个函数在使用的过程中需要注意的一些事项,不然可能会出现error,具体主要为:

  • 使用 drop_duplicates 时,可以指定 subset 参数来只对某些列进行去重。
  • describe 默认不包括对象类型的列,如果需要包括,可以设置 include=‘all’。
  • 在执行翻转操作时,要确保索引的使用是正确的,以避免出现错误或不符合预期的结果。

🔧 5. 总结

  本文介绍了 Pandas 中的 drop_duplicates、describe 函数以及翻转操作的使用方法。这些功能在日常的数据分析工作中非常有用,可以帮助我们快速去除数据中的重复项,获取数据的描述性统计信息,以及对数据进行必要的翻转操作。通过实际的代码示例,我们可以看到这些操作是如何简单而有效地应用于实际的数据集上的。希望这篇博客能够帮助你更好地利用 Pandas 进行数据分析。

这篇关于【Pandas驯化-04】Pandas中drop_duplicates、describe、翻转操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1066569

相关文章

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

取得 Git 仓库 —— Git 学习笔记 04

取得 Git 仓库 —— Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区、索引、本地版本库之间的交互;二是本地版本库和远程版本库之间的交互。第一块是基础,第二块是难点。 下面,我们就围绕着第一部分内容来学习,先不考虑远程仓库,只考虑本地仓库。 怎样取得项目的 Git 仓库? 有两种取得 Git 项目仓库的方法。第一种是在本地创建一个新的仓库,第二种是把其他地方的某个

动手学深度学习【数据操作+数据预处理】

import osos.makedirs(os.path.join('.', 'data'), exist_ok=True)data_file = os.path.join('.', 'data', 'house_tiny.csv')with open(data_file, 'w') as f:f.write('NumRooms,Alley,Price\n') # 列名f.write('NA

线程的四种操作

所属专栏:Java学习        1. 线程的开启 start和run的区别: run:描述了线程要执行的任务,也可以称为线程的入口 start:调用系统函数,真正的在系统内核中创建线程(创建PCB,加入到链表中),此处的start会根据不同的系统,分别调用不同的api,创建好之后的线程,再单独去执行run(所以说,start的本质是调用系统api,系统的api

Java IO 操作——个人理解

之前一直Java的IO操作一知半解。今天看到一个便文章觉得很有道理( 原文章),记录一下。 首先,理解Java的IO操作到底操作的什么内容,过程又是怎么样子。          数据来源的操作: 来源有文件,网络数据。使用File类和Sockets等。这里操作的是数据本身,1,0结构。    File file = new File("path");   字

MySQL——表操作

目录 一、创建表 二、查看表 2.1 查看表中某成员的数据 2.2 查看整个表中的表成员 2.3 查看创建表时的句柄 三、修改表 alter 3.1 重命名 rename 3.2 新增一列 add 3.3 更改列属性 modify 3.4 更改列名称 change 3.5 删除某列 上一篇博客介绍了库的操作,接下来来看一下表的相关操作。 一、创建表 create

封装MySQL操作时Where条件语句的组织

在对数据库进行封装的过程中,条件语句应该是相对难以处理的,毕竟条件语句太过于多样性。 条件语句大致分为以下几种: 1、单一条件,比如:where id = 1; 2、多个条件,相互间关系统一。比如:where id > 10 and age > 20 and score < 60; 3、多个条件,相互间关系不统一。比如:where (id > 10 OR age > 20) AND sco

PHP7扩展开发之流操作

前言 啥是流操作?简单来讲就是对一些文件,网络的IO操作。PHP已经把这些IO操作,封装成流操作。这节,我们将使用PHP扩展实现一个目录遍历的功能。PHP示例代码如下: <?phpfunction list_dir($dir) {if (is_dir($dir) === false) {return;} $dh = opendir($dir);if ($dh == false) {ret

浙大数据结构:树的定义与操作

四种遍历 #include<iostream>#include<queue>using namespace std;typedef struct treenode *BinTree;typedef BinTree position;typedef int ElementType;struct treenode{ElementType data;BinTree left;BinTre

浙大数据结构:04-树7 二叉搜索树的操作集

这道题答案都在PPT上,所以先学会再写的话并不难。 1、BinTree Insert( BinTree BST, ElementType X ) 递归实现,小就进左子树,大就进右子树。 为空就新建结点插入。 BinTree Insert( BinTree BST, ElementType X ){if(!BST){BST=(BinTree)malloc(sizeof(struct TNo