本文主要是介绍使用pandas替代Excel中的繁琐操作-条件判别和loc函数使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
欢迎关注微信公众号:excelwork
“ 使用Excel进行数据分析,有些数据总要经过很多步操作实现,而在操作过程中,如果对Excel理解不深,又很难掌控。这种时候,我们唯一要做的,就是用最简单的方式解决它。”
以下介绍会包括:数据替换(使用replace函数及条件判别)、数据切割(loc及iloc函数)
01
数据替换
1.1 简单替换
比如,把空值替换成0,把字符a替换成字符b等诸如此类操作
pandas有replace函数,可直接使用。
import numpy as np #导入numpy
print(data.replace(np.nan,'0'))
可以看到,col_c列中的空值被替换成了0。不过,如果此处先进行处理,再进行输出,并不会得到想要的结果,因为原来的对象data并未发生改变,而是生成了一个新的对象。
而如果必须这么操作,并实现替换的话,可以用replace中的参数inplace=True来完成。
data.replace(np.nan,'0',inplace=True)
print(data)
结果如下:
1.2 条件替换
1.2.1 将a列中小于5的数值,用B列替换
data.loc[data.col_a<5,'col_a']=data.col_b
可以看到,col_a列中的第1~3行小于5的都被col_b列数据替换。
1.2.2 将a列中小于b列的数值,用c列替换
data.loc[data.col_a<data.col_b,'col_a']=data.col_c
1.2.3 当a列小于b列时,对当前行的部分列进行替换
若col_a列数值小于col_b列,则col_a和col_c列的数值都要被替换成col_b列数值。
data.loc[data.col_c<data.col_e,['col_a','col_b']]=data.col_e
02
数据查找
我们经常会因为需要拿到想要的数据,而需要多次筛选数据,并保留筛选结果,那如何一次性输出想要的数据集呢?
2.1 标签索引
通过loc函数行标签选择,逗号左侧是行选择,右侧是列选择。
2.1.1 获取某行某列对应的值
获取第一列和第一行对应的值
print(data.loc['row_1','col_a'])
结果:3
2.1.2 获取连续行、列对应的值
获取第1~3行和第1~2列对应的值
print(data.loc['row_1:row_3','col_a:col_b'])
结果:
2.1.3 获取不连续行、列对应的值
获取第1,3行和第1,3,5列对应的值
print(data.loc[['row_1','row_3'],['col_a','col_c','col_e']])
结果:
2.2 位置索引
通过iloc函数行位置选择,位置为整数索引。同样,逗号左侧是行选择,右侧是列选择。用法基本同标签索引,只不过比标签较少了输入,只需要输入整数即可。(左闭右开)
2.1.1 获取某行某列对应的值
获取第二列和第二行对应的值
print(data.loc[1,1])
结果:5
2.1.2 获取连续行或列的值
获取前三行数据(索引0,1,2)。
print(data.iloc[:3])
获取第三行之后的数据,也就是第四行和第五行。(索引3及以上)
print(data.iloc[3:])
2.3 多条件查找
获取a列大于5但是b列小于20的数据(注意条件加括号:因为比较运算符优先级低于按位与&,加上括号后,提高了优先级)。
print(data[(data.col_a>5)&(data.col_b<20)])
这篇关于使用pandas替代Excel中的繁琐操作-条件判别和loc函数使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!