本文主要是介绍巩固学习8,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
在 Pandas 中,sep参数用于指定数据中字段之间的分隔符。常见的参数包括:
逗号:,,常用于CSV文件。
制表符:\t,常用于TSV文件。
空格:’ ',用于空格分隔的数据。
分号:;,有些文件使用分号来分隔字段。
正则表达式:使用正则表达式作为分隔符。
这些是一些常见的sep参数值,具体取决于数据文件中字段之间的实际分隔符。
pandas数据处理的过程
1.data=pd.read_csv('快餐数据.tsv',sep='\t')#读入数据,读入tsv文件一般加\t
2.data.info()#显示日志信息,查看有哪些存在空数据
了解数据大致情况
3.data.columns#打印全部的列名称
了解每一列的名称,确定要处理的数据
4.data[['item_name','quantity']].groupby(['item_name']).sum()#先将所有的项目综合表示出来
根据题目将需要处理的数据分别找出来
5
# 通常,pandas中的groupby()方法在调用完毕之后,会将by之后的列修改为index
# 该参数是控制groupby方法是否需要将列作为新的index。默认是True,
# 为了达到上述目的,我们只需要将其设置为False即可
c=data[['item_name','quantity']].groupby(['item_name'],as_index=False).sum()
c.sort_values(['quantity'],inplace=True,ascending=False)#对quantity进行排序,inplace代表修改时是否创建新的对象,True代表直接对原数据进行修改,ascend表示如何排序true为降序
c.head()#head默认为获取前5个数据
这篇关于巩固学习8的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!