本文主要是介绍用Python处理数据分析,这些电子表格你要知道,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
我在大学的时候曾经是Excel的忠实用户。那时我还不知道如何编码,所以至少我需要知道Excel才能找到工作。
每当我想清理数据、创建数据透视表和制作图表时,Excel都会给我很大帮助。也就是说,每当数据有几百万行或进行复杂的计算时,要么Excel变得很慢,要么工作簿崩溃了。
我数不清有多少次这些路障阻止了我的工作流程,也数不清有多少次我不得不一次又一次地重复一项任务。
幸运的是,我学会了用Python编码,我不再有这些问题了。
本文会给大家介绍一些Python中最好用的电子表格,以及为什么你应该选择它而不是excel
一、电子表格:Mito
Mito是Python中的一个电子表格。简单地说,如果你能编辑一个Excel文件,你现在就能写代码。
这意味着我们可以拥有像Excel这样的电子表格的简单性和Python的力量。我们可以像使用Excel一样使用Mito,在我们做完每个动作后,Mito会自动生成与每个动作相对应的Python代码。
要使用Mito,首先,我们需要安装Python和Jupyter Notebook或Jupyter Lab。然后,我们可以通过在终端或命令提示符上运行以下命令来安装Mito。
python -m pip install mitoinstaller
python -m mitoinstaller install
这就是我们开始使用Mito所需要的一切!
如果你在安装过程中有任何问题,请查看官方文档。https://docs.trymito.io/getting-started/installing-mito
现在让我们来做你在Excel中会做的任务,比如阅读文件、创建列、数据透视表、可视化等等。
二、为什么使用它
1、读取文件–Excel可以处理大约100万行,Python可以处理更多行
Excel在你能使用的行数上有一个限制。如果你试图打开一个有数百万行的文件,文件会被打开,但你在Excel中不会看到超过1,048,576行。相比之下,Python 可以处理数以百万计的行。唯一的限制将是你的PC的计算能力。
让我们看看我们如何用Mito读取一个文件。
在读取一个CSV文件之前,首先,我们需要创建一个Mito电子表格。要做到这一点,我们运行下面的代码。
import mitosheet
mitosheet.sheet()
现在是读取CSV文件的时候了。对于这个演示,我将使用一个包含学校分数的数据集,你可以在这里下载。一旦你下载了该文件,点击 "+"或 "导入 "按钮来读取它,如下所示。
除了导入之外,下面的代码也会自动生成。
import pandas as pd
StudentsPerformance_csv = pd.read_csv(r'StudentsPerformance.csv')。
2、用Excel,你可以实现基本的自动化。有了Mito和Python,天空是无限的
在Excel中,你可以创建一个宏来记录一系列的动作,只要你想,就可以执行。
有了Mito,我们可以做同样的事情,如果再加上Python的数百个免费库,你可以做更多的事情,比如通过电子邮件发送报告,使用WhatsApp发送文件,使用Google表单作为基本数据库等等。
让我们用Mito记录一些操作,就像我们使用Excel一样。
a. 创建一个新列/重命名列
如果你想创建一个新的列,只需点击 "Add Col "按钮。默认情况下,"添加列 "按钮将创建一个名为 "new-column "的列,因此我们将通过双击该列名将其重命名为 “average”。
Mito将生成与我们在电子表格上所做的操作相对应的代码。
b. 对某一行求和
如果你想对某一行进行求和,我们只需要在一个单元格中写出公式(math score+reading score+writing score)/3。比如我们想计算数学、阅读和写作的平均分数。我们只需要在 "平均 "栏内的任何单元格中写下公式(数学分数+阅读分数+写作分数)/3。
这是Mito生成的代码。
c. 制作一个透视表
创建一个透视表就像点击 "透视 "按钮一样简单。然后我们要选择行、列和值。让我们创建一个透视表,在 "种族/民族 "栏内显示A、B、C、D和E组的数学和阅读分数的平均值。
为了用Python创建这个数据透视表,我们必须编写下面的代码。使用Mito,上面的代码会自动生成。
d. 创建柱状图
基本的可视化,如饼状图和柱状图,可以用Mito轻松创建。我们只需要点击 "图表 "并选择图表类型。让我们为之前创建的透视表创建一个条形图,在X轴上显示 “种族/民族”,在Y轴上显示 “数学分数平均值”。
很好! 在a、b、c和d中生成的几行代码相当于一个Excel宏。每次运行代码,我们都会执行所有记录的动作。
03、Python可以处理复杂的计算。这些计算可以使Excel工作簿崩溃
那些会使Excel工作簿崩溃的内存密集型计算,在Python中可以正常工作。在这种情况下,我们要用另一个叫做bamboolib的Python库来执行一系列的动作。
三、电子表格:Bamboolib
要安装bamboolib,在终端上运行命令 pip install --upgrade bamboolib --user。之后,我们要运行下面的命令来读取CSV或Excel文件。
import bamboolib as bam
bam
在这种情况下,我们要在一个有超过100万行的CSV文件中进行一些计算,你可以在这里下载。(https://drive.google.com/file/d/1YiOVav6-g_K8icZMzPszy8K20ozkAMu0/view?usp=sharing)
像Mito一样,Bamboolib为我们生成了代码(从现在开始,我将只显示步骤,隐藏生成的代码,以保持本文的简短)。
import pandas as pd
df = pd.read_csv(r’/Users/frank/Downloads/sales-data.csv’, sep=’,’, decimal=’.’, nrows=100000)
df
现在让我们创建一个新的列。要做到这一点,我们在搜索栏上搜索动作,给列起一个名字,并输入列的公式。
对于这个演示,我们将通过使用公式 (revenue/quantity
)创建一个 "价格 "列。
现在让我们在搜索栏中输入 “透视表”。然后我们在行中按产品对数据进行分组,并使用 "sum "作为聚合函数。
接下来,我们创建一个饼状图。我们必须点击 "创建图表 "按钮,选择图表类型,并选择我们要显示的数值。
最后,我们从 "日期 "列中提取属性。在这种情况下,我们提取月份的名称,但是,首先,我们必须将 "日期 "列的数据类型改为 date(现在设置为str)。
如果你遵循了每一个步骤,你可以验证所有的计算都是顺利进行的!
最后
如果你对Python技术比较感兴趣,想要学习数据分析、爬虫等;这里给大家分享一份Python全套学习资料,包括学习路线、软件、源码、视频、面试题等等,都是我自己学习时整理的,整理不易,请多多点赞分享哦~
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python学习软件
工欲善其事,必先利其器。学习Python常用的开发软件都在这里了!
三、Python入门学习视频
还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
四、Python练习题
每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
五、Python实战案例
光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。这份资料也包含在内的哈~
六、Python面试资料
我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
七、资料领取
上述完整版Python全套学习资料已经上传CSDN官方,需要的小伙伴可自行微信扫描下方CSDN官方认证二维码输入“领取资料”免费领取!!
这篇关于用Python处理数据分析,这些电子表格你要知道的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!