一、概述
在进行探索性数据分析时 (例如,在使用pandas检查COVID-19数据时),通常会将CSV,XML或JSON等文件加载到 pandas DataFrame中。然后,您可能需要对DataFrame中的数据进行一些处理,并希望将其存储在关系数据库等更持久的位置。
本教程介绍了如何从CSV文件加载pandas DataFrame,如何从完整数据集中提取一些数据,然后使用SQLAlchemy将数据子集保存到SQLite数据库 。
二、配置开发环境
确保已安装Python 3。截至目前, Python 3.8.2是Python的最新版本。
在本教程中,我们还将使用:
- pandas(项目主页 和源代码),本教程中的版本1.1.5
- SQLAlchemy (项目主页和 源代码),本教程的1.3.20
- SQLite(项目首页 和源代码),Python 包含一个连接器,作为Python标准库的一部分
使用以下命令将上述代码库安装到新的 Python虚拟环境中:
pip3 install pandas sqlalchemy
现在,我们的开发环境已准备好下载示例COVID-19数据集,将其加载到pandas DataFrame中,对其进行一些分析,然后保存到SQLite数据库中。
三、获取COVID-19数据
在您的网络浏览器中, 下载关于当今全球COVID-19病例地理分布页面的数据下载。它看起来应类似于以下屏幕截图。
应该有一个以CSV格式下载数据的链接,但是该组织在过去几周内多次更改了页面布局,这使得很难找到Excel(XLSX)以外的格式。如果您在获取CSV版本时遇到问题,只需从GitHub下载此版本即可,该版本 与2020年12月10日下载的副本挂钩。
四、将CSV导入pandas
原始数据位于CSV文件中,我们需要通过pandas DataFrame将其加载到内存中。
REPL准备执行代码,但是我们首先需要导入pandas库,以便可以使用它。
from pandas import read_csvdf = read_csv("data.csv", encoding="ISO-8859-1")
现在将数据加载到df
作为pandas DataFrame 类实例的变量中 。
count
在此DataFrame上运行该函数时,我们会发现它具有61048行。
from pandas import read_csvdf = read_csv("data.csv", encoding="ISO-8859-1")
print(df.count())
执行输出:
dateRep 61048
day 61048
month 61048
year 61048
cases 61048
deaths 61048
countriesAndTerritories 61048
geoId 60777
countryterritoryCode 60929
popData2019 60929
continentExp 61048
Cumulative_number_for_14_days_of_COVID-19_cases_per_100000 58173
dtype: int64
接下来,我们将采用这组61048行数据,并仅切出与美国有关的行。
从原始数据帧创建新的数据帧
我们可以使用pandas函数将单个国家/地区的所有数据行匹配countriesAndTerritories
到与所选国家/地区匹配的列。
from pandas import read_csvdf = read_csv("data.csv", encoding="ISO-8859-1")
# print(df.count())save_df = df[df['countriesAndTerritories']=="United_States_of_America"]
print(save_df)
该save_df
变量包含数据的较小的子集。您可以通过自己打印来找出其中的内容:
您应该看到类似以下输出的内容:
dateRep ... Cumulative_number_for_14_days_of_COVID-19_cases_per_100000
58197 10/12/2020 ... 794.356027
58198 09/12/2020 ... 784.195114
58199 08/12/2020 ... 769.896719
58200 07/12/2020 ... 762.794473
58201 06/12/2020 ... 757.944062
... ... ... ...
58538 04/01/2020 ... NaN
58539 03/01/2020 ... NaN
58540 02/01/2020 ... NaN
58541 01/01/2020 ... NaN
58542 31/12/2019 ... NaN [346 rows x 12 columns]
原始61048行中有346行数据。让我们继续将此子集保存到SQLite关系数据库中。
将DataFrame保存到SQLite
我们将使用SQLAlchemy创建与新SQLite数据库的连接,在此示例中,该数据库将存储在名为的文件中save_pandas.db
。当然,您可以使用所需的任何名称在任何位置保存文件,而不仅是在执行Python REPL的目录中保存。
首先create_engine
从sqlalchemy
库中导入函数。
使用导入的create_engine
函数创建连接,然后connect
在其上调用方法。
from pandas import read_csvdf = read_csv("data.csv", encoding="ISO-8859-1")
# print(df.count())save_df = df[df['countriesAndTerritories']=="United_States_of_America"]
# print(save_df)from sqlalchemy import create_engine
engine = create_engine('sqlite:///save_pandas.db', echo=True)
sqlite_connection = engine.connect()
我们设置echo=True
为查看来自数据库连接的所有输出。连接成功后,您将看到类似于以下的输出:
2020-12-11 16:30:21,542 INFO sqlalchemy.engine.base.Engine SELECT CAST('test plain returns' AS VARCHAR(60)) AS anon_1
2020-12-11 16:30:21,543 INFO sqlalchemy.engine.base.Engine ()
2020-12-11 16:30:21,544 INFO sqlalchemy.engine.base.Engine SELECT CAST('test unicode returns' AS VARCHAR(60)) AS anon_1
2020-12-11 16:30:21,545 INFO sqlalchemy.engine.base.Engine ()
使用您要创建的表名的字符串设置变量名。然后to_sql
在save_df
对象上调用该方法时使用该变量,这是我们的pandas DataFrame,它是原始数据集的子集,从原始7320中筛选出89行。
请注意,在这种情况下,如果表已经存在于数据库中,我们将失败。您可以在该程序的更强大的版本中更改if_exists
为replace
或append
添加自己的异常处理。查看 pandas.DataFrame.to_sql 文档,以获取有关您的选项的详细信息。
# !/usr/bin/python3
# -*- coding: utf-8 -*-
from pandas import read_csvdf = read_csv("data.csv", encoding="ISO-8859-1")
# print(df.count())save_df = df[df['countriesAndTerritories']=="United_States_of_America"]
# print(save_df)from sqlalchemy import create_engine
engine = create_engine('sqlite:///save_pandas.db', echo=True)
sqlite_connection = engine.connect()sqlite_table = "Covid19"
save_df.to_sql(sqlite_table, sqlite_connection, if_exists='fail')
sqlite_connection.close()
执行输出:
2020-12-11 16:31:11,484 INFO sqlalchemy.engine.base.Engine SELECT CAST('test plain returns' AS VARCHAR(60)) AS anon_1
2020-12-11 16:31:11,484 INFO sqlalchemy.engine.base.Engine ()
2020-12-11 16:31:11,485 INFO sqlalchemy.engine.base.Engine SELECT CAST('test unicode returns' AS VARCHAR(60)) AS anon_1
2020-12-11 16:31:11,485 INFO sqlalchemy.engine.base.Engine ()
2020-12-11 16:31:11,489 INFO sqlalchemy.engine.base.Engine PRAGMA main.table_info("Covid19")
2020-12-11 16:31:11,489 INFO sqlalchemy.engine.base.Engine ()
2020-12-11 16:31:11,490 INFO sqlalchemy.engine.base.Engine PRAGMA temp.table_info("Covid19")
2020-12-11 16:31:11,490 INFO sqlalchemy.engine.base.Engine ()
2020-12-11 16:31:11,492 INFO sqlalchemy.engine.base.Engine
CREATE TABLE "Covid19" ("index" BIGINT, "dateRep" TEXT, day BIGINT, month BIGINT, year BIGINT, cases BIGINT, deaths BIGINT, "countriesAndTerritories" TEXT, "geoId" TEXT, "countryterritoryCode" TEXT, "popData2019" FLOAT, "continentExp" TEXT, "Cumulative_number_for_14_days_of_COVID-19_cases_per_100000" FLOAT
)2020-12-11 16:31:11,492 INFO sqlalchemy.engine.base.Engine ()
2020-12-11 16:31:11,506 INFO sqlalchemy.engine.base.Engine COMMIT
2020-12-11 16:31:11,507 INFO sqlalchemy.engine.base.Engine CREATE INDEX "ix_Covid19_index" ON "Covid19" ("index")
2020-12-11 16:31:11,507 INFO sqlalchemy.engine.base.Engine ()
2020-12-11 16:31:11,516 INFO sqlalchemy.engine.base.Engine COMMIT
2020-12-11 16:31:11,519 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2020-12-11 16:31:11,524 INFO sqlalchemy.engine.base.Engine INSERT INTO "Covid19" ("index", "dateRep", day, month, year, cases, deaths, "countriesAndTerritories", "geoId", "countryterritoryCode", "popData2019", "continentExp", "Cumulative_number_for_14_days_of_COVID-19_cases_per_100000") VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
2020-12-11 16:31:11,525 INFO sqlalchemy.engine.base.Engine ((58197, '10/12/2020', 10, 12, 2020, 220025, 3124, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', 794.35602672), (58198, '09/12/2020', 9, 12, 2020, 217344, 2564, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', 784.1951137), (58199, '08/12/2020', 8, 12, 2020, 197334, 1433, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', 769.89671919), (58200, '07/12/2020', 7, 12, 2020, 173432, 1111, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', 762.79447316), (58201, '06/12/2020', 6, 12, 2020, 211933, 2203, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', 757.94406245), (58202, '05/12/2020', 5, 12, 2020, 231930, 2680, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', 746.87056354), (58203, '04/12/2020', 4, 12, 2020, 214747, 2481, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', 735.98730065), (58204, '03/12/2020', 3, 12, 2020, 203311, 3190, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', 727.86519506) ... displaying 10 of 346 total bound parameter sets ... (58541, '01/01/2020', 1, 1, 2020, 0, 0, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', None), (58542, '31/12/2019', 31, 12, 2019, 0, 0, 'United_States_of_America', 'US', 'USA', 329064917.0, 'America', None))
2020-12-11 16:31:11,527 INFO sqlalchemy.engine.base.Engine COMMIT
2020-12-11 16:31:11,535 INFO sqlalchemy.engine.base.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2020-12-11 16:31:11,535 INFO sqlalchemy.engine.base.Engine ()
我们可以通过sqlite3
命令行查看器查看数据,以确保将其正确保存到SQLite文件中。
通过Navicat软件,打开save_pandas.db
文件名的命令来访问数据库。然后,使用标准的SQL查询从Covid19
表中获取所有记录。
打开表Covid19,执行sql语句
select * from Covid19;
效果如下:
countriesAndTerritories
列匹配的 所有数据United_States_of_America
都在那里!我们已成功将数据从DataFrame导出到SQLite数据库文件中。
下一步是什么?
我们只是将数据从CSV导入到pandas DataFrame中,选择了该数据的一个子集,然后将其保存到关系数据库中。
您应该看一下“ 通过研究COVID-19数据学习熊猫” 教程,以了解有关如何从较大的DataFrame中选择数据子集的更多信息,或者访问pandas页面,以获取Python社区其他成员提供的更多教程。
您还可以通过阅读Full Stack Python目录表来了解Python项目中下一步的代码 。
本文参考链接:
https://www.fullstackpython.com/blog/export-pandas-dataframes-sqlite-sqlalchemy.html