基于决策树、随机森林和层次聚类对帕尔默企鹅数据分析

本文主要是介绍基于决策树、随机森林和层次聚类对帕尔默企鹅数据分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

作者:i阿极

作者简介:数据分析领域优质创作者、多项比赛获奖者:博主个人首页

😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍

📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪


大家好,我i阿极。喜欢本专栏的小伙伴,请多多支持

专栏案例:机器学习案例
机器学习(一):线性回归之最小二乘法
机器学习(二):线性回归之梯度下降法
机器学习(三):基于线性回归对波士顿房价预测
机器学习(四):基于KNN算法对鸢尾花类别进行分类预测
机器学习(五):基于KNN模型对高炉发电量进行回归预测分析
机器学习(六):基于高斯贝叶斯对面部皮肤进行预测分析
机器学习(七):基于多项式贝叶斯对蘑菇毒性分类预测分析
机器学习(八):基于PCA对人脸识别数据降维并建立KNN模型检验
机器学习(十四):基于逻辑回归对超市销售活动预测分析
机器学习(十五):基于神经网络对用户评论情感分析预测
机器学习(十六):线性回归分析女性身高与体重之间的关系
机器学习(十七):基于支持向量机(SVM)进行人脸识别预测
机器学习(十八):基于逻辑回归对优惠券使用情况预测分析
机器学习(十九):基于逻辑回归对某银行客户违约预测分析
机器学习(二十):LightGBM算法原理(附案例实战)
机器学习(二十一):基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测
机器学习(二十二):基于逻辑回归(Logistic Regression)对股票客户流失预测分析

文章目录

  • 1、前言
  • 2、数据说明
  • 3、种类分布及其在不同岛屿上的分布
  • 4、企鹅身体测量特征的相关性分析
  • 5、种类特征差异
  • 6、性别差异分析
  • 7、岛屿影响分析
  • 8、喙长与鳍状肢长度(按岛屿区分)
  • 9、预测模型
    • 9.1决策树
    • 9.2随机森林
    • 9.3层次聚类分析
  • 总结


1、前言

随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。Palmer Penguins 数据集是近年来在数据科学和机器学习领域受到关注的一个数据集,经常被用作鸢尾花数据集的一个替代品。
数据集包含了对南极洲不同地区生活的企鹅种群的研究数据,主要用于数据探索和可视化,以及分类任务。

2、数据说明

英文字段中文字段描述
species种类Gentoo:巴布亚企鹅(也叫金图企鹅);Adelie:阿德利企鹅;Chinstrap:帽带企鹅
culmen_length_mm喙长(毫米)喙的长度(毫米)
culmen_depth_mm喙深(毫米)喙的深度(毫米)
flipper_length_mm鳍状肢长度(毫米)鳍状肢的长度(毫米)
body_mass_g体重(克)体重(克)
island岛屿名称梦想岛、托尔格森岛、比斯科岛
sex性别企鹅的性别

以上为简化后的数据字段

3、种类分布及其在不同岛屿上的分布

通过 Pandas 读取企鹅尺寸数据集 penguins_size.csv。使用 Seaborn 设置图表的美观风格为白色网格。利用 Seaborn 绘制条形图展示不同种类企鹅的分布情况。绘制不同岛屿上企鹅种类分布的条形图,通过不同颜色的条形表示不同的企鹅种类,并添加图例说明。使用 Matplotlib 展示绘制的图表,包括设置图表的标题、横轴标签、纵轴标签等元素。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns# 加载数据
penguins_size_df = pd.read_csv(r'D:\model\帕尔默企鹅数据\penguins_size.csv')# 设置图表的美观风格
sns.set(style="whitegrid")# 绘制企鹅种类分布的条形图
plt.figure(figsize=(8, 6))
sns.countplot(data=penguins_size_df, x='species')
plt.title('Distribution of Penguin Species')
plt.xlabel('Species')
plt.ylabel('Count')
plt.show()# 绘制不同岛屿上企鹅种类分布的条形图
plt.figure(figsize=(10, 6))
sns.countplot(data=penguins_size_df, x='island', hue='species')
plt.title('Distribution of Penguin Species Across Different Islands')
plt.xlabel('Island')
plt.ylabel('Count')
plt.legend(title='Species')
plt.show()

在这里插入图片描述
在这里插入图片描述

4、企鹅身体测量特征的相关性分析

通过 Pandas 计算选定特征(culmen_length_mm、culmen_depth_mm、flipper_length_mm、body_mass_g)的相关系数矩阵。利用 Seaborn 绘制相关性热图,通过颜色深浅表示不同特征之间的相关性强度。annot=True 参数用于在图中显示具体的相关系数数值,cmap=‘coolwarm’ 参数选择了颜色映射方案,fmt=“.2f” 参数控制显示的小数位数。使用 Matplotlib 展示绘制的相关性热图,并添加图表的标题。该可视化图表有助于直观地理解不同企鹅物理测量特征之间的相关性程度,深入分析数据集的关联性。

# 计算相关系数矩阵
correlation_matrix = penguins_size_df[['culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g']].corr()# 绘制相关性热图
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation Matrix of Penguin Physical Measurements')
plt.show()

在这里插入图片描述

5、种类特征差异

加载企鹅物理测量数据集。设置整体图表布局为2x2的子图,总图表大小为(15, 12)。在每个子图中绘制不同物理测量特征(culmen_length_mm、culmen_depth_mm、flipper_length_mm、body_mass_g)的箱线图,通过不同种类企鹅进行分组。设置每个子图的标题、横轴标签、纵轴标签,以及总图表的标题。使用 plt.tight_layout(rect=[0, 0.03, 1, 0.95]) 调整布局,避免子图重叠。
该可视化图表展示了不同企鹅物理测量特征在不同种类企鹅间的分布差异,通过箱线图直观呈现了数据的分布范围、中位数和离群值等信息。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns# 加载数据
# penguins_size_df = pd.read_csv('penguins_size.csv')# 设置整体图表布局
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Physical Measurement Differences Among Penguin Species', fontsize=16)# 喙长的箱线图
sns.boxplot(ax=axes[0, 0], data=penguins_size_df, x='species', y='culmen_length_mm')
axes[0, 0].set_title('Culmen Length (mm)')
axes[0, 0].set_xlabel('Species')
axes[0, 0].set_ylabel('Culmen Length (mm)')# 喙深的箱线图
sns.boxplot(ax=axes[0, 1], data=penguins_size_df, x='species', y='culmen_depth_mm')
axes[0, 1].set_title('Culmen Depth (mm)')
axes[0, 1].set_xlabel('Species')
axes[0, 1].set_ylabel('Culmen Depth (mm)')# 鳍状肢长度的箱线图
sns.boxplot(ax=axes[1, 0], data=penguins_size_df, x='species', y='flipper_length_mm')
axes[1, 0].set_title('Flipper Length (mm)')
axes[1, 0].set_xlabel('Species')
axes[1, 0].set_ylabel('Flipper Length (mm)')# 体重的箱线图
sns.boxplot(ax=axes[1, 1], data=penguins_size_df, x='species', y='body_mass_g')
axes[1, 1].set_title('Body Mass (g)')
axes[1, 1].set_xlabel('Species')
axes[1, 1].set_ylabel('Body Mass (g)')plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

在这里插入图片描述

6、性别差异分析

加载企鹅物理测量数据集。设置整体图表布局为2x2的子图,总图表大小为(15, 12)。在每个子图中绘制不同物理测量特征(culmen_length_mm、culmen_depth_mm、flipper_length_mm、body_mass_g)的箱线图,通过不同性别进行分组。设置每个子图的标题、横轴标签、纵轴标签,以及总图表的标题。使用 plt.tight_layout(rect=[0, 0.03, 1, 0.95]) 调整布局,避免子图重叠。
该可视化图表展示了不同性别企鹅在不同物理测量特征上的分布差异,通过箱线图形象地呈现了性别间的数据分布范围、中位数和离群值等信息。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns# 加载数据
penguins_size_df = pd.read_csv('penguins_size.csv')# 设置整体图表布局 - 性别差异
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Gender Differences in Penguin Physical Measurements', fontsize=16)# 喙长的箱线图 - 性别
sns.boxplot(ax=axes[0, 0], data=penguins_size_df, x='sex', y='culmen_length_mm')
axes[0, 0].set_title('Culmen Length by Gender')
axes[0, 0].set_xlabel('Gender')
axes[0, 0].set_ylabel('Culmen Length (mm)')# 喙深的箱线图 - 性别
sns.boxplot(ax=axes[0, 1], data=penguins_size_df, x='sex', y='culmen_depth_mm')
axes[0, 1].set_title('Culmen Depth by Gender')
axes[0, 1].set_xlabel('Gender')
axes[0, 1].set_ylabel('Culmen Depth (mm)')# 鳍状肢长度的箱线图 - 性别
sns.boxplot(ax=axes[1, 0], data=penguins_size_df, x='sex', y='flipper_length_mm')
axes[1, 0].set_title('Flipper Length by Gender')
axes[1, 0].set_xlabel('Gender')
axes[1, 0].set_ylabel('Flipper Length (mm)')# 体重的箱线图 - 性别
sns.boxplot(ax=axes[1, 1], data=penguins_size_df, x='sex', y='body_mass_g')
axes[1, 1].set_title('Body Mass by Gender')
axes[1, 1].set_xlabel('Gender')
axes[1, 1].set_ylabel('Body Mass (g)')plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

在这里插入图片描述

7、岛屿影响分析

设置整体图表布局为2x2的子图,总图表大小为(15, 12)。在每个子图中循环绘制不同物理测量特征(culmen_length_mm、culmen_depth_mm、flipper_length_mm、body_mass_g)的箱线图,通过不同岛屿进行分组。设置每个子图的标题、横轴标签、纵轴标签,以及总图表的标题。使用 plt.tight_layout(rect=[0, 0.03, 1, 0.95]) 调整布局,避免子图重叠。
该可视化图表展示了不同岛屿对于企鹅物理测量特征的影响,通过箱线图形象地呈现了数据分布范围、中位数和离群值等信息,使得观察者能够直观了解不同岛屿的差异。

 设置整体图表布局 - 岛屿影响
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Influence of Island on Penguin Physical Measurements', fontsize=16)# 调整每个身体测量特征的箱线图 - 岛屿
for i, feature in enumerate(['culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g']):ax = axes[i//2, i%2]sns.boxplot(ax=ax, data=penguins_size_df, x='island', y=feature)ax.set_title(feature.replace('_', ' ').title() + ' by Island')ax.set_xlabel('Island')ax.set_ylabel(feature.replace('_', ' ').title())plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

在这里插入图片描述

8、喙长与鳍状肢长度(按岛屿区分)

加载企鹅物理测量数据集。利用 Seaborn 绘制散点图,横轴表示喙长(culmen_length_mm),纵轴表示鳍状肢长度(flipper_length_mm),并根据岛屿进行颜色区分。设置图表的标题、横轴标签、纵轴标签,并添加图例说明不同岛屿的颜色。使用 plt.show() 显示图表。
该可视化图表通过散点图清晰展示了喙长与鳍状肢长度之间的关系,并通过颜色区分不同岛屿的数据点,有助于观察者直观地识别岛屿间的差异。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns# 加载数据
# penguins_size_df = pd.read_csv('penguins_size.csv')# 绘制喙长与鳍状肢长度的散点图,并按岛屿区分颜色
plt.figure(figsize=(10, 6))
sns.scatterplot(data=penguins_size_df, x='culmen_length_mm', y='flipper_length_mm', hue='island')
plt.title('Culmen Length vs. Flipper Length by Island')
plt.xlabel('Culmen Length (mm)')
plt.ylabel('Flipper Length (mm)')
plt.legend(title='Island')
plt.show()

在这里插入图片描述

9、预测模型

9.1决策树

重新加载企鹅物理测量数据集。
数据准备:选择特征和目标变量。选择的特征包括 ‘culmen_length_mm’, ‘culmen_depth_mm’, ‘flipper_length_mm’, ‘body_mass_g’,目标变量为 ‘species’。数据处理:删除包含缺失值的行,并获取特征(X)和目标变量(y)。
数据分割:划分数据集为训练集和测试集,其中测试集占总数据的30%。使用决策树模型(DecisionTreeClassifier)进行训练,并使用训练好的模型进行测试集的预测。
模型评估:计算模型的准确度(accuracy_score)和分类报告(classification_report),并输出结果。
该代码展示了如何使用决策树模型对企鹅物理测量数据进行分类,并评估模型的性能。

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd# 重新加载数据
penguins_size_df = pd.read_csv('penguins_size.csv')# 数据准备:选择特征和目标变量
feature_cols = ['culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g']# 修正数据处理:在删除缺失值时同时处理特征和目标变量
penguins_cleaned_df = penguins_size_df.dropna(subset=feature_cols + ['species'])X = penguins_cleaned_df[feature_cols]
y = penguins_cleaned_df['species']# 数据分割:划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 使用决策树模型
decision_tree = DecisionTreeClassifier(random_state=42)
decision_tree.fit(X_train, y_train)# 预测测试集
y_pred_dt = decision_tree.predict(X_test)# 模型评估
accuracy_dt = accuracy_score(y_test, y_pred_dt)
report_dt = classification_report(y_test, y_pred_dt)print("Accuracy:", accuracy_dt)
print("Classification Report:\n", report_dt)

在这里插入图片描述

  • Adelie 类别的预测准确度为 100%,Chinstrap 类别的召回率为 100%,Gentoo 类别的召回率为 100%。
  • 加权平均准确度(weighted avg accuracy)为约 95%。

这说明决策树模型在这个数据集上表现良好,能够对企鹅的种类进行较为准确的分类。

9.2随机森林

重新加载企鹅物理测量数据集。

数据准备:选择特征和目标变量。选择的特征包括 ‘culmen_length_mm’, ‘culmen_depth_mm’, ‘flipper_length_mm’, ‘body_mass_g’,目标变量为 ‘species’。

数据处理:删除包含缺失值的行,并获取特征(X)和目标变量(y)。

数据分割:划分数据集为训练集和测试集,其中测试集占总数据的30%。

使用随机森林模型(RandomForestClassifier)进行训练,并使用训练好的模型进行测试集的预测。

模型评估:计算模型的准确度(accuracy_score)和分类报告(classification_report),并输出结果。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd# 重新加载数据
# penguins_size_df = pd.read_csv('penguins_size.csv')# 数据准备:选择特征和目标变量
feature_cols = ['culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g']# 修正数据处理:在删除缺失值时同时处理特征和目标变量
penguins_cleaned_df = penguins_size_df.dropna(subset=feature_cols + ['species'])X = penguins_cleaned_df[feature_cols]
y = penguins_cleaned_df['species']# 数据分割:划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 使用随机森林模型
random_forest = RandomForestClassifier(random_state=42)
random_forest.fit(X_train, y_train)# 预测测试集
y_pred_rf = random_forest.predict(X_test)# 模型评估
accuracy_rf = accuracy_score(y_test, y_pred_rf)
report_rf = classification_report(y_test, y_pred_rf)print("Accuracy:", accuracy_rf)
print("Classification Report:\n", report_rf)

在这里插入图片描述

  • Adelie 类别的预测准确度为 100%,Chinstrap 类别的召回率为 100%,Gentoo 类别的准确度、召回率和 F1-score 都为 100%。
  • 加权平均准确度(weighted avg accuracy)为约 96%。

这说明随机森林模型在这个数据集上表现更好,相比于决策树模型,它对于企鹅的种类进行更为准确的分类。

9.3层次聚类分析

重新加载企鹅物理测量数据集。

选择用于聚类的特征:‘culmen_length_mm’, ‘culmen_depth_mm’, ‘flipper_length_mm’, ‘body_mass_g’。

在删除包含缺失值的行后,获取所选特征的数据。

使用 StandardScaler 对数据进行标准化,以确保每个特征具有相同的尺度。

使用层次聚类方法(ward linkage)构建聚类模型。

绘制层次聚类的树状图(Dendrogram)。

import pandas as pd
from sklearn.preprocessing import StandardScaler
from scipy.cluster.hierarchy import dendrogram, linkage
import matplotlib.pyplot as plt# 重新加载数据并准备聚类分析
penguins_size_df = pd.read_csv('penguins_size.csv')
cluster_features = ['culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g']
penguins_cleaned_df = penguins_size_df.dropna(subset=cluster_features)cluster_data = penguins_cleaned_df[cluster_features]# 标准化数据
scaler = StandardScaler()
cluster_scaled = scaler.fit_transform(cluster_data)# 使用层次聚类
linked = linkage(cluster_scaled, method='ward')# 绘制树状图
plt.figure(figsize=(12, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.title('Hierarchical Clustering Dendrogram')
plt.xlabel('Sample Index')
plt.ylabel('Distance')
plt.show()

在这里插入图片描述

通过对企鹅数据集进行 K-means 聚类和层次聚类的分析,我们可以得出以下结论:
K-means 聚类
K-means 聚类结果将数据有效地分为了三个群组,这可能反映了企鹅种类的不同或其物理特征的显著差异。
聚类的可视化展示了企鹅在二维降维空间中的分布,其中每个群组代表了一种特定的特征组合。
层次聚类
层次聚类的树状图提供了一个关于数据分层结构的视觉表示,其中每个分支代表了数据中的一个群组。
树状图的高度(即距离)展示了不同群组之间的相似度或差异性。较短的连接表示群组间相似性高,而较长的连接表示差异性更大。


总结

这些聚类结果可能与企鹅的物理特征(如喙长、喙深、鳍状肢长度和体重)和/或其地理分布(如所在岛屿)有关。
聚类分析揭示了数据中的自然群组,这可能对进一步的生物学研究和物种分类研究有用。
这些发现可以帮助生物学家和生态学家更好地理解不同企鹅种类或种群的特征。

📢文章下方有交流学习区!一起学习进步!💪💪💪
📢首发CSDN博客,创作不易,如果觉得文章不错,可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

这篇关于基于决策树、随机森林和层次聚类对帕尔默企鹅数据分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/565587

相关文章

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法,用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据,特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

用Pytho解决分类问题_DBSCAN聚类算法模板

一:DBSCAN聚类算法的介绍 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,DBSCAN算法的核心思想是将具有足够高密度的区域划分为簇,并能够在具有噪声的空间数据库中发现任意形状的簇。 DBSCAN算法的主要特点包括: 1. 基于密度的聚类:DBSCAN算法通过识别被低密

AI学习指南深度学习篇-带动量的随机梯度下降法的基本原理

AI学习指南深度学习篇——带动量的随机梯度下降法的基本原理 引言 在深度学习中,优化算法被广泛应用于训练神经网络模型。随机梯度下降法(SGD)是最常用的优化算法之一,但单独使用SGD在收敛速度和稳定性方面存在一些问题。为了应对这些挑战,动量法应运而生。本文将详细介绍动量法的原理,包括动量的概念、指数加权移动平均、参数更新等内容,最后通过实际示例展示动量如何帮助SGD在参数更新过程中平稳地前进。

AI学习指南深度学习篇-带动量的随机梯度下降法简介

AI学习指南深度学习篇 - 带动量的随机梯度下降法简介 引言 在深度学习的广阔领域中,优化算法扮演着至关重要的角色。它们不仅决定了模型训练的效率,还直接影响到模型的最终表现之一。随着神经网络模型的不断深化和复杂化,传统的优化算法在许多领域逐渐暴露出其不足之处。带动量的随机梯度下降法(Momentum SGD)应运而生,并被广泛应用于各类深度学习模型中。 在本篇文章中,我们将深入探讨带动量的随

MATLAB层次聚类分析法

转自:http://blog.163.com/lxg_1123@126/blog/static/74841406201022774051963/ 层次聚类是基于距离的聚类方法,MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成。层次聚类的过程可以分这么几步: (1) 确定对象(实际上就是数据集中的每个数据点)之间的相似性,实际上就是定义一个表征

Spark2.x 入门: KMeans 聚类算法

一 KMeans简介 KMeans 是一个迭代求解的聚类算法,其属于 划分(Partitioning) 型的聚类方法,即首先创建K个划分,然后迭代地将样本从一个划分转移到另一个划分来改善最终聚类的质量。 ML包下的KMeans方法位于org.apache.spark.ml.clustering包下,其过程大致如下: 1.根据给定的k值,选取k个样本点作为初始划分中心;2.计算所有样本点到每

win7下安装Canopy(EPD) 及 Pandas进行python数据分析

先安装好canopy,具体安装版本看自己需要那种,我本来是打算安装win764位的,却发现下载总是出现错误,无奈只能下载了32位的! https://store.enthought.com/downloads/#default 安装好之后,参考如下连接,进行检验: 之后再根据下面提供的连接进行操作,一般是没问题的! http://jingyan.baidu.com/article/5d6