【Python】使用Pandas和随机森林对鸢尾花数据集进行分类

本文主要是介绍【Python】使用Pandas和随机森林对鸢尾花数据集进行分类，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

我在鼓楼的夜色中为你唱花香自来
在别处沉默相遇和期待
飞机飞过车水马龙的城市
千里之外不离开
把所有的春天都揉进了一个清晨
把所有停不下的言语变成秘密关上了门
莫名的情愫啊请问谁来将它带走呢
只好把岁月化成歌留在山河
🎵 鹿先森乐队《春风十里》

在本教程中，我们将演示如何使用pandas库来处理数据，并利用scikit-learn库中的RandomForestClassifier来对鸢尾花数据集进行分类。鸢尾花数据集包含了150个样本，分属于三个不同的品种。我们的目标是构建一个随机森林模型，来预测鸢尾花的种类。

环境准备

首先，确保你的Python环境已安装以下包：

numpy
pandas
scikit-learn

你可以通过运行以下命令来安装这些包（如果尚未安装的话）：

pip install numpy pandas scikit-learn

数据加载与预处理

使用pandas读取数据非常简单。鸢尾花数据集是scikit-learn库中的一个内置数据集，我们可以直接加载它来进行操作：

from sklearn.datasets import load_iris
import pandas as pd# 加载数据
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['species'] = iris.target# 显示数据的前几行
print(iris_df.head())

这段代码首先从scikit-learn中导入数据集，然后用pandas创建一个DataFrame，方便后续的数据处理。

数据探索

在建模之前，通常需要对数据进行一些基本的探索，了解数据的基本结构和特点：

# 查看数据描述
print(iris_df.describe())# 查看种类分布
print(iris_df['species'].value_counts())
划分训练集和测试集
数据探索完毕后，我们将数据划分为训练集和测试集：```python
from sklearn.model_selection import train_test_splitX = iris_df.iloc[:, :-1]
y = iris_df['species']X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

构建随机森林模型

接下来，我们使用随机森林进行模型训练：

from sklearn.ensemble import RandomForestClassifier# 创建随机森林分类器
rf = RandomForestClassifier(n_estimators=100, random_state=42)# 训练模型
rf.fit(X_train, y_train)

模型评估

最后，我们评估模型的性能：

from sklearn.metrics import classification_report, accuracy_score# 在测试集上进行预测
y_pred = rf.predict(X_test)# 打印性能指标
print(classification_report(y_test, y_pred))
print("Accuracy:", accuracy_score(y_test, y_pred))