本文主要是介绍机器学习基础实验(人口收入普查数据探索),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本次挑战中,你需要运用 Pandas 探索数据,并回答有关 Adult 数据集 的几个问题。Adult 数据集是一个关于人口收入普查的数据集,其包含多个特征,目标值为类别类型。
首先,我们加载并预览该数据集。
import warnings
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
warnings.filterwarnings('ignore')
data = pd.read_csv('https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
data.head()
DataFrame 前面的列均为特征,最后的 salary
为目标值。接下来,你需要自行补充必要的代码来回答相应的挑战问题。
问题:数据集中有多少男性和女性?
# 通过补充代码得到问题的答案,挑战最终需自行对照末尾的参考答案来评判,系统无法自动评分
问题:数据集中女性的平均年龄是多少?
问题:数据集中德国公民的比例是多少?
问题:年收入超过 50K 和低于 50K 人群年龄的平均值和标准差是多少?
问题:年收入超过 50K 的人群是否都接受过高中以上教育?
问题:使用 groupby
和 describe
统计不同种族和性别人群的年龄分布数据。
问题:统计男性高收入人群中已婚和未婚(包含离婚和分居)人群各自所占数量
问题:统计数据集中最长周工作小时数及对应的人数,并计算该群体中收入超过 50K 的比
问题:计算各国超过和低于 50K 人群各自的平均周工作时长。
这篇关于机器学习基础实验(人口收入普查数据探索)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!