系统重温Pandas笔记:Task Special:第一次综合练习

2023-12-03 18:50

本文主要是介绍系统重温Pandas笔记:Task Special:第一次综合练习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 【任务一】企业收入的多样性
    • 【任务二】组队学习信息表的变换
    • 【任务三】漂亮国投票情况
    • 远昊大佬的参考答案
      • 第一题
      • 第二题
      • 第三题

【任务一】企业收入的多样性

【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:
在这里插入图片描述
【数据下载】链接:https://pan.baidu.com/s/1leZZctxMUSW55kZY5WwgIw 53 密码:u6fd
解:
首先import所需要的包:

import numpy as np
import pandas as pd

然后读取两张表的数据:

df1 = pd.read_csv('company.csv')
df2 = pd.read_csv('company_data.csv')

对数据做一下清洗,去除含有NAN的行:

df1 = df1.dropna(axis = 0)
df1

在这里插入图片描述

df2 = df2.dropna(axis = 0)
df2

在这里插入图片描述
将df1中证券代码格式里的#号和补零去掉:

df1['证券代码'] = df1['证券代码'].apply(lambda x: int(str(x[1:])))
df1

在这里插入图片描述
将df2中的日期只显示年份:

df2['日期'] = df2['日期'].apply(lambda x: int(str(x[0:4])))
df2

在这里插入图片描述
将df1和df2连接, 并去除掉NAN行:

df3 = df1.merge(df2, on=['证券代码','日期'], how='left')
df3 = df3.dropna(axis = 0)
df3

在这里插入图片描述
计算收入熵指标:

def myfunc(x):p = x/x.sum()res_I = -((p*np.log(p)).sum())return res_I
res = df3.groupby(['证券代码','日期'])['收入额'].apply(myfunc)
res

在这里插入图片描述
将res里的结果变成列:

df4 = res.reset_index()
df4['SHZB_I'] = df4['收入额']
df4 = df4.drop('收入额', 1)
df4

在这里插入图片描述
最后将得到的收入熵指标汇总到df1中:

df5 = df1.merge(df4, on=['证券代码','日期'], how='left')
df5

在这里插入图片描述

【任务二】组队学习信息表的变换

【题目描述】请把组队学习的队伍信息表变换为如下形态,其中“是否队长”一列取1表示队长,否则为0
在这里插入图片描述
【数据下载】链接:https://pan.baidu.com/s/1ses24cTwUCbMx3rvYXaz-Q 34 密码:iz57
解:
首先import所需要的包:

import numpy as np
import pandas as pd
import xlrd

然后读取表的数据:

df1 = pd.read_excel('组队.xlsx')

去掉“所在群”这一列

df1 = df1.drop('所在群', 1)

先处理得到所有队长的表:

df2 = df1[['队伍名称','队长编号','队长_群昵称']]
df2['是否队长'] = 1
df2

在这里插入图片描述
然后修改列名,得到和题目要求匹配的队长表:

df3 = df2.rename(columns = {'队长编号':'编号','队长_群昵称':'昵称'})
df3

在这里插入图片描述
筛选队员相关信息的列,并分别重命名编号和昵称,为后续变形做准备:

df4 = df1.drop(['队长编号','队长_群昵称'], 1)
df4 = df4.rename(columns = {'队员1 编号':'编号_队员1','队员2 编号':'编号_队员2','队员3 编号':'编号_队员3','队员4 编号':'编号_队员4','队员5 编号':'编号_队员5','队员6 编号':'编号_队员6','队员7 编号':'编号_队员7','队员8 编号':'编号_队员8','队员9 编号':'编号_队员9','队员10编号':'编号_队员10'})
df4 = df4.rename(columns = {'队员_群昵称':'昵称_队员1','队员_群昵称.1':'昵称_队员2','队员_群昵称.2':'昵称_队员3','队员_群昵称.3':'昵称_队员4','队员_群昵称.4':'昵称_队员5','队员_群昵称.5':'昵称_队员6','队员_群昵称.6':'昵称_队员7','队员_群昵称.7':'昵称_队员8','队员_群昵称.8':'昵称_队员9','队员_群昵称.9':'昵称_队员10',})

表太大了,先不截图。
然后对得到的表进行wide_to_long操作:

df5 = pd.wide_to_long(df4,stubnames=['编号','昵称'],i = ['队伍名称'],j='队员',sep='_',suffix='.+')
df5

在这里插入图片描述
去掉含有NAN的行,并添加“是否队长”列,重设index,删去“队员”列:

df5 = df5.dropna(axis = 0)
df5['是否队长'] = 0
df6 = df5.reset_index()
df6 = df6.drop(['队员'], 1)
df6

在这里插入图片描述
将队长和队员的信息拼接:

df7 = pd.concat([df3, df6])
df7

在这里插入图片描述
按照题目中的表格样式进行最后的格式调整:

df7 = df7[['是否队长','队伍名称','昵称','编号']]
df7['编号'] = df7['编号'].apply(lambda x: int(x))
df7.sort_values('队伍名称').reset_index().drop(['index'], 1)

在这里插入图片描述

【任务三】漂亮国投票情况

【题目描述】两张数据表中分别给出了漂亮国各县(county)的人口数以及大选的投票情况,请解决以下问题:

  • 有多少县满足总投票数超过县人口数的一半
  • 把州(state)作为行索引,把投票候选人作为列名,列名的顺序按照候选人在全美的总票数由高到低排序,行列对应的元素为该候选人在该州获得的总票数
    在这里插入图片描述
  • 每一个州下设若干县,定义BD在该县的得票率减去CP在该县的得票率为该县的BT指标,若某个州所有县BT指标的中位数大于0,则称该州为BD State,请找出所有的BD State
    【数据下载】链接:https://pan.baidu.com/s/182rr3CpstVux2CFdFd_Pcg 32 提取码:q674
    解:
    1、有多少县满足总投票数超过县人口数的一半
    导入需要的包:
import numpy as np
import pandas as pd

读取数据:

df1=pd.read_csv('president_county_candidate.csv')
df2=pd.read_csv('county_population.csv')

计算县的选票总数:

sum1 = df1.groupby(['state','county'])['total_votes'].sum()
sum1

在这里插入图片描述
将结果转成dataframe,并连接两表,删去NAN值:

df3 = sum1.reset_index()
df3['US County'] = '.'+df3['county']+', '+df3['state']
df3

在这里插入图片描述

df4 = df2.merge(df3, on=['US County'], how='left')
df4 = df4.dropna(axis = 0)
df4

在这里插入图片描述
统计满足总投票数超过县人口数的一半的个数:

condition = df4['total_votes'] > (df4['Population']/2)
df4.groupby(condition).count()

在这里插入图片描述
所以是1434个

2.把州(state)作为行索引,把投票候选人作为列名,列名的顺序按照候选人在全美的总票数由高到低排序,行列对应的元素为该候选人在该州获得的总票数
解:
先按照题目要求变形:

df5 = df1.pivot_table(index='state', columns='candidate', values='total_votes',aggfunc = 'sum')  
df5.head()

在这里插入图片描述
把NaN值用0替换掉

df5 = df5.fillna(0)
df5.head()

在这里插入图片描述
类似第一问,先统计每个州候选人得票总数并排序:

sum2 = df1.groupby(['candidate'])['total_votes'].sum().sort_values(ascending = False)
sum2

在这里插入图片描述
得到列名顺序:

sum2.index

在这里插入图片描述

df6 = df5.reindex(columns=sum2.index)
df6

在这里插入图片描述
3.每一个州下设若干县,定义BD在该县的得票率减去CP在该县的得票率为该县的BT指标,若某个州所有县BT指标的中位数大于0,则称该州为BD State,请找出所有的BD State
解:
因为比较的都是同一个县比,所以比较得票率和比较得票数在最终结果上一样(被除数相同):
还是和前面一样,先计算他们各自的总票数:

df1['US County'] = '.'+df1['county']+', '+df1['state']
df7 = df1.pivot_table(index='US County', columns='candidate', values='total_votes',aggfunc = 'sum')[['Joe Biden','Donald Trump']]  
df7

在这里插入图片描述
然后得到每个县的BT代替值:

df7['BT'] = df7['Joe Biden']-df7['Donald Trump'] 
df7

在这里插入图片描述
去掉多级索引:

df7 = df7.reset_index(['US County'])
df7

在这里插入图片描述
然后将US County拆回去:

df8 = pd.DataFrame((x.split(', ') for x in df7['US County']),columns = ['county','state'])
df8

在这里插入图片描述
重新拼起来:

df9 = pd.concat([df7,df8],1)
df9

在这里插入图片描述
计算各州BT代替值的中位数:

df10 = df9.groupby(['state'])['BT'].median()
df10

在这里插入图片描述
与0作比较:

df10>0

在这里插入图片描述
从结果中可以得出,结果为True的state是Biden State
即:California, Connecticut, Delaware, District of Columbia, Hawaii, Massachusetts, New Jersey, Rhode Island, Vermont 这9个state。

远昊大佬的参考答案

今天给原题加数据链接的时候,看到远昊大佬更新了参考答案,比我的高级太多太多太多太多。在下方展示出来,以供学习:

第一题

df2['证券代码'] = df2['证券代码'].apply(lambda x:'#%06d'%x)
df2 = df2[df2['证券代码'].isin(df1['证券代码'])]
df2['日期'] = df2['日期'].apply(lambda x: int(x[:4]))
res = df2.groupby(['证券代码', '日期'])['收入额'].apply(lambda x: -((x/x.sum()*np.log(x/x.sum()))).sum()).reset_index()
res = df1.merge(res, how='left', on=['证券代码', '日期']).rename(columns={'收入额': '收入熵'})

第二题

df = pd.read_excel('组队信息汇总表(Pandas).xlsx')
temp = df.iloc[:,1::2].set_index('队伍名称').T.reset_index(drop=True)
temp['是否队长'] = np.r_[[1], np.zeros(temp.shape[0]-1)].astype('int')
melted = temp.melt(id_vars = '是否队长', value_vars = temp.columns[:-1], var_name = '队伍名称', value_name = '昵称').dropna().reset_index(drop=True)
number = pd.concat([df.iloc[:, 2*(i+1): 2*(i+2)].T.reset_index(drop=True).T for i in range(11)]).rename({0:'编号', 1:'昵称'}, axis=1).dropna().reset_index(drop=True)
res = melted.merge(number, how='left', on='昵称')

第三题

第一问:

df = pd.read_csv('president_county_candidate.csv')
df_pop = pd.read_csv('county_population.csv')
temp = df_pop['US County'].copy()
df_pop['state'] = temp.apply(lambda x:x.split(', ')[1])
df_pop['county'] = temp.apply(lambda x:x.split(', ')[0][1:])
df_pop = df_pop.drop(['US County'],axis=1)
df = df.merge(df_pop, on=['state','county'],how='left')
df['pop_rate'] = df['total_votes']/df['Population']
res = df.groupby(['state','county'])['pop_rate'].agg(lambda x:x.sum())
(res>0.5).sum()

第二问:

res = df.pivot_table(index='state',columns='candidate',values='total_votes',aggfunc='sum').reindex(df.groupby('candidate')['total_votes'].sum().sort_values(ascending=False).index,axis=1)

第三问:

def select(x):def inner_select(inner_x):Total = inner_x.total_votes.sum()Biden = inner_x.query('candidate=="Joe Biden"').total_votes.sum()Trump = inner_x.query('candidate=="Donald Trump"').total_votes.sum()return (Biden-Trump)/Totalres = x.groupby('county')[['candidate','total_votes']].apply(inner_select)return res.median() > 0
df.groupby('state').filter(select).state.unique()

这篇关于系统重温Pandas笔记:Task Special:第一次综合练习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/450497

相关文章

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

AssetBundle学习笔记

AssetBundle是unity自定义的资源格式,通过调用引擎的资源打包接口对资源进行打包成.assetbundle格式的资源包。本文介绍了AssetBundle的生成,使用,加载,卸载以及Unity资源更新的一个基本步骤。 目录 1.定义: 2.AssetBundle的生成: 1)设置AssetBundle包的属性——通过编辑器界面 补充:分组策略 2)调用引擎接口API

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

通信系统网络架构_2.广域网网络架构

1.概述          通俗来讲,广域网是将分布于相比局域网络更广区域的计算机设备联接起来的网络。广域网由通信子网于资源子网组成。通信子网可以利用公用分组交换网、卫星通信网和无线分组交换网构建,将分布在不同地区的局域网或计算机系统互连起来,实现资源子网的共享。 2.网络组成          广域网属于多级网络,通常由骨干网、分布网、接入网组成。在网络规模较小时,可仅由骨干网和接入网组成

操作系统实训复习笔记(1)

目录 Linux vi/vim编辑器(简单) (1)vi/vim基本用法。 (2)vi/vim基础操作。 进程基础操作(简单) (1)fork()函数。 写文件系统函数(中等) ​编辑 (1)C语言读取文件。 (2)C语言写入文件。 1、write()函数。  读文件系统函数(简单) (1)read()函数。 作者本人的操作系统实训复习笔记 Linux

Linux系统稳定性的奥秘:探究其背后的机制与哲学

在计算机操作系统的世界里,Linux以其卓越的稳定性和可靠性著称,成为服务器、嵌入式系统乃至个人电脑用户的首选。那么,是什么造就了Linux如此之高的稳定性呢?本文将深入解析Linux系统稳定性的几个关键因素,揭示其背后的技术哲学与实践。 1. 开源协作的力量Linux是一个开源项目,意味着任何人都可以查看、修改和贡献其源代码。这种开放性吸引了全球成千上万的开发者参与到内核的维护与优化中,形成了

LVGL快速入门笔记

目录 一、基础知识 1. 基础对象(lv_obj) 2. 基础对象的大小(size) 3. 基础对象的位置(position) 3.1 直接设置方式 3.2 参照父对象对齐 3.3 获取位置 4. 基础对象的盒子模型(border-box) 5. 基础对象的样式(styles) 5.1 样式的状态和部分 5.1.1 对象可以处于以下状态States的组合: 5.1.2 对象

DDS信号的发生器(验证篇)——FPGA学习笔记8

前言:第一部分详细讲解DDS核心框图,还请读者深入阅读第一部分,以便理解DDS核心思想 三刷小梅哥视频总结! 小梅哥https://www.corecourse.com/lander 一、DDS简介         DDS(Direct Digital Synthesizer)即数字合成器,是一种新型的频率合成技术,具有低成本、低功耗、高分辨率、频率转换时间短、相位连续性好等优点,对数字信

数据库原理与安全复习笔记(未完待续)

1 概念 产生与发展:人工管理阶段 → \to → 文件系统阶段 → \to → 数据库系统阶段。 数据库系统特点:数据的管理者(DBMS);数据结构化;数据共享性高,冗余度低,易于扩充;数据独立性高。DBMS 对数据的控制功能:数据的安全性保护;数据的完整性检查;并发控制;数据库恢复。 数据库技术研究领域:数据库管理系统软件的研发;数据库设计;数据库理论。数据模型要素 数据结构:描述数据库

【软考】信息系统项目管理师(高项)备考笔记——信息系统项目管理基础

信息系统项目管理基础 日常笔记 项目的特点:临时性(一次性)、独特的产品、服务或成果、逐步完善、资源约束、目的性。 临时性是指每一个项目都有确定的开始和结束日期独特性,创造独特的可交付成果,如产品、服务或成果逐步完善意味着分步、连续的积累。例如,在项目早期,项目范围的说明是粗略的,随着项目团队对目标和可交付成果的理解更完整和深入时,项目的范围也就更具体和详细。 战略管理包括以下三个过程