N175_标记异常值_自动汇聚某单位的住房公积金 有补发有增减 如何批量找出来

本文主要是介绍N175_标记异常值_自动汇聚某单位的住房公积金 有补发有增减 如何批量找出来,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']    #定义使其正常显示中文字体黑体
plt.rcParams['axes.unicode_minus'] = False      #用来正常显示表示负号 
data = pd.read_excel(r'.\N175_标记异常值_数据源.xlsx')
import seaborn as sns
# 使用seaborn获取颜色
cm = sns.light_palette("green", as_cmap=True)
# 色阶实现
data.head(100).style.background_gradient(cmap=cm,subset=["发生额"])
# data
 laiyuan日期交易流水号单位代码公积金账号交易号客户编号客户姓名发生额余额摘要代码摘要凭证种类凭证号
0./数据源/2012\201208.xls201282012-08-01 00:00:00流水号0000001326727234556缴存210102198901101814#0姓名001934039720.4100001072.000000单位补缴201208nannan
1./数据源/2012\201208.xls201282012-08-01 00:00:00流水号0000002326727234557缴存43282819810118001X#0姓名00299047718.6100001072.000000单位补缴201208nannan
2./数据源/2012\201208.xls201282012-08-01 00:00:00流水号0000003326727234558缴存432801198108011031#0姓名003110642583.6600001072.000000单位补缴201208nannan
3./数据源/2012\201208.xls201282012-08-01 00:00:00流水号0000004326727234559缴存432801198710011099#0姓名00474832592.6500001072.000000单位补缴201208nannan
4./数据源/2012\201208.xls201282012-08-01 00:00:00流水号0000005326727234560

limit_output extension: Maximum message size of 10000 exceeded with 132577 characters

df = data[["laiyuan","日期","客户姓名","发生额"]]
df.head(100).style.background_gradient(cmap=cm,subset=["发生额"])  #主要是靠这些列
 laiyuan日期客户姓名发生额
0./数据源/2012\201208.xls2012-08-01 00:00:00姓名0019340
1./数据源/2012\201208.xls2012-08-01 00:00:00姓名002990
2./数据源/2012\201208.xls2012-08-01 00:00:00姓名0031106
3./数据源/2012\201208.xls2012-08-01 00:00:00姓名004748
4./数据源/2012\201208.xls2012-08-01 00:00:00姓名0051070
5./数据源/2012\201208.xls2012-08-01 00:00:00姓名0061196
6./数据源/2012\201208.xls2012-08-01 00:00:00姓名007826
7./数据源/2012\201208.xls2012-08-01 00:00:00姓名008854
8./数据源/2012\201208.xls2012-08-01 00:00:00姓名009832
9./数据源/2012\201208.xls2012-08-01 00:00:00姓名0101060
10./数据源/2012\201208.xls2012-08-01 00:00:00姓名011798
11./数据源/2012\201208.xls2012-08-01 00:00:00姓名012808
12./数据源/2012\201208.xls2012-08-01 00:00:00姓名013840
13./数据源/2012\201208.xls2012-08-01 00:00:00姓名014790
14./数据源/2012\201208.xls2012-08-01 00:00:00姓名015760
15./数据源/2012\201208.xls2012-08-01 00:00:00姓名016940
16./数据源/2012\201208.xls2012-08-01 00:00:00

limit_output extension: Maximum message size of 10000 exceeded with 43779 characters

# 透视表 交叉统计
tongji01=pd.pivot_table(data, index=['laiyuan','日期'], columns='客户姓名', values='发生额',margins=False, aggfunc=[np.sum])
# 最后,要扁平化MultiIndex列,我们可以只连接元组中的值:
tongji01.columns = ['_'.join(col).replace("sum_","") for col in tongji01.columns.values]
tongji01 = tongji01.reset_index()
tongji01.head(10)
laiyuan日期姓名001姓名002姓名003姓名004姓名005姓名006姓名007姓名008...姓名073姓名074姓名075姓名076姓名077姓名078姓名079姓名080姓名081姓名082
0./数据源/2012\201208.xls2012-08-019340.0990.01106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
1./数据源/2012\201209.xls2012-09-01954.0990.01106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
2./数据源/2012\201210.xls2012-10-01934.0990.01106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
3./数据源/2012\201211.xls2012-11-01934.0990.01106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
4./数据源/2012\201212.xls2012-12-01NaNNaN1106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
5./数据源/2013\201301.xls2013-01-01NaNNaN1106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
6./数据源/2013\201302.xls2013-02-01NaNNaN1106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
7./数据源/2013\201303.xls2013-03-01NaNNaN1106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
8./数据源/2013\201304.xls2013-04-01NaNNaN1106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
9./数据源/2013\201305.xls2013-05-01NaNNaN1106.0748.01070.01196.0826.0854.0...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN

10 rows × 84 columns

# 按列找异常值,并用语言描述出来
import pandas as pd
cun = tongji01.copy()  #将数据块复制,后面发现的异常值进行覆盖
hangzuobiao = tongji01.laiyuan.to_list() # 将来源列转列表
suo = tongji01   #.iloc[:,1:4] #   为了缩小范围,提高实验速度
print(suo.shape)
lieming = suo.columns.to_list() #将列标题转列表
for index,col in enumerate(lieming): # 遍历列名,lie_max = suo[col].value_counts().index[:1].values # 关键点,找到该列频率最高的值gailie_max = lie_max[0] # 取当前值,上面计算出来的是列表for hang in range(suo.shape[0]): # 按行总数遍历 ,if suo[col].dtype in ["int64", "float64"]: #判断是否都是数字danqian = suo.loc[hang,col] # 取出当前值if pd.isnull(danqian) == True or danqian == gailie_max: # 为空跳过,相等跳过continue
#             print("当前值:"+str(danqian))
#             print("当列出现次数最多的:"+str(gailie_max))yichang = (gailie_max-danqian)/gailie_max
#             print(yichang)if abs(yichang)>0.6: # 差额相除取绝对值,看是否超过6成zhi = "异常"+str(hangzuobiao[hang])[:10]+"_"+str(col)+"_:"+str(suo.loc[hang,col])cun.iloc[hang,index] = zhi
cun.to_excel("N175_标记异常值_结果.xlsx")
(107, 84)
from styleframe import StyleFrame
import openpyxl
#可以自我覆盖,但是这样有风险,为了列宽自适应,筛选,冻结窗口
file_path = "N175_标记异常值_结果.xlsx"
df=pd.read_excel(file_path)
col = df.columns.values.tolist()
excel_writer = StyleFrame.ExcelWriter(file_path)
sf = StyleFrame(df)
sf.to_excel(excel_writer=excel_writer, best_fit=col,columns_and_rows_to_freeze='a2', row_to_add_filters=0,
)
excel_writer.save()
# 将句柄关闭,否则是只读格式,打不开
excel_writer.handles = None  #这句代码有用,很久才找到
print("well done")
well done

原始数据
在这里插入图片描述
处理后的数据
在这里插入图片描述


这篇关于N175_标记异常值_自动汇聚某单位的住房公积金 有补发有增减 如何批量找出来的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/427439

相关文章

java.sql.SQLTransientConnectionException连接超时异常原因及解决方案

《java.sql.SQLTransientConnectionException连接超时异常原因及解决方案》:本文主要介绍java.sql.SQLTransientConnectionExcep... 目录一、引言二、异常信息分析三、可能的原因3.1 连接池配置不合理3.2 数据库负载过高3.3 连接泄漏

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

C#实现一键批量合并PDF文档

《C#实现一键批量合并PDF文档》这篇文章主要为大家详细介绍了如何使用C#实现一键批量合并PDF文档功能,文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言效果展示功能实现1、添加文件2、文件分组(书签)3、定义页码范围4、自定义显示5、定义页面尺寸6、PDF批量合并7、其他方法

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

C#文件复制异常:"未能找到文件"的解决方案与预防措施

《C#文件复制异常:未能找到文件的解决方案与预防措施》在C#开发中,文件操作是基础中的基础,但有时最基础的File.Copy()方法也会抛出令人困惑的异常,当targetFilePath设置为D:2... 目录一个看似简单的文件操作问题问题重现与错误分析错误代码示例错误信息根本原因分析全面解决方案1. 确保