2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑

本文主要是介绍2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、和星期一上午一样的问题,就是精神不好,打瞌睡,我后面的主要工作就是把注册信息变量提取整理做到建模表中,上午还日常看了下股票,亏得他妈一塌糊涂

2、下午一来就是继续v7的开发,关于上一个工作日的两个list合成dataframe的方法,我觉得是存在问题,感觉到太繁琐了,我于是查了下资料,我震惊了,原来那么简单,我并且根据这个总结了三种不同的构造dataframe的方法

#三种构造dataframe的方法
import pandas as pdds1 = [{'a':1,'b':2},{'a':3,'b':4},{'a':5,'b':6}]
df1 = pd.DataFrame(ds1)
print 'method 1:'
print df1ds2 = [[1,2],[3,4],[5,6]]
df2 = pd.DataFrame(ds2,columns=['a','b'])
print 'method 2:'
print df2a = [1,3,5]
b = [2,4,6]
df3 = pd.DataFrame({'a':a,'b':b})
print 'method 3:'
print df3

3、把模型序列化到硬盘这种说法没有,这个存储过程就叫做序列化,自信

4、然后根据两个list的组合方法,重新组合了dataframe,然后进行了排序,IV大小,一目了然,但是这种方法我发现一个小问题,就是组成的dataframe的变量顺序可能不是dict里面的书写顺序

5、我嫌WOE的值的输出,肉眼非常不好看,我尝试进行格式化输出,格式化输出第一个遇到的问题就是类型存储问题,需要用numpy的格式转换方法进行转换,x_copy.astype(np.str_),我看到网上的示例,变量类型也是写的numpy的类型,这个转换需要重新赋值,然后就可以赋值字符串了,开始的字符串格式化方式,不方便按key进行排序,最后我想了个办法,在格式化字符串前面加标号,这样就方便对key值进行排序

6、外部首先把column_name和woe存储到一个dict中

woe_list = list(res_woe)
woe_dict = dict(zip(name_list, woe_list))
zip两个list,然后用dict进行类型转换

7、为了方便观看对dict按key进行排序,方法是

sorted(woe_dict['ANTI_FRD_SCORE'].items(),key = lambda item:item[0])
这里woe_dict['ANTI_FRD_SCORE']也是一个dict,最后输出的时候循环输出,可视化效果更佳

8、我开始研究新的变量,但是发现有个产品已经停用很久了

9、我灵机一动,想到查看一下同盾欺诈分和多头次数的关系,真的是不查不知道,一查吓一跳,0.93的相关系数 ,高度相关,然后要下班的时候就和Simon讨论这个强相关的问题,其实这里就有一个坑,我对多重共线性对于logistic regression的影响理解其实并不充分,主要没从数学推倒的角度去理解过,也没从实验的角度去理解过,然后晚上的时间我主要都是尝试去了解多重共线性对于logistic regression的影响,那看了这么多,我自己来复述一下,多重共线性对于逻辑回归有哪些影响?

  • 使得系数不稳定,增减样本,或者增减变量,都会使得系数发生很大的变化,甚至负号反向
  • 解释性上受到影响,这个主要场景就是医学上那种,比如吸烟人群是不吸烟人群患肺癌概率的两倍
  • 参数估计不准确,如果参数不准,那最后输出的结果就不准确,其实这点我自己都没能理解,按照最小化损失函数,算出参数,是什么就是什么,为什么会不准呢?
感觉网上的人也有点嘴炮,没的数学证明,没得实验过程说明,就一条一条摆出来,向是文科考试一样,这个问题,我后面还要深入研究,我一定要把多头次数的信息干掉,没用的信息!
10、晚上就放开可以W,但是运动和12点前睡觉一定要坚持,还要轻轨上的碎片时间,一定用来解决一些生活中的问题!





这篇关于2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/689789

相关文章

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

CentOS 7部署主域名服务器 DNS的方法

《CentOS7部署主域名服务器DNS的方法》文章详细介绍了在CentOS7上部署主域名服务器DNS的步骤,包括安装BIND服务、配置DNS服务、添加域名区域、创建区域文件、配置反向解析、检查配置... 目录1. 安装 BIND 服务和工具2.  配置 BIND 服务3 . 添加你的域名区域配置4.创建区域

mss32.dll文件丢失怎么办? 电脑提示mss32.dll丢失的多种修复方法

《mss32.dll文件丢失怎么办?电脑提示mss32.dll丢失的多种修复方法》最近,很多电脑用户可能遇到了mss32.dll文件丢失的问题,导致一些应用程序无法正常启动,那么,如何修复这个问题呢... 在电脑常年累月的使用过程中,偶尔会遇到一些问题令人头疼。像是某个程序尝试运行时,系统突然弹出一个错误提

电脑提示找不到openal32.dll文件怎么办? openal32.dll丢失完美修复方法

《电脑提示找不到openal32.dll文件怎么办?openal32.dll丢失完美修复方法》openal32.dll是一种重要的系统文件,当它丢失时,会给我们的电脑带来很大的困扰,很多人都曾经遇到... 在使用电脑过程中,我们常常会遇到一些.dll文件丢失的问题,而openal32.dll的丢失是其中比较

C语言实现两个变量值交换的三种方式

《C语言实现两个变量值交换的三种方式》两个变量值的交换是编程中最常见的问题之一,以下将介绍三种变量的交换方式,其中第一种方式是最常用也是最实用的,后两种方式一般只在特殊限制下使用,需要的朋友可以参考下... 目录1.使用临时变量(推荐)2.相加和相减的方式(值较大时可能丢失数据)3.按位异或运算1.使用临时

python中字符串拼接的几种方法及优缺点对比详解

《python中字符串拼接的几种方法及优缺点对比详解》在Python中,字符串拼接是常见的操作,Python提供了多种方法来拼接字符串,每种方法有其优缺点和适用场景,以下是几种常见的字符串拼接方法,需... 目录1. 使用 + 运算符示例:优缺点:2. 使用&nbsjsp;join() 方法示例:优缺点:3

Mysql中深分页的五种常用方法整理

《Mysql中深分页的五种常用方法整理》在数据量非常大的情况下,深分页查询则变得很常见,这篇文章为大家整理了5个常用的方法,文中的示例代码讲解详细,大家可以根据自己的需求进行选择... 目录方案一:延迟关联 (Deferred Join)方案二:有序唯一键分页 (Cursor-based Paginatio