读算法霸权笔记09_信用数据的陷阱

2024-01-02 12:12

本文主要是介绍读算法霸权笔记09_信用数据的陷阱,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 信用评级模型

1.1. 评估个人贷款违约风险的模型为FICO

1.1.1. 唯一评分参数就是贷款者的资产,主要依据是贷款者的债务负担和账单支付记录

1.1.2. 这种信用评分模型相对透明

1.1.3. 信用评分行业受政府管制

1.1.4. 信用评分系统的使用得到了广泛普及

1.2. 脸书就发明了一款建基于人们在社交网络上的行为数据的信用评级软件

1.2.1. A先生脸书上的同学有投资银行家,专业领域的博士,还有软件设计师

1.2.1.1. 更信任自己圈子里的人,因为人性就是如此
1.2.1.2. “物以类聚,人以群分”的理论表明他是可以信任的

1.2.2. B清洁工很可能有很多失业的朋友,甚至还有几个正在坐牢的朋友

1.2.2.1. 同样的理论对B不利

2. 客户锁定服务

2.1. 一项技术可以用于快速处理来电者的所有可获得数据,并把来电者按一定的指标进行等级排序

2.2. 排在前面的人被认为是更有价值的潜在客户,系统会迅速地把他们筛选出来,由人工客服接听电话

2.3. 排在后面的人要么需要等待很长的时间,要么被分配到机器人客服

3. 信用报告

3.1. 信用报告也经常作为替代变量出现

3.2. 信用好已经成为其他美德的一个非常简单的替代品

3.2.1. 信用好不仅仅被视为负责任和明智的替代变量,也被视为财富的替代变量

3.2.1.1. 财富和种族高度相关

3.3. 信用差则代表着许多与支付账单无关的罪恶和缺陷

3.4. 公司在查看雇员的信用记录之前必须征得对方的同意,但这通常只是走个流程

3.5. 那些拒绝交出信用记录的人根本不会被考虑录用

3.6. 不难证明由雇主查看信用记录导致的贫困陷阱会阻碍社会公平和种族平等的实现

3.6.1. 美国已经有10个州颁布法律判定利用信用评分指导招聘属违法行为

3.7. 利用信用评分指导招聘和升职的行为惯例导致了贫困的恶性循环

3.7.1. 你因为信用记录找不到工作,那么你的信用记录很可能会变得更糟,你找到工作的机会就会变得更小

3.8. 有储蓄的人当然可以在经济萧条时期维持信用记录的完好

3.9. 月光族则更易遭受冲击

3.10. 与电子评分经济环境下的非正式金融机构不同的是,信用卡巨头公司必须要向客户解释原因

3.10.1. 持卡人中有很多人会经常去逛“信誉不良的穷人开设的商店”,因为他们没有很多钱

3.10.2. 算法注意到了这件事,导致他们的信用评分降低,抬高他们的贷款成本,而这让他们因此变得更加贫穷

3.11. 标点符号和拼写错误也表明低教育水平,而低教育水平和阶级、种族高度相关

3.11.1. 当穷人和移民有资格申请贷款时,他们不合标准的语言水平会抬高他们的贷款利率

3.12. 金融行业的新来者会选择更自由、更不受管束的路径并不奇怪

3.12.1. 创新仰赖自由实验

3.12.2. “数据越多越好”是信息时代的指导原则

3.12.3. 银行业正为了促进业务增长疯狂搜刮个人数据

3.12.4. 虑到社会公平,一部分数据理应被排除在外

4. 电子评分系统

4.1. 电子评分是一种数学杀伤性武器

4.2. 电子评分系统是信用评分系统的化身

4.3. 电子评分更为武断任意,不负责任,不受管束,而且往往不公平

4.4. 建立在数百万个替代变量上的电子评分系统在进行暗箱操作,而封装着个人信息和相关数据的信用报告则受到法律的保护

4.5. 信用卡办理广告将是那种锁定违约风险更高的人群的类型

4.5.1. 意味着向本已艰难谋生的人推荐可用透支额度更少、贷款利息更高的信用卡

4.6. 掠夺式广告都是由这种电子评分系统生产的

4.6.1. 包括发薪日贷款和营利性大学的广告

4.7. 由于法律禁止企业使用信用评分进行市场营销,因此企业转而采用了这种不严谨的替代品

4.8. 我们的信用记录包含非常私人的信息,我们有权把控谁能看到这些数据

4.9. 正义和透明这样的概念几乎不可能被纳入企业的模型算法之中

4.10. 电子评分系统通过无数替代变量分析个人,在几毫秒内执行成千上万次“像你这样的那类人”的计算

4.11. 如果结果显示“那类人”中有足够多的人是欠债不还者,或者更糟,是罪犯,那么最开始被评估的这个人就会得到相应的对待

4.12. 过去的不公正编码带进了新的模型中

4.12.1. 某个区域的居民的行为史可以决定,或者至少在某种程度上决定,住在那里的人应该得到什么样的贷款

4.13. 电子评分系统建模者设法回答的是这个问题:“像你这样的那类人过去的行为表现如何?

4.13.1. 在遍布替代变量的统计界,这种模型经常奏效

4.13.2. 物以类聚,人以群分

4.13.2.1. 有钱人买游轮和宝马,而穷人往往确实需要发薪日贷款

4.13.3. 统计模型在大多数情况下都奏效了,带来了效率提高,利润激增,因此投资者会加倍投资这些科学系统,让这些科学系统把成千上万的人归入正确的“池”中

4.13.3.1. 大数据的胜利

4.13.4. 并没有可用的反馈回路用以修正系统

4.13.4.1. 不透明且受害者无法申诉,没有任何公平可言
4.13.4.2. 被无监管的电子评分系统评选出的失败者无权抱怨,更不用说纠正系统的错误了
4.13.4.3. 在数学杀伤性武器领域,他们的遭遇是附带损害
4.13.4.3.1. 生活就是不公平的

4.14. 在理想的情况下,应该问的问题是:“你过去的行为表现如何?

4.15. 两个问题的区别是巨大的

4.16. 随着电子评分甚嚣尘上,我们被一些秘密算法归类分组,其中有些算法仰赖的还是错误百出的个人档案

4.16.1. 我们不是被当作个体,而是被当作某个群体的一员,被迫戴上了某顶帽子

4.16.2. 电子评分污染了金融行业的大环境,贫民的机会越来越少

4.16.3. 比起众多胡作非为的数学杀伤性武器,过去那种怀有偏见的银行家看起来也没有那么坏了

4.16.3.1. 如果我们最后一次回顾一下20世纪50年代的银行家,我们会发现他的大脑充斥着各种人类的劣根性,包括欲望、偏见和对外来者的不信任

5. 差错

5.1. 富人往往能仰赖更具个性化的软件做出重大决定

5.2. 富有的旅客往往能够花钱购买“可靠乘客”的身份,因此得以顺利通过安检

5.2.1. 他们花钱购买的就是一个可以避免数学杀伤性武器伤害的防护盾

5.3. 普通阶层的人而言,尤其是较低阶层的人,他们的工作中的大部分操作都是纯自动化的

5.4. 数据经济不规范的一面破坏性更强

5.4.1. 消费者可以并且应该每年要求查看自己的信用报告,修正可能发生的昂贵错误

5.4.2. 差错带来的后果足以严重到增加他们的借贷成本

5.4.3. 系统所做出的判断仰赖的是我们漏洞百出的数据档案

5.5. 建立并出售个人档案为RealPage等同类公司创造了收入

5.5.1. 海伦·斯托克斯这样的人并不是它们的客户,而是它们的产品,应付这些人的投诉会浪费精力和财力

5.5.2. 斯托克斯的逮捕记录始终没有被删除,直到她提起上诉

5.5.3. 即使RealPage公司解决了这个问题,谁知道还有多少其他的数据代理商会继续贩卖包含同样错误信息的档案呢

5.6. 如果历史档案有错误(这是常有的事),即便再精良的算法也不可能给出正确的决策建议

5.6.1. 无用输入,无用输出

5.6.2. 错误肯定大量存在于我们的档案之中,而充斥着混淆和误导的算法正日益掌控着我们的生活

5.6.3. 消费者常常只是在无意之中了解到自己的档案有差错

5.7. 有些数据代理商会给消费者提供数据查看权限

5.7.1. 这些数据报告是被组织过的

5.7.2. 她不会看到自己身处一个被命名为“乡下人,勉强维持收支平衡”或者“老来无退休收入”的群体分类中

5.8. 数据经济环境下,大部分人要么是局外人要么是老古董

5.8.1. 各种系统的开发都以尽可能使其自动化运转为目标

5.8.1.1. 这是一种高效率的方式,也是利润的来源

5.8.2. 和所有其他的统计程序一样,错误是不可避免的

5.8.3. 减少错误的最快捷方式是微调机器运转算法

5.8.4. 人类只会把事情搞砸

5.8.5. 计算机仍然会犯各种各样的错误

5.9. 自动化数据收集程序带来的错误正在污染预测模型,助推数学杀伤性武器的诞生

5.10. 错误为机器创造了进一步学习的机会,前提条件是系统能接收到错误反馈

这篇关于读算法霸权笔记09_信用数据的陷阱的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/562409

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖