数据挖掘和奥巴马

2023-12-11 11:39
文章标签 数据挖掘 奥巴马

本文主要是介绍数据挖掘和奥巴马,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来

奥巴马连任成功。

虎嗅曾在“奥巴马如何玩转社交”里介绍了奥巴马团队如何与时俱进地利用各种新兴社交平台。玩转社交,这是奥巴马获取民意的前台表现。而在后台,是什么支撑着奥巴马各种竞选策略的出台呢?是什么决定他应该到哪些社交平台上去亮相呢?他的一个几十人数据分析与挖掘团队是支重要力量。

这支团队在2008年奥巴马竞选时就已存在并发挥作用。而这次,他们更动用了五倍于上届的人员规模,且进行了更大规模与深入的数据挖掘。它帮助奥巴马在获取有效选民、投放广告、募集资金方面起到一定作用。事实证明,奥巴马募集到的资金尽管与对手罗姆尼募集的资金规模不相上下,但前者从普通民众直接募集到的资金是后者的近两倍。

在奥巴马获胜几小时后,《时代》杂志刊发报道,揭示了这支团队的部分运作情况。该报道发出后,多家不同类型媒体转载,也引发了硅谷科技人士的热议。

以下是虎嗅编译内容:

大数据时代的总统选举

文/Michael Scherer

在春季晚些时候,在幕后支持巴拉克•奥巴马获取胜利的数据处理团队注意到,乔治·克鲁尼在西岸对40-49岁的女性粉丝有莫大吸引力,这个群体无疑是为了在好莱坞与克鲁尼——以及奥巴马共进晚餐而最愿意掏钱的一支人群。(译注:5月10日,乔治·克鲁尼为奥巴马举办筹资聚会,当晚筹得竞选连任资金1500万美元。)

所以,就像他们对待所有其他收集、存储、分析的数据一样(这些数据是他们为了奥巴马的再次竞选而在过去两年收集的),奥巴马竞选连任的最高班底决定试试以上这个观察是否正确。他们从东岸的名人里选择到了一个对这个群体有相似吸引力的人,以图复制“克鲁尼竞标”中产生的千万美金效应。“我们有丰常多的选择,但我们选择了女星莎拉·杰西卡·帕克。”一名高级竞选顾问解释说。所以接下来与奥巴马晚餐的竞标诞生了:一个与他在帕克的纽约西村私宅吃上一顿的机会。(译注:席位的公开售价是每位8万美元。)

对公众而言,他们不可能知道,“帕克竞标”的想法来自于竞选团队对支持者的数据挖掘:他们喜欢竞赛、小型宴会和名人。

首席科学家

从一开始,竞选活动经理Jim Messina已经打算要搞一次完全不同的、以度量驱动的竞选活动,该竞选的目的是政治,但是政治直觉可能并不是手段,数据是。“我们要用数据去衡量这场竞选活动中的每一件事情。”他说,在接受这份工作后,他雇用了一个五倍规模于2008年竞选时的分析部门,芝加哥竞选总部还任命Rayid Ghani为“首席科学家”。此人是埃森哲技术实验室的分析性研究带头人,他是知识发现和数据发掘这一应用科学领域的领军人物,其技术常用于公司处理海量数据发掘客户所好,比如将超市促销的效率最大化。

2011年,Ghani在一次谈话中透露,在政治活动中运用数据分析这一工具。他说难点在于如何充分利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。现在选民名册与在公开市场上可得的用户资料紧密相连,选民的姓名和住址则与很多资料可以相互参照,从杂志订阅、房屋所有权证明,到狩猎执照、信用积分(都有姓名和住址登记)。

除了这些资料,还有拉票活动、电话银行的来电所提供的信息,以及其他任何与竞选活动相联系并自主提供的私人信息。加尼和他的团队将试图挖掘这一连串数据并预计出选民的选举模式,这将使奥巴马竞选团队的花费更加精确和有效率。 

秘密进行

不过,这个几十人数据分析团队具体做了些什么,被严格保密。“他们是我们的核编码。”当被问及都做了哪些工作时,竞选发言人Ben LaBolt如此说道。

在办公室里,该团队会给各个数据挖掘实验进行神秘代码命名,比如独角鲸、追梦人。该团队甚至在远离其他竞选工作人员的地方工作,在总部巨大办公室的北边尽头,专设了一个没有窗户的房间。“科学家”们会为在白宫罗斯福厅的总统及他的高级幕僚发送常规工作报告,而更多的公开细节是不会透露的,竞选团队保护着他们自认为相对于罗姆尼团队有制度优势的地方:即数据。

11月4日,一个高级竞选顾问同意匿名向《时代》杂志讲讲他们的前沿工作,也同时要让我们保证,除非竞选结束,否则不能披露信息。他们披露了他们如何利用海量数据分析挖掘,帮助奥巴马筹集到10亿美金,如何重新制订了电视广告投放,如何做出“摇摆州”选民的详细模型(该模型可用于提升利用电话、上门投递邮件、社会化媒体等手段的效率)

如何筹集10亿美金

奥巴马团队在2008年对高科技的运用赢得了无数赞美,但其成功也表明了一个巨大缺陷:数据库太多了。那时,通过奥巴马网站打电话的志愿者用的名单是一份赋闲在家者名单,这名单与在竞选办公室打电话人所用的名单是不一样的。而动员投票名单也永远不会与资金筹集名单重合。就像911之前的FBI和CIA:这两支团队绝不会共享数据。“我们早期意识到,民主党的问题就在于数据库太多了,”一个工作人员说,“数据库之间不彼此碰头。”所以在头18个月里,竞选团队就创建了一个单一的巨大系统,可以将从选民、捐献者、田野工作者、消费者数据库、以及“摇摆州”民主党主要选民档案的社会化媒体联系人与手机联系人那里得到的所有数据都聚合到一块。

这个组合起来的巨大数据并不能直接告诉团队如何发现选民以及获取他们的注意。它允许数据处理团队去做一些测试,看哪些类型的人有可能被某种特定的事情所打动与说服。比如,在办公室里的电话名单上,不止是列出对方的名字与号码,还以他们可能被说服的内容、以及竞选团队最重要的优先诉求来排序。决定排序的四分之三因素是基本信息,比如年龄、姓别、种族、邻居以及投票记录。选民的消费者数据帮助完成这个图谱。“我们可以预测哪些人会在网上捐钱,也可做出模型来看哪些人会用邮件捐。我们可以为志愿者建模。”一个用数据来建预测文档的高级参谋说,“最后,建模对我们来说变得是一种更重要的方式,相较于2008年而言,它让我们工作得更有效率。”

比如在早期,竞选团队就发现,在个人注意力最容易被重新吸纳回来的人群里,2008年曾经退订了竞选邮件的那部分人是首要目标。策略师为特定人群制作相应的测试。他们做测试,看一个本地志愿者打来的电话的效果,如何优于一个从非摇摆州(比如加州)志愿者打来的电话。就像Jim Messina说的,在整个竞选活里,没有数字做支撑的假设绝少存在。

新的大数据库能让竞选团队筹集到比他们曾预料到的更多的资金。到8月份,奥巴马阵营里的每个人都认为他们达不到10亿美金的筹集目标。“我们曾经有过很大争议,我们甚至不能接受9亿的目标。”一个对该过程接触密切的高级官员说。但是,另一个人说,“结果到了夏天的时候,互联网效应爆炸了。”

网上筹集到的资金极大一部分通过一个复杂的、以度量驱动的电邮营销活动而来。在此时,数据收集与分析变得异常重要。很多给支持者的邮件只是测试,它们采用了不同的标题、发送者与讯息内容。在春天时,米歇尔·奥巴马的邮件表现得最好,有时,竞选总指挥Messina表现得比副总统拜登好。在很多时候,募集资金最多的人能比欠佳者多募十倍。

芝加哥总部发现,注册了“快速捐献”计划(该计划允许在网上或者通过短信重复捐钱,而无须重新输入信用卡信息)的人,捐出的资金是其他的捐献者四倍。所以该计划被拓展开来,然后以物质刺激加以激励。在10月底时,该计划是竞选团队对支持者传递信息的重要组成部分,第一次捐助者可以得到一个免费的保险杆贴纸。

预测产出

随后,那些意在打开钱包的戏法接着又用于去拉动选票。分析团队用了四组民调数据,建立了一个关键州的详细图谱。据说,在过去的一个月内,分析团队做了俄亥俄州29000人的民调,这是一个巨大的样本,占了该州全部选民的0.5%,这可以让团队深入分析特定人口、地区组织在任何给定时刻里的趋势。这是一个巨大的优势:当第一次辩论后民意开始滑落的时候,他们可以去看哪些选民改换了立场,而哪些没有。

正是这个数据库,帮助竞选团队在10月份激流涌动的时候明确意识到:大部分俄亥俄州人不是奥巴马的支持者,更像是罗姆尼因为9月份的失误而丢掉的支持者。“我们比其他人镇定多了。”一个官员说。民调数据与选民联系人数据每晚都在所有可能想象的场景下被电脑处理、再处理。“我们每天晚上都在运行66000次选举。”一个高级官员说,他描述了计算机如何模拟竞选,以推算出奥巴马在每个“摇摆州”的胜算。“每天早上,我们都会得出数据处理结果,告诉我们赢得这些州的机会在哪,从而我们去进行资源分配。”

线上,动员投票的工作首次尝试大规模使用Facebook,以达到上门访问者的效果。在竞选的最后几周里,下载了App的人们,会受到一些带有他们在摇摆州朋友的图片的信息。该讯息告诉他们,只要点击一个按钮,程序则会自动向目标选民发出鼓励,推动他们采取恰当的行动,比如登记参选、早点参选或奔赴投票站。竞选团队发现,通过Facebook上朋友接受到如此信息的人有五分之一会响应,很大程度上这个讯息是来自他们认识的人。

数据也帮助了竞选广告的购买。与其依赖于外部媒体顾问来决定广告应该在哪里出现,Messina觉得不如将他的购买决策建立在内部大数据库上。“我们可以通过一些真的很复杂的模型,精准定位选民。比如说,迈阿密戴德35岁以下的女性选民,如何定位?”一个官员说。结果是,竞选团队买了一些非传统类剧集(如《混乱之子》、《行尸走肉》、《23号公寓的坏女孩》)之间的广告时间,而回避了跟地方新闻挨着的广告时间。奥巴马团队2012年的广告购买比2008年高了多少呢?芝加哥方面有一个数字:“电视广告效率提高了14%……这确保我们是通过广告在与我们可劝服的选民对话。”那位官员说。

数据同样让团队把总统送往通常在竞选阶段晚期不会送往的地方。8月份时,奥巴马决定到社会化新闻网站Reddit去回答问题。许多总统的高级助手们甚至不知道这个网站是干嘛的。“为什么我们要把巴拉克·奥巴马放在Reddit上?”一个官员问道,“因为一大堆我们的动员目标在Reddit上。”

数据驱动的决策对奥巴马——这位第44位总统的续任起到了巨大作用,也是研究2012选举中的一个关键元素。它也是一个信号——表明华盛顿那些基于直觉与经验决策的竞选人士的优势在急剧下降,取而代之的是数量分析专家与电脑程序员的工作,他们可以在大数据中获取洞察。正如一位官员所说,“人们坐在一间密室里抽着雪茄,说:‘我们总是买《60分钟》’的时代已结束。在政治领域,大数据的时代已经到来。”

这篇关于数据挖掘和奥巴马的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/480556

相关文章

EI会议推荐-第二届大数据与数据挖掘国际会议(BDDM 2024)

第二届大数据与数据挖掘国际会议(BDDM 2024) 1、基本信息 大会官网:http://www.icbddm.org/ 官方邮箱:icbddm@163.com 主办方:武汉纺织大学 会议时间:2024年12月13日-12月15日 会议地点:湖北武汉 02征稿主题: 包含(但不限于)以下领域: 大数据:大数据分析、人工智能、大数据网络技术、大数据搜索算法和系统、分布式和点对

【数据分析案例】使用机器学习做游戏留存数据挖掘的一种尝试

案例来源:@深极智能 案例地址: https://zhuanlan.zhihu.com/p/31213553 1. 目标:针对K游戏数据,预测玩家留存情况,并找出影响留存的因素 2. 数据:玩家id,动作,动作时间戳,玩家关键属性(金币、装备、等级等) 3. 数据清洗: 1)剔除操作数<16的玩家,这类对游戏题材不感兴趣,非目

【校招面经】机器学习与数据挖掘常见面试题整理 part9

八十、SVM的核函数 from:https://blog.csdn.net/lihaitao000/article/details/51173459 SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数. 核函数的定义并不困难,根据泛函的有关理论,只要一种函数

【校招面经】机器学习与数据挖掘常见面试题整理 part8

七十六、t-SNE from:http://www.datakit.cn/blog/2017/02/05/t_sne_full.html t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非

见到了奥巴马的专机

今天奥巴马来湾区演讲,据说是在一个沃尔玛的广场,讲关于能源的话题。他的座驾就停在学校不远的那个军用停机坪,不少同学去拍照留念了。今天还见到了很多警察,阵势不小。

2015百度机器学习/数据挖掘工程师+自然语言处理工程师笔试题目

1.new 和 malloc 的区别。 new 返回指定类型的指针,并且可以自动计算所需要大小。 比如:    int *p;   p = new int; //返回类型为int* 类型(整数型指针),分配大小为 sizeof(int);    或:    int* parr;   parr = new int [100]; //返回类型为 int* 类型(整数型指针),分配大小为

数据挖掘工程师的面试问题与答题思路

一个Java程序可以认为是一系列对象的集合,而这些对象通过调用彼此的方法来协同工作。下面简要介绍下类、对象、方法和实例变量的概念。 对象:对象是类的一个实例,有状态和行为。例如,一条狗是一个对象,它的状态有:颜色、名字、品种;行为有:摇尾巴、叫、吃等。类:类是一个模板,它描述一类对象的行为和状态。方法:方法就是行为,一个类可以有很多方法。逻辑运算、数据修改以及所有动作都是在方法中完成的。实例变量

数据挖掘之分类算法

分类算法是数据挖掘中常用的一类算法,其主要任务是根据已知的训练数据(即带有标签的数据)构建模型,然后利用该模型对新的数据进行分类。分类算法广泛应用于金融、医疗、市场营销等领域,用于预测、决策支持等任务。以下是几种常见的分类算法:  1. 决策树(Decision Tree)    原理:通过树状结构将数据集划分成更小的子集,节点代表特征,分支代表决策规则,叶节点代表分类结果。    优点:易

【视频讲解】数据挖掘实战:Python金融贷款模型分类潜在贷款客户

全文链接:https://tecdat.cn/?p=37521 原文出处:拓端数据部落公众号 分析师:Hengtao Fan 模型的存在依托于这样一个事实:基于概率的决策乃是最优之选。将概率转化为评分,能够便于对齐风险。而评分则是通过统计的方法来识别潜在客户,进而判断客户是否合乎心意。这里的 “合意” 由我们预先定义,可以涵盖诸如风险、收益率、响应率、续借意愿、违约后的偿还意愿等等诸多方

程序猿成长之路之数据挖掘篇——Kmeans聚类算法

Kmeans 是一种可以将一个数据集按照距离(相似度)划分成不同类别的算法,它无需借助外部标记,因此也是一种无监督学习算法。 什么是聚类 用官方的话说聚类就是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。用自己的话说聚类是根据不同样本数据间的相似度进行种类划分的算法。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。 什么是K-m