白宫版“潜伏”,数据分析锁定副总统

2023-10-29 11:10

本文主要是介绍白宫版“潜伏”,数据分析锁定副总统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

中期选举前,特朗普政府上演了一场“潜伏”版“水门事件”,而由于一位程序员及其在GitHub上发布的行文风格相关性分析,这位匿名告密者的身份被迅速锁定在副总统身上。

这次的结果也似乎会与当年的尼克松大有不同。

先来看看事情的经过。

9月5日,《纽约时报》发表了一封匿名来信《我是特朗普政府中的一名抵抗者》,作者自称特朗普总统身边的高管,对特朗普的执政大肆批评并揭露了不少白宫内幕,称政府内部存在针对特朗普的“抵抗力量”。来信中他表示,为了美国的利益,自己一直“潜伏”在总统身边,让总统的很多错误决定无法执行。

《纽约时报》表示已经确认了该高官身份,但是为了保护他,选择了匿名发布这篇文章。

490109e6815f48ba0b9b1a7b22a1dc16d8aaf6d2

纽约时报报道

纽约时报报道链接:

https://cn.nytimes.com/opinion/20180906/trump-white-house-anonymous-resistance/

尽管自特朗普上台以来,反对之声就一直不绝入耳。但这次曝光者自称来自特朗普身边高层,且自称正百般阻挠各种政策实施。并且特朗普还不知道他是谁。这让特朗普大为光火。

2f4e49aa91ea0f2c8df8a11e9bb921ee598b00b2

纽约时报报道配图

文章发布后,特朗普迅速在推特上高呼“谋反(TREASON?)”,要求《纽约时报》把这个胆小的匿名者交给政府。

24ae19a1f8beec7990f225cb9bde940594723989

这件事到此或许还是停留在政府层面的一场闹剧。但是很快,事情就发生了新转机。

几天前,一位名叫Michael W. Kearney的程序员在GitHub公布了一个脚本,用神经网络,将这封来信的行文风格和用词与每个白宫高管的推特文本进行了分析对比,并分别求出了相关系数。

Github链接

https://github.com/mkearney/resist_oped/blob/master/README.md

运行结果是副总统(VP, Vice President)的相关系数最高。

6614bb81619bdc9dde32512c58c4918077d39bdd

GitHub上的这一分析结果和白宫的某些调查不谋而合。据美联社报道,白宫有分析结果称,评论文章中出现了“lodestar”这一不常见词汇,正是美国副总统经常使用的语言,一些人因而猜测彭斯是匿名作者。

接下来,事件矛头直指美国副总统迈克·彭斯。

为证清白,彭斯在接下来的几日做客两档电视节目,说愿接受测谎仪检测,同时为属下作担保,愿意接受任何政府审核。

当然,也有人称,在GitHub公布的分析结果可以看出,特朗普的系数0.798661比副总统的系数0.801063差距非常小,这是否是中期选举前特朗普自导自演的一出大戏还不得而知。

这位让副总统伤脑筋的程序员也并非等闲之辈。

从GitHub的个人主页可以看出,Michael W. Kearney的真实身份是密苏里大学新闻学院的副教授,同时也在学校信息学院任职,教授大众媒体、政治传播、定量研究方法和数据科学课程。

目前的研究重点正是在新媒体环境中的党派选择性曝光,可以说是一位兼具新闻传播知识和程序技能的大咖。

Michael W. Kearney的research gate的主页介绍

9e5408f99f51b3a805cd467cd6ff8ec8e33587e5

Michael W. Kearney在密苏里大学的个人主页https://mikewk.com/

73695899f66640e9a663d0c34ba4429e7d8182d4

或许这次,程序员真的要拯救世界了。

最后,附上Michael W. Kearney在GitHub上发布的这篇手稿。

原文链接

https://github.com/mkearney/resist_oped/blob/master/resist-oped-text-similarity.md

题目:使用数据科学识,推测谁撰写了《纽约时报》关于特朗普政府内部抵抗的专栏文章

昨天,“纽约时报”发表了一篇关于白宫内部抵抗的评论文章。它是由一位匿名作者撰写的,这名作者被称为“特朗普政府的一名高级官员”。

很多人都在猜测撰写这篇专栏文章的作者,早期猜测的线索是“lodestar”这个词的使用。据悉,副总统迈克·彭斯经常使用这个词。其他人则认为,匿名作者故意往彭斯身上泼脏水。

我们可能永远不知道是谁真正撰写了这篇文章。但是,就目前而言,我想指出的是,虽然分析白宫高级官员的沟通模式是有据可循的,但这样做却忽视了数据科学的最新进展。

那么,可以通过过去的通信记录来帮助识别匿名作者吗?

其实数字媒体和数据科学现有技术,使我们可以在相对较短的时间内获得(无论是否准确)见解。而且由于我做的很多工作都涉及到分析Twitter上所展示的政治沟通,我想我会试着用它来展示一些数据科学培训案例,这仅仅需要大量数据和一点时间。

分析过程

首先,我从纽约时报专栏中获取了文本。

1、我收集了专栏文本

接下来,因为我需要一些样本来与专栏的文本进行比较,所以我转向Twitter。由于时间的缘故,我决定将我的分析范围锁定在总统内阁成员身上。

2、我从使用推特的特朗普“内阁”那里收集了最新的3,200条推文

通过参考文本和Twitter推文样本,之后我逐段拆分专栏文本,大致匹配推文的长度。

3、我将专栏文本分成段落

使用与名称或“op-ed”的作者进行匹配,然后为每个文本字符串提取了超过100个特征。这些特征包括大写、标点符号(逗号、句号、感叹号等)、空格的使用、单词长度、句子长度、'待成'动词的使用、以及词维度的大量词库表示,这类似于将常用单词划分为八十个不同的主题,然后测量每个文本使用相关主题的单词程度。

4、我将每个文本转换为107个数字要素

最后,为了对op-ed和名称之间的相似性进行实际测量,我平均了作者所特有的数字,然后使用这些值来估计专栏文本和Twitter用户文本(关联度量范围从-1到1)之间的相关性。

5、我估计了专栏文本和每个内阁成员帐户发布的推文之间的相关性

你可以找到我在Github上使用的代码。这是相关系数的直观表示:

0045828b2643113e1b1942c936001f554cd317e6

分析局限性

本实践有助于说明,如何使用数据科学来估计多个文本之间的相似性,但它没有提供任何确凿的证据来回答谁是撰写“纽约时报”专栏文章的作者。

事实上,有很多理由说明为什么人们应该对这种分析所做的推论持怀疑态度。我将在接下来的几段中描述其中的一些限制。

首先,比较文本是有限的。因为它们是为Twitter而不是纽约时报设计的。他们也是由用户撰写的,他们的身份可能与他们的推文相关联。

其次,比较文本库但没有考虑所有的可能选择。例如,这没有考虑“不使用Twitter的内阁成员”。它也省略了任何在特朗普政府工作但不是内阁正式成员的人。

第三,文本相似性分析假设:匿名专栏作者没有尝试伪装自己的沟通模式。即使他们确实试图伪装自己,一些沟通模式可能不予考虑。一些误导的线索,例如“lodestar”词的使用,可能导致许多算法错误推测。

第四,假设撰写推文的人是他们声称代表的实际人。例如,我们有理由相信特朗普并没有操作@POTUS帐户,但情况具体如何,我们不得而知。一些内部通信人员也完全有可能影响推文消息的发送。或者,主管部门可能会有重叠的沟通模式。因此,在白宫工作的人员都会有一些近似的匹配。


原文发布时间为:2018-09-15

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

这篇关于白宫版“潜伏”,数据分析锁定副总统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/300235

相关文章

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

MySQL中一致性非锁定读

一致性非锁定读(consistent nonlocking read)是指InnoDB存储引擎通过多版本控制(multi versionning)的方式来读取当前执行时间数据库中行的数据,如果读取的行正在执行DELETE或UPDATE操作,这是读取操作不会因此等待行上锁的释放。相反的,InnoDB会去读取行的一个快照数据 上面展示了InnoDB存储引擎一致性的非锁定读。之所以称为非锁定读,因

半年高达552亿元,锁定云第一,中国电信天翼云紧追不舍

【科技明说 | 科技热点关注】 刚才我注意到中国电信公布2024年中期业绩,报告期内,中国电信实现营业收入为人民币2660亿元,同比增长2.8%,其中服务收入为人民币2462亿元,同比增长4.3%;净利润为人民币218亿元,同比增长8.2%。 其中亮点,2024年上半年,天翼云保持快速增长,收入达到了552亿元,同比增长20.4%,占服务收入比升至22.4%,市场头部地位进一步巩固。 为

win7下安装Canopy(EPD) 及 Pandas进行python数据分析

先安装好canopy,具体安装版本看自己需要那种,我本来是打算安装win764位的,却发现下载总是出现错误,无奈只能下载了32位的! https://store.enthought.com/downloads/#default 安装好之后,参考如下连接,进行检验: 之后再根据下面提供的连接进行操作,一般是没问题的! http://jingyan.baidu.com/article/5d6

「大数据分析」图形可视化,如何选择大数据可视化图形?

​图形可视化技术,在大数据分析中,是一个非常重要的关键部分。我们前期通过数据获取,数据处理,数据分析,得出结果,这些过程都是比较抽象的。如果是非数据分析专业人员,很难清楚我们这些工作,到底做了些什么事情。即使是专业人员,在不清楚项目,不了解业务规则,不熟悉技术细节的情况下。要搞清楚我们的大数据分析,这一系列过程,也是比较困难的。 我们在数据处理和分析完成后,一般来说,都需要形成结论报告。怎样让大

maven学习笔记【解除js等文件的锁定】

默认情况下,jetty服务器运行期间是无法修改JS,CSS等静态文件的,必须要先关闭jetty服务器,再修改,再启动,如果经常修改静态文件,这是相当麻烦的. 其实是需要把jetty的webdefault.xml文件中的useFileMappedBuffer节点改为false即可 但是最近在项目中使用maven,jetty也作为maven插件使用,根本没有jetty的配置文件.其实jett

结合Python与GUI实现比赛预测与游戏数据分析

在现代软件开发中,用户界面设计和数据处理紧密结合,以提升用户体验和功能性。本篇博客将基于Python代码和相关数据分析进行讨论,尤其是如何通过PyQt5等图形界面库实现交互式功能。同时,我们将探讨如何通过嵌入式预测模型为用户提供赛果预测服务。 本文的主要内容包括: 基于PyQt5的图形用户界面设计。结合数据进行比赛预测。文件处理和数据分析流程。 1. PyQt5 图形用户界面设计

使用AI大模型进行企业数据分析与决策支持

使用AI大模型进行企业数据分析与决策支持已成为现代企业管理的重要趋势。AI大模型凭借其强大的数据处理能力和智能分析功能,能够为企业提供精准、高效的数据分析服务,进而支持企业的决策过程。以下是使用AI大模型进行企业数据分析与决策支持的具体方式和优势: 一、AI大模型在数据分析中的应用 超级数据处理能力 海量数据处理:AI大模型能够同时处理海量数据,包括结构化数据、非结构化数据等,满足企业大规模

AIGC与数据分析融合,引领商业智能新变革(TOP企业实践)

AIGC与数据分析融合,引领商业智能新变革(TOP企业实践) 前言AIGC与数据分析融合 前言 在当今数字化时代,数据已成为企业发展的核心资产,而如何从海量数据中挖掘出有价值的信息,成为了企业面临的重要挑战。随着人工智能技术的飞速发展,AIGC(人工智能生成内容)与数据分析的融合为企业提供了新的解决方案。 阿里巴巴作为全球领先的科技公司,一直致力于探索和应用前沿技术,以提升企业

技术培训 | 大数据分析处理与用户画像实践|预告

主题: 大数据分析处理与用户画像实践 时间: 5 月 11 日 20:00 —— 21:30 地点: QingCloud 技术分享群,文末有二维码。 讲师: 孔淼 诸葛io 创始人 & CEO 90 后连续创业者,曾任 37degree CTO ,在任 37degree CTO 期间,孔淼曾带领团队服务 CCTV 、海尔、聚美优品、宝马等知名企业,对大数据分析的技术与行业有深厚的理解