李雨浛:在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列(八)...

本文主要是介绍李雨浛:在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列(八)...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

76ceb1f1dea888ea33c0eef5915d7059.png

导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

作为一名文科生,我在学习统计和编程语言的路上一直以来都磕磕绊绊,十分艰难。我以文科生的身份考入武汉大学新闻与传播学院,大二时的“媒介调查与统计”一门课的分数只有82分;直到本科毕业时,我仍然对基本的统计方法一无所知,更不要说在我看来是天方夜谭的R与Python语言编程,所以在作本科毕业论文时,虽然我想实施一些更有意思的选题,却因方法受限而不得不作罢,最后只选取最为基础的手工编码方法完成了一个不同媒体之间叙事比较的案例研究。2020年考入清华大学新闻与传播学院读硕士研究生后,我只知道自己朦朦胧胧对社交媒体和环境议题感兴趣:在社交媒体和气候变化问题都十分重要的当下,人们的环境认知和实践无疑受到社交媒体上的信息和周边社会网络的影响。具体而言,缺少传播资源与能力的非政府组织如何利用社交媒体的特性达成自己的环境倡导目标、触及更大范围的受众并使公众态度和行为向环境友好方向转变?在社交媒体越来越重要的今天,是谁在这一平台上占据主导、影响人们对气候变化的感知和理解?媒体或者结构化的社会网络如何影响人们的环境认知?

这些问题激发着我想要从事社会科学研究的兴趣。因此,我在硕士的第一学期完成了一项关于环保非政府组织在社交媒体上如何进行环境倡导的研究。当时,我使用深度访谈的方法采访了大概十位环境公益组织的负责人。研究做得很辛苦,整理录音和访谈资料花费的时间也很长,但在访谈过程中了解到的各种细节、接触到不同组织负责人却让我非常兴奋。但当我最后把文章拿给我的导师审阅时,她给了很多批评和建议,告诉我质化研究有时候甚至比量化研究更难做,并且委婉地让我多上一些研究方法类课程,争取做出一个扎实规范的研究。对于想走上学术道路的初学者而言,最好的方法是学习并复制一个可操作性强的量化论文,使用规范的量表和现成的统计工具。但我研究和自学了很久,始终觉得自己对心理模型和量表难以提起兴趣。此外,我并不想放弃质化研究中那些有趣的、丰富和翔实的细节,同时又对如何提升自己的归纳和推断能力非常困惑:如果既想要使用量化方法来做出规范的好上手的研究,又想要保留研究的诸多细节,怎么做才是最好的做法?如果想要做出严谨的、具有信度和效度的归纳和推断,我们应该采用什么样的统计学手段去说服自己、说服审稿人、说服读者?

偶然之间,我从身边同学的推荐之下了解到大数据能力提升项目,在某种程度上,大数据能力提升项目让我看到了在量化和质化研究中找到中间道路的可能性——或者说,计算方法是一种另类的量化手段。其实,在进入研究生学习的第一年,我就通过读文献了解到“计算社会科学”这一领域的存在。当时,我内心虽然觉得那些采用大数据和计算方法的社交媒体研究非常吸引人,却觉得如果自己想要上手计算方法,几乎是不可能完成的事情。而大数据能力提升项目恰好给了我这个尝试的机会,我也真正是在项目的一系列课程中,逐渐感受到计算方法的魅力,以及找到嫁接自身领域和计算方法的可能性。在孟天广老师开设的政务大数据应用与分析课程上,我初步接触了因果推论、实验方法、机器学习等前沿研究方法。因为这门课还配套有相应的工作坊指导,我几乎每节工作坊都没有缺席,在课后按照助教分享的代码和范例一步步复制。课余时间,我还报名参加了Coursera上提供的一系列Python编程入门、社会网络分析和机器学习等入门课程。这些都为我后来将这些方法逐步应用到自己的研究之中打下了坚实的基础。

对于孟天广老师在课程上介绍过的两个观点,我一直记忆犹新,这也间接塑造了我对计算社会科学方法的认识和学习方法:第一,大数据方法可能会成为量化和质化研究的桥梁。这是因为大数据方法采用的文本和图片数据,在过去几十年的研究中可能更多被归类于定性素材,而机器学习实质上是采用计算机辅助的定量化分析,研究者在解读结果的过程中,可以采取定性或定量的多元路径。另外,传统的定量研究由于采取问卷的形式,所得到的研究数据通常是结构化的,抛弃了大量文本和图片等非结构化数据中的丰富内容,而计算方法恰好能够帮我们分析出大数据中隐藏的特征和模式。虽然大数据存在改变数据驱动、缺少问题和理论导向的缺陷,也需要在信度、效度和因果推断上给出进一步的解释和改进,但总体而言,大数据方法仍然极大地拓宽了传统量化研究的选题宽度,给包括传播学在内的许多学科都注入了新的实践和理论活力。

第二,学习计算工具的方法无他,最重要的是“learning by doing”(做中学)。如果一个人能够清晰地把自己所学的内容和知识传授给其他人,那这个人一定就深入掌握了这一方法。

受这两个观点的启发,我开始在自己主导的一项社交媒体与气候变化讨论的研究中采取语义网络和情绪分析的计算方法,探讨气候变化相关视频的内容框架和用户气候变化感知之间的关联。最后,论文获得了由国际传播学会(International Communication Association)环境传播分会颁发的最佳学生论文奖。这些经历真正让我感受到采用大数据方法从事社会科学研究的潜力,也坚定了我想要成为环境传播和计算社会科学这一交叉领域的出色学者的决心。

09d0d7680dc381ad2e31b4267d6130d8.png

5e42ae2816be986e0c63d2e982995ea3.png 2022年国际传播学会环境传播分会最佳学生论文奖奖状

在2022年春季学期,受学院学生会的邀请,我在学院的“量化学习小组”里分享了使用有监督机器学习和社会网络分析做研究的经验和代码。在有监督机器学习的讲座里,我介绍了机器学习分类算法,逻辑斯蒂回归模型、朴素贝叶斯模型原理,并带领大家完成数据处理、模型训练与应用等任务;在社会网络分析的讲座里,介绍社会网络分析的基础概念、方法应用、相关理论,并带领大家完成处理数据、建立网络、分析网络等任务,前后一共有五十余位同学到场参加讲座。在这两次的分享中,我也逐步加深了对计算方法的原理及应用的认识。

2022年暑假,不满足于已经学完的大数据能力提升项目课程和Coursera上能够获取到的免费资源,我想要进一步提升自己的大数据编程能力。于是,我报名参加了由密歇根大学每年定期举办的“校际政治学和社会学研究联盟”暑校(Inter-university Consortium for Political and Social Research Summer Program, 简称ICPSR)。我一共参加了“网络分析:前沿话题”、“社会科学中的因果推断”和“面板数据和序列分析”等三门为期四周的方法论课程,并获得了由EITM研究所颁发的成绩证书。

835f57d81bf28e0b4c2f9a0d4e6b539c.png 

1f916df9a5bc3af8f18ccc26c5c8eb79.png

EITM(Empirical Implications of Theoretical Methods)研究所颁发的证书

我很感谢大数据能力提升项目,也十分感谢在这个项目中遇到的孟天广老师,他在我学做研究的路上、以及后续申请密歇根大学ICPSR暑校和申请国外博士项目的过程中都给予了我非常大的启发和帮助;我也想感谢我在上课过程中结识到的合作者和朋友,与优秀之人同行,使我有了更多进步的动力。可以说,是大数据能力提升项目让我的研究能力不断成长,使我的职业目标和学术方向更加清晰,而我也立志于在未来成为一名优秀的计算社会科学研究者,在未来的博士研究期间做出更多结合理论与实证的优秀作品,为计算方法的推广和应用贡献自己的力量。

编辑:于腾凯

校对:林亦霖

e4f3918524cc20c1ee0924c0a27e92bf.png

这篇关于李雨浛:在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列(八)...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/418787

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象