朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访

本文主要是介绍朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png


[ 导读 ] 清华-青岛数据科学研究院(以下简称“数据院”)自2014年4月成立以来,秉承“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”24字指导方针,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才。

 

由清华大学研究生院、数据科学研究院及相关院系共同设计组织实施的“清华大学大数据能力提升项目”,通过整合建设课程模块,形成大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,提升学生大数据分析能力和创新应用能力。

 

截至2019年6月,已有来自31个院系的271名同学获得了“大数据能力提升项目”证书,其中信息类同学160人,非信息类同学111人。

 

清华的数据科学人才培养究竟有什么特别之处?让我们通过倾听优秀的大数据人才讲述他们与“大数据”的不解之缘,一起寻求答案吧!


640?wx_fmt=png

参加成都八零比赛结束后

 

朱思宇是清华大学17级水利水电工程系硕士,毕业后将前往北京大学遥感所继续攻读博士学位。曾在2018年荣获数据院RONG奖学金特等奖、并成为学生大数据协会会长的他谈到大数据时感触颇深地说:

 


大数据是一个方法,而且是目前看来能够高效解决问题的方法。大数据项目课程的学习和实践,让我认识到大数据与自身专业的结合大有所为,同时也让我看到了其中的问题所在,我将坚持不懈地在这些难点上继续挖掘、创新。


缘起:“课堂与实践是大数据的启蒙之师”

 

在本科刚刚接触科学研究时,朱思宇同学遇到了一个棘手的图像处理问题。当时他根据过往的经验主观判断,并不认为大数据的方法能够解决这个问题。没想到稍加试验,就取得了突破性的进展,“效果特别好,之后我就一直告诉自己,数据和机器的潜力很大。”在不断完善程序和实验后,这项技术应用也最终发表于IEEE-JSTARS。


2017年9月,刚刚成为硕士研究生的朱思宇偶然得知面向研究生开放报名的大数据项目。想起本科期间从大数据中尝到的甜头,以及对编程的浓厚兴趣,以及系里能够抵换本专业学分的优惠政策,朱思宇毫不犹豫地报名并选修了四门大数据项目课程:《大数据系统基础A》、《数据可视化》、《数据思维与行为》和《大数据实践课》。


其中,由清华大学社科学院院长彭凯平教授开办的《数据思维与行为》令他印象深刻。除了因彭教授享誉内外,个人魅力吸引入门以外,在每次其他同学咨询选课时,他总会提到:“这门课应该是大数据课程中小姐姐最多的课程”。


但是经过一段时间的学习,他很快就发现这门课在整个大数据项目的教学体系中的存在很特殊。“首先这门课是少有的文科类数据课程,整个课程设计偏向于思维习惯的训练和心理学的一些知识,使得技术惯性思维的理科生能够更多思考技术对于社会和个人的作用。加上彭凯平老师个人的人生阅历很广,所以在授课过程中时刻向我们涉及着数据伦理与哲学的思辨。我们搞技术的时候,往往不去思考技术行为背后的意义与合理性,但是这往往容易暗含问题。


朱思宇举例子解释道:“大数据可以轻易获取用户信息,并据此向用户推送相关信息,这对用户而言是方便的。但是在这门课后,我开始意识到,这种行为也会暴露个人隐私。


朱思宇和同学们在彭凯平老师的课堂上进行了很多关于数据伦理的探讨,这些探讨看似与技术本身无关,但却帮助朱思宇和同学们养成了技术的前期思考。“这时刻提醒着我,在处理数据和分析数据之前,一定要想清楚行为的意义及其背后的社会影响。


除此之外,《大数据实践课》被同学们视为整个大数据项目的灵魂。朱思宇在中铁多式联运有限公司的项目实践,让他在实践的基础上,将所学知识进行了升华。


 “国企对这个实践项目的理解非常到位,他们不会强制同学们做一些无意义的重复工作,而是引导我们完成一个小项目,尝试着为他们解决技术问题。”朱思宇谈起大数据实践项目便滔滔不绝。“我们的项目是识别图表文字,中铁的领导为我们提供了很多真实的表单数据,并充分给予我们信任,让我们大胆探索。

 

640?wx_fmt=png

朱思宇在《大数据实践课》项目中进行答辩

 

在不断的了解过程中,朱思宇的小组共同发现了技术实现的难点所在。整个工作程序复杂,需要识别大量的重要信息,并且他们的表单格式复杂多样、盖章、颜色等问题为识别带来了很大的困难。但是秉持着实践探索的精神,朱思宇和小组成员仍进行了多次尝试,最终做出了一个实现自动提取文字、识别归类的程序,并有着一定的准确率,这是朱思宇第一次用真实的大数据解决产业问题。


这次实践经历让朱思宇切实地明白了,“在实际的生产工作中,技术应该是为目的而服务的,最简单高效、成本最低的技术才是真正实用的好技术。

 

起承:“在协会中帮助更多同学了解大数据”

 

这次实践机会让朱思宇与数据院有了更加深入的了解,于是朱思宇在研二有机会成为了学生大数据协会的会长,开始全心全意地为大数据协会服务。


在大数据协会期间,协会主要举办了几项大活动。在上学期,由明哲师兄带头,开创了“AI自强计划”,报名异常火爆,八场讲座覆盖校内外人数超千人,并于讲座后实现转化任务,举办了转化比赛。而下个学期,协会主要举办了两个活动。一个是“数据故事计划”,旨在收集非大数据专业的同学们如何利用大数据解决自己专业问题的故事。令他印象最深刻的是获得第一名的小组,和另一位往届优秀学长仉立的思路相似,利用农村闲置劳动力做标注数据的工作,并为他们发放劳务,不但利用了留守人口的闲暇时间和精力解决了数据标注劳动成本的问题,同时也使得他们的生活水准有了一定的提高。

 

640?wx_fmt=png

学生大数据协会招新现场

 

另一个活动项目就是近期举办的“中澳大数据比赛”,这是一个由数据院与大数据协会举办的面向全校乃至全社会招募的大数据比赛。“因为我们完全从零开始,尽管过程中有仍存在很多不足,但是我们也会在反馈中提高”。


比赛的消息一出来,同学们参赛热情非常高,初赛报名群中的选手将近200人,线下报名70余人,最后组队成功至少16队。“为了争夺进入决赛的名额,同学们在两天时间内拿到题目、着手做、再到答辩,虽然这是现在数据比赛比较常见的数据马拉松,但是其对同学们的精力和体力都是巨大的考验,他们有的熬夜准备,有的在高铁上仍在提交结果。


朱思宇十分非常触动地说:“深受之前大数据课程的影响,我们在出题方面也会注重数据伦理,将真实的保险公司数据进行数据清洗,以免造成隐私泄漏等问题。这个比赛也算打响了数据院和协会走向国际化的第一枪,积累了很多经验。


“大数据协会自有其使命,要吸引更多同学向大数据使用者转变,让更多同学们学会大数据、懂得大数据,这是协会的目的。


经朱思宇介绍,大数据协会近两年的活动也深深体现着其使命感:“AI自强计划”是为了教会同学实用大数据;“数据故事计划“旨在引导同学、告诉同学有哪些与数据结合的成功案例,供同学们学习。一个是教技术,一个是教方法。而“中澳大数据比赛”是把那些技术比较强和学有所成的同学们进行国际化输送与交流。所以说这三个活动实际上都会有各自的使命,并最终扩大为数据院和大数据协会的影响力。


潜行:“大数据与专业结合,大有所为”

 

“我从一开始就接触了大数据的图像识别领域,乘上了大数据的东风。”朱思宇对于大数据的好处毫不遮掩。“大数据对我帮助最大的一方面是编程能力的提高,一方面是为解决问题开阔思路。


曾经,朱思宇在学术研究中遇到调整模型参数的问题,但是他没有直接采取手动调参的传统办法,而是下了功夫写程序来调整参数。“学习到BP神经网络中反向传播和梯度下降的概念,并将这个方法应用到其他水文模型调整参数的过程中,最后通过机器转化为一组最优的参数,这就是一个大数据的思维过程。


从此,朱思宇更加意识到大数据在其专业领域“大有所为”。朱思宇表示,毕业后到北京大学进行深入研究,希望可以继续踏踏实实学技术,在其他行业里尽可能地结合新技术,不断进行创新。


但同时这类结合也并不是信手拈来,朱思宇指出,“大数据与其他行业的结合绝对是有用的,也绝对是苦难重重的,首当其中的是计算量的问题。


大数据的计算量超级大,都是以天和月为时间单位进行计算,所以大数据面临的常见问题是硬件跟不上算法,大家提出很再好的算法都没法实施,因为硬件速度受到限制,导致很多想法无法落实。


另一个正在面临的问题是对数据的滥用。“大数据虽好,但是不能滥用”,用大数据做研究,分析结果看起来很难很高级,同时质量也参差不齐。这就导致很多研究放到实际生产生活中就效果十分有限。


 “大数据是一个方法,而且是目前看来能够高效解决问题的方法。所以,我十分鼓励大家学习和了解大数据技术。但与此同时,你需要跨越编程和数学的门槛,这就需要大家赋予相应的决心和毅力,最终一定要相信相应的付出会有相应的收获。”朱思宇在专访的最后十分真诚地分享了自己关于大数据学习的看法,

 

640?wx_fmt=png

大数据项目RONG奖学金答辩合影


“虽然是老生常谈,但是通过对大数据的分析,通过无数人对历史的总结,我们发现这个结论和规律是非常正确的,所以经验也可以认为是人体大数据。以史为鉴,可以知兴替,或许就是最经典的大数据方法应用。我会继续在大数据的道路上潜心修行。

 

往期毕业生专访:

付睿:对新事物的追寻之旅 | 优秀毕业生专访

刘念宏:道与术,怎样才能真正学好大数据?

聂聪:数据科学让我为城市规划注入创新价值

姚振宇:数据科学培养下 我成为了那个不安分的"细菌"

张玉萍:数据科学的“融”是学术中的“锦上添花”

王斐:大数据学习助我完成行业撑杆跳

金语泽:大数据交叉思维让我更具创新力

王瑞琰:大数据引领我发现法学“新大陆”

龚亚丽:大数据助我打开传统行业发展新思路

张甜甜:在实践中迈进数据科学领域

张鸿轩:大数据让无形之风尽在掌握 | 优秀毕业生专访640?wx_fmt=jpeg

这篇关于朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/267999

相关文章

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram