朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访

本文主要是介绍朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png


[ 导读 ] 清华-青岛数据科学研究院(以下简称“数据院”)自2014年4月成立以来,秉承“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”24字指导方针,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才。

 

由清华大学研究生院、数据科学研究院及相关院系共同设计组织实施的“清华大学大数据能力提升项目”,通过整合建设课程模块,形成大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,提升学生大数据分析能力和创新应用能力。

 

截至2019年6月,已有来自31个院系的271名同学获得了“大数据能力提升项目”证书,其中信息类同学160人,非信息类同学111人。

 

清华的数据科学人才培养究竟有什么特别之处?让我们通过倾听优秀的大数据人才讲述他们与“大数据”的不解之缘,一起寻求答案吧!


640?wx_fmt=png

参加成都八零比赛结束后

 

朱思宇是清华大学17级水利水电工程系硕士,毕业后将前往北京大学遥感所继续攻读博士学位。曾在2018年荣获数据院RONG奖学金特等奖、并成为学生大数据协会会长的他谈到大数据时感触颇深地说:

 


大数据是一个方法,而且是目前看来能够高效解决问题的方法。大数据项目课程的学习和实践,让我认识到大数据与自身专业的结合大有所为,同时也让我看到了其中的问题所在,我将坚持不懈地在这些难点上继续挖掘、创新。


缘起:“课堂与实践是大数据的启蒙之师”

 

在本科刚刚接触科学研究时,朱思宇同学遇到了一个棘手的图像处理问题。当时他根据过往的经验主观判断,并不认为大数据的方法能够解决这个问题。没想到稍加试验,就取得了突破性的进展,“效果特别好,之后我就一直告诉自己,数据和机器的潜力很大。”在不断完善程序和实验后,这项技术应用也最终发表于IEEE-JSTARS。


2017年9月,刚刚成为硕士研究生的朱思宇偶然得知面向研究生开放报名的大数据项目。想起本科期间从大数据中尝到的甜头,以及对编程的浓厚兴趣,以及系里能够抵换本专业学分的优惠政策,朱思宇毫不犹豫地报名并选修了四门大数据项目课程:《大数据系统基础A》、《数据可视化》、《数据思维与行为》和《大数据实践课》。


其中,由清华大学社科学院院长彭凯平教授开办的《数据思维与行为》令他印象深刻。除了因彭教授享誉内外,个人魅力吸引入门以外,在每次其他同学咨询选课时,他总会提到:“这门课应该是大数据课程中小姐姐最多的课程”。


但是经过一段时间的学习,他很快就发现这门课在整个大数据项目的教学体系中的存在很特殊。“首先这门课是少有的文科类数据课程,整个课程设计偏向于思维习惯的训练和心理学的一些知识,使得技术惯性思维的理科生能够更多思考技术对于社会和个人的作用。加上彭凯平老师个人的人生阅历很广,所以在授课过程中时刻向我们涉及着数据伦理与哲学的思辨。我们搞技术的时候,往往不去思考技术行为背后的意义与合理性,但是这往往容易暗含问题。


朱思宇举例子解释道:“大数据可以轻易获取用户信息,并据此向用户推送相关信息,这对用户而言是方便的。但是在这门课后,我开始意识到,这种行为也会暴露个人隐私。


朱思宇和同学们在彭凯平老师的课堂上进行了很多关于数据伦理的探讨,这些探讨看似与技术本身无关,但却帮助朱思宇和同学们养成了技术的前期思考。“这时刻提醒着我,在处理数据和分析数据之前,一定要想清楚行为的意义及其背后的社会影响。


除此之外,《大数据实践课》被同学们视为整个大数据项目的灵魂。朱思宇在中铁多式联运有限公司的项目实践,让他在实践的基础上,将所学知识进行了升华。


 “国企对这个实践项目的理解非常到位,他们不会强制同学们做一些无意义的重复工作,而是引导我们完成一个小项目,尝试着为他们解决技术问题。”朱思宇谈起大数据实践项目便滔滔不绝。“我们的项目是识别图表文字,中铁的领导为我们提供了很多真实的表单数据,并充分给予我们信任,让我们大胆探索。

 

640?wx_fmt=png

朱思宇在《大数据实践课》项目中进行答辩

 

在不断的了解过程中,朱思宇的小组共同发现了技术实现的难点所在。整个工作程序复杂,需要识别大量的重要信息,并且他们的表单格式复杂多样、盖章、颜色等问题为识别带来了很大的困难。但是秉持着实践探索的精神,朱思宇和小组成员仍进行了多次尝试,最终做出了一个实现自动提取文字、识别归类的程序,并有着一定的准确率,这是朱思宇第一次用真实的大数据解决产业问题。


这次实践经历让朱思宇切实地明白了,“在实际的生产工作中,技术应该是为目的而服务的,最简单高效、成本最低的技术才是真正实用的好技术。

 

起承:“在协会中帮助更多同学了解大数据”

 

这次实践机会让朱思宇与数据院有了更加深入的了解,于是朱思宇在研二有机会成为了学生大数据协会的会长,开始全心全意地为大数据协会服务。


在大数据协会期间,协会主要举办了几项大活动。在上学期,由明哲师兄带头,开创了“AI自强计划”,报名异常火爆,八场讲座覆盖校内外人数超千人,并于讲座后实现转化任务,举办了转化比赛。而下个学期,协会主要举办了两个活动。一个是“数据故事计划”,旨在收集非大数据专业的同学们如何利用大数据解决自己专业问题的故事。令他印象最深刻的是获得第一名的小组,和另一位往届优秀学长仉立的思路相似,利用农村闲置劳动力做标注数据的工作,并为他们发放劳务,不但利用了留守人口的闲暇时间和精力解决了数据标注劳动成本的问题,同时也使得他们的生活水准有了一定的提高。

 

640?wx_fmt=png

学生大数据协会招新现场

 

另一个活动项目就是近期举办的“中澳大数据比赛”,这是一个由数据院与大数据协会举办的面向全校乃至全社会招募的大数据比赛。“因为我们完全从零开始,尽管过程中有仍存在很多不足,但是我们也会在反馈中提高”。


比赛的消息一出来,同学们参赛热情非常高,初赛报名群中的选手将近200人,线下报名70余人,最后组队成功至少16队。“为了争夺进入决赛的名额,同学们在两天时间内拿到题目、着手做、再到答辩,虽然这是现在数据比赛比较常见的数据马拉松,但是其对同学们的精力和体力都是巨大的考验,他们有的熬夜准备,有的在高铁上仍在提交结果。


朱思宇十分非常触动地说:“深受之前大数据课程的影响,我们在出题方面也会注重数据伦理,将真实的保险公司数据进行数据清洗,以免造成隐私泄漏等问题。这个比赛也算打响了数据院和协会走向国际化的第一枪,积累了很多经验。


“大数据协会自有其使命,要吸引更多同学向大数据使用者转变,让更多同学们学会大数据、懂得大数据,这是协会的目的。


经朱思宇介绍,大数据协会近两年的活动也深深体现着其使命感:“AI自强计划”是为了教会同学实用大数据;“数据故事计划“旨在引导同学、告诉同学有哪些与数据结合的成功案例,供同学们学习。一个是教技术,一个是教方法。而“中澳大数据比赛”是把那些技术比较强和学有所成的同学们进行国际化输送与交流。所以说这三个活动实际上都会有各自的使命,并最终扩大为数据院和大数据协会的影响力。


潜行:“大数据与专业结合,大有所为”

 

“我从一开始就接触了大数据的图像识别领域,乘上了大数据的东风。”朱思宇对于大数据的好处毫不遮掩。“大数据对我帮助最大的一方面是编程能力的提高,一方面是为解决问题开阔思路。


曾经,朱思宇在学术研究中遇到调整模型参数的问题,但是他没有直接采取手动调参的传统办法,而是下了功夫写程序来调整参数。“学习到BP神经网络中反向传播和梯度下降的概念,并将这个方法应用到其他水文模型调整参数的过程中,最后通过机器转化为一组最优的参数,这就是一个大数据的思维过程。


从此,朱思宇更加意识到大数据在其专业领域“大有所为”。朱思宇表示,毕业后到北京大学进行深入研究,希望可以继续踏踏实实学技术,在其他行业里尽可能地结合新技术,不断进行创新。


但同时这类结合也并不是信手拈来,朱思宇指出,“大数据与其他行业的结合绝对是有用的,也绝对是苦难重重的,首当其中的是计算量的问题。


大数据的计算量超级大,都是以天和月为时间单位进行计算,所以大数据面临的常见问题是硬件跟不上算法,大家提出很再好的算法都没法实施,因为硬件速度受到限制,导致很多想法无法落实。


另一个正在面临的问题是对数据的滥用。“大数据虽好,但是不能滥用”,用大数据做研究,分析结果看起来很难很高级,同时质量也参差不齐。这就导致很多研究放到实际生产生活中就效果十分有限。


 “大数据是一个方法,而且是目前看来能够高效解决问题的方法。所以,我十分鼓励大家学习和了解大数据技术。但与此同时,你需要跨越编程和数学的门槛,这就需要大家赋予相应的决心和毅力,最终一定要相信相应的付出会有相应的收获。”朱思宇在专访的最后十分真诚地分享了自己关于大数据学习的看法,

 

640?wx_fmt=png

大数据项目RONG奖学金答辩合影


“虽然是老生常谈,但是通过对大数据的分析,通过无数人对历史的总结,我们发现这个结论和规律是非常正确的,所以经验也可以认为是人体大数据。以史为鉴,可以知兴替,或许就是最经典的大数据方法应用。我会继续在大数据的道路上潜心修行。

 

往期毕业生专访:

付睿:对新事物的追寻之旅 | 优秀毕业生专访

刘念宏:道与术,怎样才能真正学好大数据?

聂聪:数据科学让我为城市规划注入创新价值

姚振宇:数据科学培养下 我成为了那个不安分的"细菌"

张玉萍:数据科学的“融”是学术中的“锦上添花”

王斐:大数据学习助我完成行业撑杆跳

金语泽:大数据交叉思维让我更具创新力

王瑞琰:大数据引领我发现法学“新大陆”

龚亚丽:大数据助我打开传统行业发展新思路

张甜甜:在实践中迈进数据科学领域

张鸿轩:大数据让无形之风尽在掌握 | 优秀毕业生专访640?wx_fmt=jpeg

这篇关于朱思宇:做大数据的受益者和传播者 | 优秀毕业生专访的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/267999

相关文章

javaScript在表单提交时获取表单数据的示例代码

《javaScript在表单提交时获取表单数据的示例代码》本文介绍了五种在JavaScript中获取表单数据的方法:使用FormData对象、手动提取表单数据、使用querySelector获取单个字... 方法 1:使用 FormData 对象FormData 是一个方便的内置对象,用于获取表单中的键值

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate