不忘初心,砥砺前行——写在数据院成立四周年之际

2024-04-14 01:08

本文主要是介绍不忘初心,砥砺前行——写在数据院成立四周年之际,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png&wxfrom=5&wx_lazy=1


[编者按] 在一个寒冬的下午,我来到位于清华紫荆门附近的双清大厦,数据科学研究院就坐落在此。那是我加入数据院的第一天,印象尤为深刻。深刻的并非是某件事情,而是一个令我有些措手不及的小任务:在数据院成立四周年之际,写一组关于数据院的报道。“你之前是记者,希望你能带着自己的观察、自己的思考和自己的体悟,客观地将这些呈现出来。”执行副院长韩亦舜如此说道。于是在随后的日子里,我跟小伙伴们历经百余天,采访了近30位受访者,开始了一段百万文字记录的旅程。

 

自己的故事,家的故事,情理之中,又意料之外。“为何要将自己家的故事说给外人听?”这是我最大的疑惑之处。韩院长用这样一句话回答了我,很具有思考性,因此我把它用作这组文章的开篇:“因为我们的实践,我们的探索或许对别人有启发、有帮助。”

 

此次组稿将分五部分:本篇总稿,教学篇,科研篇,传播篇,数据院建设者剪影,记于清华107年校庆之时,也记于数据院成立四周年之际。

 



毫无疑问,次数最多,时间最长就是对韩院长的访谈。记得最后一次访谈时,夕阳西下,韩院长逆光而坐,我几乎看不清他的脸。采访每一个数据院工作人员的时候,我都会问这样一个问题,那么韩院长也不例外:“听您讲了这么多甜酸苦辣,如果四年前,您就知道会经历这些,您还会选择加入数据院来做这份工作吗?”他沉思了,我猜可能由于情绪太复杂他不知道如何表述,但实际并不是,“我想我还会,因为我想参与其中,为变革做些自己力所能及的工作。”他说道,随后话锋一转。“你爱过吗?”他突然问。

 

我一时语塞,不知该如何作答。

 

“你刚才说到甜酸苦辣,爱一个人,爱一件物,爱一番事业,哪有一帆风顺的?一定伴随着甜酸苦辣。这就是爱与喜欢的区别,如果是真爱,当你回首往事,留下的就都是甜美的回忆。”我在他眼中看到了一束光,这束光的来源是热爱。

 

数据院有正式的办公地点是从2015年1月1日开始的,伟清楼二层一间28平米的房间。2017年7月,数据院搬入了双清大厦,两层楼,时至如今已经又快坐不下了。数据院的迅猛发展,当然是仰赖国家对大数据的重视,大数据成为了热门话题,但也和学校领导在数据院建院之初的设计有很大关系。我想,数据院的故事就从这里讲起吧。

 

2014年4月26日,主楼接待厅,清华-青岛数据科学研究院正式成立。并向社会宣布,培养大数据高层次应用型的人才。采访中我得知了数据院的“前传”。


640?wx_fmt=jpeg

青岛-清华数据科学研究院成立仪式现场

 

2013年底,清华领导敏锐地认识到大数据时代,清华不应该缺位,应该打造一个平台,把散落在各院系的大数据教学与科研的力量汇聚起来。因此,研究生院承担了前期校内外的调研工作,向校领导提出了建设大数据科研和教学机构的建议。很快,这个建议得到校领导的认可,也得到了青岛市委市政府的支持。

 

数据院和学校里多数的研究机构很不一样。工作节奏快,决策链短,效率高,执行力强。风格上更像公司的运作,颇有种雷厉风行的范儿。而且韩院长还要求数据院所有的人,都能够潇洒自如地对外做数据院的介绍,每个人都能够讲出数据院的四个特点,三大任务。

 

四个特点是:24字工作方针、不挂靠具体院系、请来国际知名的学者做院长、请了职业经理人负责运营,这四个特点大概构成了数据院与全国其它开展大数据工作的高校不一样的地方。说到这,切实体会到了学校当时的用心良苦。

 

24字工作方针,即“学校统筹、问题引导、社科突破、商科优势、工科整合、业界联盟”

 

据知情人士透露,在数据科学研究院筹备组向校领导上报的时候,原本的指导方针只有16个字,时任校长陈吉宁字斟句酌,最终才有了现在的这24字方针。而在学校成立的非实体研究机构中,由学校领导亲自提出工作方针的并不多见。

 

“先社科后商科最后才提工科,24字方针中,这种排列顺序在工科见长的清华大学,很多人不理解。但其实很契合大数据应用的逻辑。对于工科,采集数据,存储、加工数据,挖掘数据是一直在做的事情,但对于社科商科,带来了前所未有的发展机遇,突出社科商科也就是情理之中的事情了。”韩亦舜说。

 

学校一直提倡跨学科交叉融合。但由于体制机制等原因,几经尝试,都不大理想。原因当然很多:建实体机构,等于是对存量资源(编制,办公室等等)进行一个重新分配,会引起很多矛盾。获取增量资源,推动这件事情的可行性会大一些。一旦建了校级实体,它和其他实体就是平行关系,就会回到“不相交”的状况,失去了交叉的可能性,也失去跨学科的机会。


学校曾成立过不少非实体机构,每个机构也都设立的管委会。但由于挂靠了具体院系,管委会和挂靠院系领导班子的角色难以划分。而不一样的是,数据院没有挂靠实体院系,由关心数据院发展建设工作的有关院系领导组成“管委会”。“这很像公司里的董事会,既可以为数据院的发展把握大方向,又不会很大程度上干预数据院的具体运作。”韩亦舜这样解释道。

 

而请来德高望重、著作等身的国际数据管理领域顶尖学者、美国伊利诺伊大学芝加哥分校特聘主任教授俞士纶(Philip S. Yu)教授担任兼职的院长,则可以摆脱技术门派的分歧,把重点放在数据应用上。


640?wx_fmt=jpeg

国际数据管理领域顶尖学者、美国伊利诺伊大学芝加哥分校特聘主任教授俞士纶(Philip S. Yu)教授受聘清华大学数据科学研究院院长


鉴于教授学者管理研究机构的兴趣与特点,校领导想尝试请一位管过企业的人来参与这个研究院的管理运营工作。因为在国外,很多研究机构,医院等不是‘学而优则仕’,而是由专业管理人员在管理在运营。这就有了韩亦舜执行副院长的加入。


因为这与众不同的四大特点,使得数据院真的“与众不同”。特别是强烈的求生存感和使命感,我想这和有企业背景的韩院长有很大关系。

 

“我常常被学校有关部门批评。我们冲劲大,有时会跑偏,有时会和学校现有的规章制度有冲突。大数据对谁都是个新鲜事物,带来新思维,面临新挑战。有冲突这也正常,相互理解吧。另外,我世界观是在改革开放大浪潮里形成的,改革、创新就是与现有规章有冲突。最后让历史、让实践来检验吧。”韩亦舜院长如是说。

 

数据院的创新与变革远不止这四点,它体现在数据院发展的方方面面,也显示了数据院奠基者们在最初设计时的缜密思考。

 

数据院的三大任务是:人才培养,科学平台和品牌传播。

 

新时代需要什么样的人才,这是数据院人时时在思考的问题。校领导决定清华大数据人才培养,不采用直接面向社会招生的模式,也就决定了必须创新。

 

为了实现跨学科跨领域“π”型人才培养,数据院跳出现有学科建设的思维模式,用“能力提升”这样一个证书项目,面向全校招收在校研究生学生。并在教学环节进行了很多新的尝试。这给授课老师带来了新的挑战,数据院更是一个非教学实体的身份几乎承担了全部的教学管理和经费支持的任务。这在校内外都绝无仅有。数据院聘请了国际知名企业的高管和校内教师一起,组成了大数据教育指导委员会,清华大数据教育也得到了他们的悉心指导。

 

640?wx_fmt=png

清华大学大数据硕士项目教育指导委员会成立暨第一次全体会议


数据院在科研方面的探索体现在没有以技术路线为导向,而是以应用场景为导向,组织校内相关领域的老师合作。为此先后成立了“工业大数据”、“医疗大数据”、“交通大数据”等科研平台。这些产业应用场景都足够大,甚至可以包容全校的科研力量徜徉其中。


在数据驱动的科研平台建设方面,以“清华医学研究数据平台”搭建工作为例,很难有哪个单一院系愿意做,肩负建设跨学科跨领域交叉融合平台使命的数据院当仁不让地站了出来。数据院还在推动校内老师和长庚医院的医生们结对子,搞科研。有这样一个数据平台就可以真正实现“医工结合”。像数据院推动的司法大数据、舆情大数据向全校的老师和学生开放,也将改变数据驱动的科研生态。


640?wx_fmt=png

2017年度数据院各研究中心工作交流会


品牌传播这个词在校内很少使用。有“清华大学”这个品牌不就行了吗?所以数据院的有些做法也让很多人不理解。其实,真正的品牌传播应该有深层的内涵,传播品牌实际上传播的是品牌所包含的理念。透过微信公众号“数据派”,公开系列讲座,论坛,思享会持续在业界发出声音,发出清华人特有的理性声音。希望为当下燥热的大数据带来一股理性的“清流”。


640?wx_fmt=jpeg

自2014年12月始,数据科学研究院“应用•创新”及“技术·前沿”公开系列讲座开始举办,首场演讲者分别为SAS中国区总经理刘政以及时任英特尔(中国)研究院院长吴甘沙。


面对大数据时代所需要的新思维,数据院推出了“RONG”的理念,并在2014年的年底,举办了第一场“RONG”论坛。为此,新闻与传播学院的老师对“RONG”进行了诠释:RONG,取其与“融”“溶”“荣”“容”之谐音,意指“融合”“融洽”“包容”“宽容”“繁荣”“荣光”等,代表了数据研究院成立的某种初衷和理念,故以RONG 之音一言以蔽之。


基于RONG理念建立的RONG基金,不拘一格聘请RONG教授、RONG研究员,发放RONG奖学金;用RONG冠名的大型论坛、峰会又进一步传播了RONG理念。


2016年的统计数字显示,一年间,全校有来自四十余个不同院系的百余位教授学者参加了数据院的活动,这在学校的历史上不多见。这就是RONG。截止到2017年底,三十几个院系的逾千名学生报名参加了“大数据能力提升项目”,数百名学生拿到了“大数据能力提升证书”,这在学校的“能力提升项目”族中,也不多见。这就是RONG。


数据院对社会资源的聚拢能力,也是让其它高校羡慕不已的特色之一。从新春人才交流会到大数据日,从课堂作业到暑期实习,大数据企业与数据院越走越近。由于坚持不懈地走产学研融合的道路,各方都从中尝到了甜头。从当初“请求企业来”到现在“企业请求来”,背后当然是数据院的教师和教学管理者们的辛苦付出。


24字方针中的“问题引导”、“业界联盟”,在数据院得到了具体的实践。2014年11月,数据院联合多家校友大数据企业和社会大数据企业,成立了“清华大数据产业联合会”,后更名为:“清数大数据产业联盟”。数据院的理念与实践得到了企业的认可,大量的实际需求来自企业,让老师及学生得以“根植真环境,直面真问题,挖掘真数据,锻炼真技能。”,也涌现出一批企业导师,产学研真的RONG在了一起。


如此,说回到开篇的“甜”。我在采访中发现,每当讲到苦,大家总是寥寥几句,或者是“嗨这没什么。”而说到“甜”,大家都是滔滔不绝,因为这和他们的事业心、成就感紧密相连。每一次的创新被学校和社会认可,他们甜;每一次的克服困难达成使命,他们甜;每一次的思想碰撞发出耀眼的火花,他们甜;说到苦,他们闪烁泪花,说到甜,他们更是泪花闪烁。难怪韩院长这样说道:“可能所有人最后留下的都是甜美的记忆。”


数据院的四年,勾勒出一条清晰的轨迹。第一步,抓好品牌建设,传播理念,产生社会影响力;第二步,巩固教学管理工作,以适应社会对大数据人才的需求;第三步,着力数据科研平台的建设,推动以科研为目的的数据开放,助力学校大数据科研工作。


面对未来,数据院将不忘初心,继续推动大数据教学和科研在清华的发展。为创新而生的数据院将继续砥砺前行……思维模式的碰撞还会继续,行事风格的差异还会继续。困难一定有,障碍一定有,方法也一定有。


640?wx_fmt=jpeg

数据院RONG理念


后记:

在采访及撰稿的过程中,韩院长再三嘱咐,在此一定要特别感谢在前台和幕后支持帮助数据院的领导、老师和职能部门的干部、职员;特别感谢与数据院一起共建产学研RONG合平台的企业家们;特别感谢那些认同数据院的理念与实践对数据院包RONG、为数据院担当的人们。因为有了你们,数据院成为了全国高校大数据教育科研机构中的创新者与佼佼者。愿我们继续携手,不忘初心,砥砺前行。


预告:

数据院在科研领域做了些什么?

提起工作,数据总架构师为何不住叹息?

大小假期,科研中心团队为何坚守岗位?

“数据院四周年报道之科研篇”

将在本周五发布

为大家讲述数据院在科研领域的从零到一

敬请关注。

640?wx_fmt=jpeg

这篇关于不忘初心,砥砺前行——写在数据院成立四周年之际的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901712

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者