讲堂 | 刘铁岩:科研到底怎么做?什么是高质量研究?

2023-10-08 20:10

本文主要是介绍讲堂 | 刘铁岩:科研到底怎么做?什么是高质量研究?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

来源丨微软研究院AI头条

编辑丨极市平台

导读

 

科研,顾名思义,就是科学研究。小到生活用品,大到宇宙航天,生活中处处不缺由科学研究转化而来的成果。而在科学研究的背后,是一群默默无闻、专心学术的科学家们。从科研小白到科研大佬的科研之旅,这背后的故事,你了解多少?

在 Ada Camp 2021 上,微软亚洲研究院副院长刘铁岩博士,就“科学研究“这个话题结合自身科研之路,以及这一路以来的心得体会,为大家分享了科学研究到底该怎么做、想做好科研到底该具备哪些技能。

希望即将走向或者正在进行科研的你,能够从中收获满满,为自己的科研之路增添更多色彩! 

微软亚洲研究院副院长刘铁岩

非常荣幸参加“未来由妳 Ada Camp 2021”活动。今天,我想结合一下自己的求学和工作经历,来跟大家分享一下我们应该如何去做科学研究,以及在做科研中可能遇到的问题和疑惑,希望能给大家的科研生活带来一定的帮助和启发。

我本人的学术生涯非常简单,我是一个典型的科研工作者,如果用两个数字来形容的话,就是9和18 —— 9年的清华学习之旅和18年的微软亚洲研究院工作之路。在过去的这27年里,我跟大家一样,也是从一个懵懂的学生开始,之后在学术之路上不断攀登,一步一步取得了很多学术成果,逐渐被国际学术界所认可。

01

为什么我们要进行科学研究?

其实原因非常简单,我们都知道科学技术是第一生产力,而科学研究则可以推动和改变人类的社会,塑造我们的未来。大家可能都非常熟悉人类社会经历的4次工业革命,从机械化、电气化到现在的信息化、智能化。我们的生产效率得到了极大的提升,生活质量也有了巨大的改善。这4次工业革命的背后,都是科学技术的飞跃性发展,而这些技术的发明都离不开幕后的英雄——默默无闻地从事着科学研究的科学家们。

如果说工业革命塑造了我们的昨天、今天,甚至是明天,那么自然科学的发展则更决定了我们人类长久的未来。《科学(Science)》杂志在其125周年的时候刊发了一期专刊,列举了关乎宇宙奥秘、生命机理以及人类生存和可持续发展的125个最重要的现代科学问题。每一个问题都非常深刻,直击灵魂。比如,宇宙是由什么构成的?意识的生物基础是什么?人类为什么只有那么少量的基因,却有这么丰富的形态和这么高的智能?是否存在着大一统的物理定律等等。

虽然这些问题非常艰深,但是科学家们一直都没有停止探索这些问题的脚步,也不断地通过自己的努力推进着人类认识科学的边界。

这其中很多的女性科学家也为我们人类的发展做出了巨大的贡献。比如,居里夫人、迈特纳、埃利昂等等。当然还有我们中国的屠呦呦,因为发现了青蒿素,挽救了全球特别是发展中国家数百万人的生命。

可能有的同学会说,这些伟大的科学家离我们太伟大、太遥远了,我们实在没有勇气成为他们那样的人。的确,想要在科学领域成为有辉煌成就的科学家不是件容易的事情,不仅需要靠努力,而且还有一些运气的成分。

不过今天我想告诉大家,迈进科学的大门没有那么难,也没有那么遥远。我相信不少同学儿时都有一个成为科学家的梦想。而且我们每个人其实都有成为科学家的潜质,因为我们从孩提时就对周围的一切都充满了好奇心,对现实和虚幻的世界都充满了想象力。而这两点正是从事科学研究最最重要的特质。

02:01

当然,科学家还需要更多的素质,比如,观察敏锐,善于从细节中寻找到蛛丝马迹,发现被别人忽略的线索;大胆假说,针对这些发现勇于提出自己的假设,能够依据知识和直觉,指出这些发现背后可能存在的重大规律;小心求证,假说人人都可以提,但是只有被验证了的假说才是科学道理,这也是科学和迷信的分水岭;严谨勤奋,无论是假说还是求证,都要建立在大量的知识积累和严谨的推导之上;精确诚实,科学是没有捷径的,造假、抄袭、敷衍的行为绝对不会造就真正的科学家;最后就是长期坚持,科学之路不会一帆风顺。

我们经常说,如果你做10个研究项目,有9个失败了1个成功,这是正常规律。但是,如果你9个甚至10个都成功,那就说明你选的研究题目太简单。所以我们必须要理解科学研究背后的规律,它不是一蹴而成的,甚至可能需要几十年如一日的坚持,常常会大器晚成。

正是因为前面提到的这些原因,从事科学研究的人构成了一座金字塔。中国拥有博士学位的人数以百万计;在国际顶级会议或者期刊上发表过论文的中国学者可能只有几万名;而国际知名的中国学者则更少,可能也就几千人。从这个意义上讲,“研究”其实是存在着一定“风险系数”的职业。我们需要一步一步攀登高峰,才能够从获得博士学位逐步成长为一位国际知名的科学家。

02

什么是高质量研究?

为了实现这个目的,我们首先要来看一看什么是好的科学研究,然后再探讨如何能够做出这样的科学研究。

今天很多同学都是来自于计算机或者相关专业的,我们在这个行业里面是非常幸运的。因为计算机科学是发展最快的学科之一,它与国际接轨,影响面广,关注度高,就业前景宽广。

那么好的计算机研究到底是什么样子的?不知道大家有没有听过这样一种对学者层次的生动描述。

01:55

所谓一流学者,就是要去引领学术领域发展的,其可贵之处在于能够洞察趋势,提出重要问题。二流学者,虽然没有那么深的洞察力,但是有非常好的功底和知识技能,可以把别人提出的问题解得很好,这对于学术研究也是一个非常重要的推动力。而三流学者,通常是跟随潮流、小步慢跑。虽然他们的工作可能没有那么大的创新性,也没有解决重大的科学问题,但是他们也有很大的价值,因为他们试了很多错,对学术界也做出了一定的贡献。无论是哪种学者,我想大家内心里都希望能够做出高质量的研究。

到底什么是高质量的研究呢?我认为高质量的研究可以有很多种不同的类型,它既可以是提出全新的重要问题,也可以是首次解决一个公认的难题。这里举几个我自己的例子,让大家有个形象的认识。

第一个例子,发生在大约15年前,那个时候搜索引擎刚刚兴起,像 Google、百度这些公司都还是新兴公司。在那个年代,搜索引擎背后的技术其实是比较落后的,很多人都是靠拍脑袋,想出一些经验的、启发式的公式。针对这样的情况,包括我在内的一些学者共同提出了一个科学问题:我们能否用计算机自动学习一个性能优异的排序模型,而不是靠人为用启发式去定义排序公式呢?

这个问题后来就引出了一个新的学术分支,我们称之为 Learning to Rank(排序学习)。简而言之,就是利用机器学习的技术,依据人为标注的正确答案,或者用户在线与搜索引擎交互的点击数据,学到针对特定的查询词,对网页相关性进行排序的一个最优的模型。

在我们的倡导下,很多学者都加入了我们,一起在这些方面做了大量的研究。而所有这些学者的共同努力也成就了今天主流的商业搜索引擎,它们背后的技术几乎无一不是排序学习,而排序学习就是典型的“提出重要问题”的研究。

第二个例子,发生在大概五六年前,那时候人工智能的技术有着突飞猛进的发展,解决了很多实际的问题。不过,那时主流的机器学习技术,需要大量人为标注的样本。以机器翻译为例,通常需要上千万的双语语对来作为训练数据,才能训练出一个性能优良的机器翻译模型。然而,不是所有的人工智能任务都能够获得这样丰富的数据。比如,很多小语种全世界可能会讲这个语言的人都没有几个,更不要说找到人来标注大量的双语数据了。在这个背景下,我们就提出了一个科学问题:是否可以利用机器翻译这类人工智能任务的某种结构特点,在不需要大量标注样本,甚至不需要任何标注样本的前提下,就能够学到有效的人工智能模型?

这个问题的提出并不是天方夜谭。我们注意到,类似机器翻译这样的人工智能任务,其实是一个双向的交互任务,比如中英翻译的反向任务是英中翻译,语音识别的反向任务是语音合成。一旦我们有了双向的交互就可以形成一个闭环的信息流,而这种闭环就可能使得我们不需要任何人为标注,就能获得驱动机器学习模型训练的信号,我们称这个技术范式为对偶学习。我们开发了一系列对偶学习的技术,在机器翻译、图像识别、语音合成等多个领域达到了世界上当时最好的效果,超越了人类专家的水平。

另外,在新冠疫情肆虐全球的时候,我们利用新型的机器学习技术,精确预测了病毒抗原到人类免疫细胞之间的映射关系。基于这个核心技术,我们和合作伙伴一起完成了首个由 FDA 批准的基于人类免疫细胞的早期新冠疾病的检测系统,其安全性、准确性、及时性与常用的核酸检测和抗体检测相比都有明显的优势。

除了前面提到的几种高质量研究以外,如果你通过自己的不懈努力,显著地超越了前人的工作,比如比前人工作的精度更高,比前人工作的速度更快,或者是在某些层面上比前人的工作具有了更深的洞察,那么恭喜你,你的研究也是一份质量非常高的研究。

受时间所限,这里我就举几个速度显著超越前人工作的例子供大家参考。过去这几年里,坊间流传着一种方法论,就是所谓的“大力出奇迹”。也就是使用大量的计算资源去训练一个非常大的模型,用以解决现实中人类可能只需要用非常小的努力就能解决的问题。这种“大力出奇迹”的范式,从某种意义上讲,有它的科学价值。但是它的实用性是值得质疑的,因为我们不可能为了翻译一句话,使用几百美金、几千美金的成本。

心怀对“大力出奇迹”的质疑,我们微软亚洲研究院的研究员们从事了一系列“四两拨千斤”的研究,比如2015年我们的团队发明了 LightLDA,这是当时世界上速度最快、效率最高的主题模型。所谓主题模型,就是从文本数据中自动分析主题的一种算法。我们通过一项新技术把每个文本符号的采样复杂度降到了O(1),也就是和想要学出的主题的数目无关。

在 LightLDA 出现之前,全球最大规模的主题模型用了1万个 CPU 核,挖掘出了大约10万个主题。而我们的 LightLDA 只需要300多个 CPU 核就可以挖掘出一百万个主题,并且可以处理的文本数据的大小也比前人的大一个数量级。之后,我们还陆续提出了 LightGBM,比之前最快的梯度提升决策树的算法快了将近10倍,FastSpeech 比之前最快的神经语音合成模型快了300倍,以及 FastBERT 比知名的预训练语言模型 BERT 快了大概10倍,而且所有这些模型的精度都几乎没有损失。

通过这些研究,我们把之前最好的算法的速度提高了一个到几个数量级,帮助人们节省了大量的计算成本,从而大大提升了这些技术的实用价值。从这个意义上讲,它们也是高质量的研究。

03

如何能够勇攀科研高峰?

刚刚我用了一些典型的例子给大家展示了什么是高质量的研究,那么如何才能做出这样的研究呢?今天我想跟大家分享一些科学研究的原则和思想。我觉得这些可能对于引导大家走上科研道路,真正有勇气去攀登学术高峰,会很有帮助。

在去年诺贝尔奖官方平台发布的一个视频*中,几位诺贝尔奖获得者与年轻学者分享了几个重要的做研究的原则,包括:Work Hard(努力),Learning by doing(边做边学),以及 do something you love(做你喜欢的事情)。(*感兴趣的读者,可点击链接观看:https://www.youtube.com/watch?v=9GIsSn_LUh0)除了这些以外,我还为大家总结了以下几点。

第一、终身学习,是学者的宿命。回顾我自己20多年的研究历程,从最初的信号处理、视频内容分析、网络搜索、机器学习、算法博弈论、深度学习、强化学习、金融、物流、生物、制药、智能科学,一路走来没有停止过学习。在这个过程中,自己变得越来越博学、越来越丰富,对世界的影响也越来越大。所以我建议所有的同学们多学习、多了解,不要放弃学习的脚步。

第二、研究很苦,有很多的困难,具有好奇心、热情甚至信仰,才是驱动我们、支撑我们在研究道路上不断前行的动力。我给大家举一个例子,我们研究组在过去的两三年时间里,逐渐对计算生物学有了浓厚的兴趣,并且投入了很多的精力和资源。在这些方面的探索与我们的好奇心密切相关,因为我们发现生物领域有趣且深奥。比如微生物菌群,大家可能想象不到,你体内的微生物比你自己的细胞还多,我们从某种意义上讲是被这些微生物控制的,我们爱吃什么、我们的生活习惯、我们的健康状况,都与这些微生物息息相关。所以我们想要做到真正的精准医疗,必须对这些微生物有深入的了解。另一个例子是表观遗传,我们每个细胞里的基因都是相同的,可是有些细胞最终发展成了我们的皮肤,有些发展成了我们的大脑,有些变成了内脏。是谁对基因表达进行了如此神奇的调控呢?正是基于对这些问题的好奇心,我们在三年前成立了计算生物学组,并且在这些方向上取得了非常令人鼓舞的成果。

第三、研究对创新有着非常高的要求,这件事情说起来容易,做起来却很难。我发现很多同学特别愿意在自己的“小盒子”里面,如果你想要跳出这个小盒子,那么就必须要知道外面的世界是什么样子的,这与我们前面提到的终身学习密切相关。当你有了深入的研究,同时有了宽阔的视野时,你通常会做出可以让别人非常惊讶的研究成果。

第四、质重于量,精益求精。因为我们每个人的时间和精力是非常有限的,要学会合理分配。我们可以用同样的时间做100项不同的研究,每一项都浅尝辄止;也可以集中尽力做一件事,非常深入,取得世界瞩目的成绩。

最后,我想要鼓励大家不怕失败。人不可能不犯错,不可能没有失败,只要我们能够从失败中学习,其实失败会给你提供更多的经验,让你能够把事情做得更好。

科学研究是很神圣的,但是科学研究的道路并不是高不可攀的。我们只要有正确的动机,有效的方法论,完全可以在科研道路上不断地创造成功,不断做出自己的贡献。

如果觉得有用,就请分享到朋友圈吧!

点个在看 paper不断!

这篇关于讲堂 | 刘铁岩:科研到底怎么做?什么是高质量研究?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/167711

相关文章

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

W外链微信推广短连接怎么做?

制作微信推广链接的难点分析 一、内容创作难度 制作微信推广链接时,首先需要创作有吸引力的内容。这不仅要求内容本身有趣、有价值,还要能够激起人们的分享欲望。对于许多企业和个人来说,尤其是那些缺乏创意和写作能力的人来说,这是制作微信推广链接的一大难点。 二、精准定位难度 微信用户群体庞大,不同用户的需求和兴趣各异。因此,制作推广链接时需要精准定位目标受众,以便更有效地吸引他们点击并分享链接

电脑桌面文件删除了怎么找回来?别急,快速恢复攻略在此

在日常使用电脑的过程中,我们经常会遇到这样的情况:一不小心,桌面上的某个重要文件被删除了。这时,大多数人可能会感到惊慌失措,不知所措。 其实,不必过于担心,因为有很多方法可以帮助我们找回被删除的桌面文件。下面,就让我们一起来了解一下这些恢复桌面文件的方法吧。 一、使用撤销操作 如果我们刚刚删除了桌面上的文件,并且还没有进行其他操作,那么可以尝试使用撤销操作来恢复文件。在键盘上同时按下“C

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

怎么让1台电脑共享给7人同时流畅设计

在当今的创意设计与数字内容生产领域,图形工作站以其强大的计算能力、专业的图形处理能力和稳定的系统性能,成为了众多设计师、动画师、视频编辑师等创意工作者的必备工具。 设计团队面临资源有限,比如只有一台高性能电脑时,如何高效地让七人同时流畅地进行设计工作,便成为了一个亟待解决的问题。 一、硬件升级与配置 1.高性能处理器(CPU):选择多核、高线程的处理器,例如Intel的至强系列或AMD的Ry

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口

速盾高防cdn是怎么解决网站攻击的?

速盾高防CDN是一种基于云计算技术的网络安全解决方案,可以有效地保护网站免受各种网络攻击的威胁。它通过在全球多个节点部署服务器,将网站内容缓存到这些服务器上,并通过智能路由技术将用户的请求引导到最近的服务器上,以提供更快的访问速度和更好的网络性能。 速盾高防CDN主要采用以下几种方式来解决网站攻击: 分布式拒绝服务攻击(DDoS)防护:DDoS攻击是一种常见的网络攻击手段,攻击者通过向目标网

禁止复制的网页怎么复制

禁止复制的网页怎么复制 文章目录 禁止复制的网页怎么复制前言准备工作操作步骤一、在浏览器菜单中找到“开发者工具”二、点击“检查元素(inspect element)”按钮三、在网页中选取需要的片段,锁定对应的元素四、复制被选中的元素五、粘贴到记事本,以`.html`为后缀命名六、打开`xxx.html`,优雅地复制 前言 在浏览网页的时候,有的网页内容无法复制。比如「360

一种改进的red5集群方案的应用、基于Red5服务器集群负载均衡调度算法研究

转自: 一种改进的red5集群方案的应用: http://wenku.baidu.com/link?url=jYQ1wNwHVBqJ-5XCYq0PRligp6Y5q6BYXyISUsF56My8DP8dc9CZ4pZvpPz1abxJn8fojMrL0IyfmMHStpvkotqC1RWlRMGnzVL1X4IPOa_  基于Red5服务器集群负载均衡调度算法研究 http://ww