王可汗:数据科学带我解开摩擦学的“反常现象” | 提升之路系列(七)

2024-04-13 19:18

本文主要是介绍王可汗:数据科学带我解开摩擦学的“反常现象” | 提升之路系列(七),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

03fcfb85c97df707deb749b24b9b3a5d.png

导读

 

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

至今,已有来自全校45个院系的3055名同学参加大数据能力提升项目,其中556位同学通过课程学习和实践获得由清华大学研究生院颁发的“清华大学大数据能力提升项目证书”。

谈起最大的收获,同学们表示无论是自身的数据思维还是本专业与大数据技术相结合的科研能力以及实践经验等方面均得到了很大的提升。清华的数据科学人才培养究竟有什么特别之处?让我们一起通过他们的故事,揭秘各院系清华学子的大数据提升之路吧!

c4457571d028cc9ca6796628dc2466c2.png

王可汗 机械工程系

我在博士期间主要从事摩擦学的研究。摩擦学发展到今天,成为了一门与多学科交叉融合的学科,其中就包括方兴未艾的数据科学。摩擦学的研究,从宏观尺度对表面缺陷的自动检测,到微观尺度基于机器学习分子力场的构建,都能看到大数据科学的身影。2019年9月,我看到了“大数据提升项目”的介绍,看到这个项目鼓励来自任何背景的同学参与,鼓励跨界学习,我当时就觉得这是一个好机会,一方面提升大数据思维和技能,一方面也可以和我所研究的领域碰撞出火花。

1. 武林学艺

在一年级我选修了朱文武老师和崔鹏老师主讲的《大数据分析(B)》。大数据分析课上,我了解到数据是一个金矿,但同时也是鲜活的。与技术同样重要的,还有对于业务或是科学问题的理解。对于大数据,对它的采集,分析与理解也与人息息相关。除此之外让我受益匪浅的一门课是张长水老师的模式识别课,这门课很硬核。我每周需要抽出很多时间去手推公式,手撕代码。但是正是这样的训练让我在今后的实践应用中打下了扎实的基础。

纸上得来终觉浅,绝知此事要躬行。实践是掌握和熟练数据科学技能,提升数据科学思维的必经之路。疫情期间我在线上听了Albert模型的作者蓝振忠的关于自然语言处理的讲座,没想到很快便派上了用场。在数据院的组织下,我们团队前往百融云创公司实习。百融云创的智能文本对答系统中,在响应速度上却不尽人意。所以,为压缩模型以实现快速实时的响应,我们尝试了学术界的最新成果,上手实验。保证准确率的情况下,我们将响应速度大大提高。经过实践,我接触到了智能问答机器人行业的真实数据,用真实的数据解决实际的问题,这对于我来说是很难得的锻炼机会。最后企业也给出我们这样的评价:“项目成员从业界实际问题出发,选择模型压缩这个方向,研究成果能够极大节省机器成本,提升用户体验。”

此外,为了进一步地增加一些实践和创新的机会。我参与了清华大学“SDG开放创新马拉松挑战赛”数据科学专场。除此之外,在首届”神州数码云上数据开发”大赛,取得了全国三十强。在这个过程里,我体会到数据科学的威力,与其他院系富于创新精神的师生切磋互动的过程里,我也在思考数字中国的美好愿景以及数据科学与我所研究学科的交叉点。

bdf4047a806ddaeb4c3f5b57c1a0324f.png

首届”神州数码云上数据开发”30强 

b7b3145f9eda744a08aacde7566659a8.png

与SDG大赛小组成员进行头脑风暴

2. 意外的收获

说起数据科学在我科研中的第一次小试牛刀,源于一次偶然的机遇。有一天,我师姐在实验室发现了一个违背直觉的实验现象。在她的实验体系里,她发现随着法向压力的增加,两个表面之间的摩擦力反而减小了。这与传统的摩擦学理论是不符的。但是为什么会发生这样的现象令我们感到困惑。

为了探索所谓负微分摩擦系数背后的规律,我先通过建立构型,然后通过分子动力学模拟的方式进行模拟,随后也发现了类似的变化趋势,即摩擦力随压力增加而减小。那么这个现象背后的规律到底是什么?这个问题令我百思不得其解。

我想起了在项目课程里,我曾经学过一系列统计学和机器学习等数据科学的知识。所以我决定就拿我的研究体系进行试验。我先是分别对我的模型中得到形态学、能量学等数据的特征进行统计。令我非常惊讶的是,摩擦力随压力线性增长的常见体系和我们出现负增长的体系在统计学量上出现了明显差异,这为负摩擦系数的来源提供了一种潜在的可能解释。在充分思考和理解这些特征背后的物理意义后,我们构建了一个回归模型,可以对该体系下的摩擦力进行有效预测,并且提出了一种有效减摩的方法。这个工作已经撰写成论文并且已被接收。通过这个工作,我发现了数据科学的魅力,它将理论与科研完美地结合了起来,为我的专业注入了新鲜的血液!

3. 初入江湖

我与数据科学的结缘远远不止刚刚那一次的邂逅。我们的摩擦学研究中,总是流传着这么一句话,“上帝创造了固体,魔鬼却发明了表面”。影响表面摩擦特性的一个重要特性就是缺陷,这里就涉及一个重要的问题,如何对表面缺陷进行自动的检测?传统机器视觉强依赖于工程师的经验与试错,基于深度学习的方法由于其端到端自动提取特征实现分割过程的特点而逐渐崭露头角。所以在今年的暑期实践,我选择去和我所研究方向相关的华为公司进行工业缺陷检测算法方面的工作。

有了之前《模式识别》等课程的基础还有《大数据实践》的实践基础,虽然面对一个全新的研究工作,我并没有手足无措。在企业导师的指导下,针对目标细节难以分割,样本不平衡,缺陷级别等问题,我充分调研了相关文献,包括常见的语义分割网络,小样本学习方法和数据增强策略等。在这个基础上,我完整地实现了工业缺陷检测的全过程,通过一系列策略提高了原有的均像素精度。

在这次实践之后,我对摩擦学领域的研究有了进一步的认识,我深刻意识到了数据科学在我们研究领域的巨大潜力,同时也意识到了数据科学想运用到我们的学科也需要注意的一些特有的问题。比如,计算机视觉背景下的语义分割研究大多以自然场景为主,而摩擦学研究中的工业缺陷检测相比于自然场景,类别更少,而且可以通过硬件(如打光)等方式去改良光照等条件以获取更好的数据集,但是往往存在中类内方差大,类间方差小的问题。

fd9131bf5b9b29a8656c98e22b793c81.png

华为实习留影

在实践之后,我将一些心得撰写成了原创文章《与时代共振,AI助力工业缺陷检测》,发表在数据派THU公众号的“清华学子话数据”专栏。自从参加项目两年多的时间,我看到了数据科学与我研究方向的紧密结合,看到了更具可能性的未来。我也从一名AI小白成为了数据派THU的一名志愿者,自参加以来,我翻译、校对、原创的文章超过5万余字。

e8df1f2c0dd8e57ef96e248007ec252b.png

数据派THU原创文章

最后衷心感谢为大数据能力提升的项目付出辛苦的老师们,希望项目让更多同学受益!

编辑:于腾凯

校对:林亦霖

9449cd3eba1d3e7158bc5934ffbec429.png

这篇关于王可汗:数据科学带我解开摩擦学的“反常现象” | 提升之路系列(七)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/900985

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

MySQL中删除重复数据SQL的三种写法

《MySQL中删除重复数据SQL的三种写法》:本文主要介绍MySQL中删除重复数据SQL的三种写法,文中通过代码示例讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录方法一:使用 left join + 子查询删除重复数据(推荐)方法二:创建临时表(需分多步执行,逻辑清晰,但会

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines

Mybatis拦截器如何实现数据权限过滤

《Mybatis拦截器如何实现数据权限过滤》本文介绍了MyBatis拦截器的使用,通过实现Interceptor接口对SQL进行处理,实现数据权限过滤功能,通过在本地线程变量中存储数据权限相关信息,并... 目录背景基础知识MyBATis 拦截器介绍代码实战总结背景现在的项目负责人去年年底离职,导致前期规