展望未来:数据科学、数据工程及技术(附链接)

2023-11-04 23:59

本文主要是介绍展望未来:数据科学、数据工程及技术(附链接),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:SeattleDataGuy (Zack Shapiro)  翻译:殷之涵   校对:欧阳锦


本文约2800字,建议阅读8分钟本文通过6位科技工作者的观察及感受,为大家介绍2021年即将发生在数据科学及数据工程领域的一些变化。

2020年已经成为历史,我们想对过去这一年内技术方面发生的变化进行一次复盘,并展望未来的发展方向。

无论您对初创企业及其IPO(首次公开募股)、技术创新感兴趣,抑或是Amazon re:Invent大会的密切关注者,相信在过去一年里,您都看到了很多不断突破自身界限的公司。

AWS的SageMaker Data Wrangler是2020年里笔者最喜欢的公告,其旨在加快机器学习和AI应用程序的数据准备工作。这似乎是朝着拥有更流畅的机器学习管道的方向迈出的一大步,并且有望帮助那些非技术驱动型公司更方便地应用机器学习技术。

为此,我们邀请了来自技术界的各个领域的人们,谈一谈他们关于2021年展望的见解——无论是新兴的初创公司、技术还是最佳实践。

那就让我们看看他们会说些什么吧!

Sam Cannon,Facebook数据科学家

图片源自LinkedIn

我觉得自然语言处理(NLP)当前正在以惊人的速度发展,这真是一件让人喜忧掺半的事情。一旦搭建出了不错的文本分类或词向量聚类的管道,就会出现一个新模型,其性能往往比哪怕是昨天刚搭好的模型还要好。

话虽如此,我对NLP的发展方向仍然感到非常兴奋,特别是在针对复杂NLP任务的开源解决方案方面。Hugging Face是我在这个领域最喜欢的公司之一,个人认为它是NLP领域最先进生产力的开源代表。Hugging Face通过使复杂的NLP模型和任务“民主化”,从而解决NLP领域长期存在的问题——即由于算力或专业知识的缺乏,许多人通常无法独自应付复杂的NLP模型和任务。

举例来说,他们已经支持用户仅通过最少的输入来完成文本情感分析。在此基础上,我认为2021年将迎来一系列可通过一行代码就实现的预打包SOTA NLP模型。虽然无法预测2021年这个领域的具体成果,但我认为,至少开箱即用的NLP模型能让更多的人从自然语言数据中得到洞察和见解—这就是2021年这个领域中我最期待的事了。

Catherine Tao,Data Standard数据科学家

图片源自LinkedIn

我很期待看到云计算在2021年的创新。当前阶段,云是存储公司数据的空间。这个领域存在一些挑战,例如可扩展性、效率、数据流等等。

我想看看云计算针对平衡技术企业所面临的一些主要问题将会有哪些改善。许多公司都还在纠结如何将AI引入其业务中,这导致一些公司在技术行业中落后于其它公司。通过云计算技术创新,更多的公司都应该能够迎来人工智能落地,并以更高的生产率来部署项目或产品。

Riley Kinser,Terrain产品负责人

图片源自LinkedIn

展望2021年(对于商业房地产来说,希望会是光明的一年!),我的主要重点是成为地理数据绘图工具——无论是新的还是现行的——专家。我的主要目标之一是将我们在Terrain的见解转化为易于向终端用户解释和说明的地图。

当今行业中的许多示例都是使用ArcGIS来完成的,ArcGIS是一种比较老但成熟的地理数据绘图工具。我相信可能会有更好的工具,这为我们的客户提供一个在传统经典的基础上了解新事物的机会。我感兴趣的两个工具是由Uber开发的开源项目:H3和kepler.gl。据我了解,H3的主要优势之一是能够根据缩放比例将世界细分为大小不同的六边形。

这解决了我们发现的早期问题之一,即不同的用户对都市圈内的社区、市场或城市的边界划分持有不同的观点。这也使我们能够更好地在全球范围内开发难以获取边界数据的地图。

另一方面,kepler.gl很有趣,因为它相对容易为终端用户或MVP(最小化可行产品)提供在线开发和托管支持。Uber开发了Kepler.gl,以允许用户在内部(技术和非技术)快速开发可共享的地图,以可视化地理空间数据中的想法。另一件有趣的事是,kepler.gl对具有时间序列性质的地理数据提供便捷的可视化功能。我希望通过kepler.gl开发出我们的MVP(最小化可行产品),然后在我们开始收集用户反馈时对H3进行探索。

Chris Zeoli,Base10 Partners负责人

图片源自LinkedIn

尽管我对许多趋势感到非常兴奋,但电子商务(尤其是Shopify及其相关工具的兴起)和远程医疗是最能让我感到激动的两个领域。我之前写过有关Shopify生态系统的文章,这家公司目前仍在创造新高——已为200多万商家提供了超过1000亿美元的GMV(成交总额)。

我对与Facebook / Instagram、TikTok、支付宝、Affirm和Pinterest等新的合作伙伴关系感到特别兴奋,因为Shopify已成为消费者商务交易主要网络的基础架构。它的软件以及第三方生态系统都正在经历着蓬勃发展。电子商务的传统领域(服装和时尚、快速消费品、保健产品等)持续增长,而食品/杂货等较新的类别可以通过Shopify等平台自动上线,这些都是很有趣的观察。

远程医疗和新的数字医疗体验也让我感到非常兴奋。就目前的新冠疫情现状而言,很明显,医疗保健是经济发展中的头等大事。该领域的总量占GDP的20%(并且还在增长),然而它几乎没有突破性成果,也没有FAANG规模的公司。我可以想象,五年内该领域至少会有一个主要参与者出现(同时也期望看到Apple,Google和Amazon继续推动医疗保健发展)。2020年对于远程医疗来说是重要的一年,Teladoc收购了Livongo并创建了数字医疗领域迄今最强大的品牌,其企业价值总和超过300亿美元,而且超过$ 15亿美元的ARR(年度经常性收入)增长超过100%。

我很高兴看到崭新的数字医疗体验浪潮,使人类最基本的照顾自己的需求得以被充分满足。

Jun Kim,Facebook数据工程师

图片源自LinkedIn

在即将到来的2021年里,最令我兴奋的技术是期待已久的Apache Airflow 2.0版本。自2015年首次发布以来,Apache Airflow一直是数据工程领域中最受欢迎的工作流管理系统之一。

它的巨大成功可以归因于以下事实:它允许将工作流编写为代码、简单但有效的GUI以及在构造数据管道方面具有通用的灵活性。借助新的2.0版本,每个人都喜欢的工作流管理系统将变得更加完善。Airflow 2.0将具有许多令人印象深刻的附加功能,包括完全受支持的综合REST API、TaskFlow API和Task Groups。它还有不少其他改进,包括简化的Kubernetes Executor、低延迟的调度程序以及更加直观的GUI。

我迫不及待地想要尝试改进后的新版本Airflow了。

Michael Mirandi,Saturn Cloud.io战略主管

图片源自LinkedIn

我很高兴在2021年看到几种技术趋势,但其中最好的莫过于GPU计算在数据科学和机器学习领域中的日益普及。这种趋势一开始是由性能方面的需求所驱动的,而开源项目RAPIDS将其变得更为易用。如果您不太熟悉RAPIDS,这里做一下简单科普:用户可以使用RAPIDS在NVIDIA硬件上执行Python代码(免责声明:NVIDIA对该项目进行了赞助)。

该团队于今年早些时候发布了行业标准的Big Data Analytics Benchmarks(大数据分析基准),其表现(相比benchmark)要高出近20倍!另一个有趣的事实是,这些基准测试不仅展示了GPU计算在完成数据科学工作方面的强大功能,而且还展示了其对传统数据工程ETL工作的加速能力。这会使Python得到更为广泛的使用吗?我愿意赌“会的”,特别是最近已有一批新的数据科学初创公司发布了分布式GPU计算平台——这可是一种能够以前所未有的速度启动云中GPU集群的功能。

2021年及以后的技术展望

我们对2021年有诸多期待,无论是能够通过一行代码调用的预打包SOTA NLP模型、自然语言查询,抑或是类似Airflow这样对当前框架所进行的改进。

大大小小的科技公司似乎都依然走在探索的路上,即使大家都处于“Zoom疲劳”之中(译者注:新冠疫情使员工被迫通过Zoom进行远程开会及办公)。

希望2021年不仅能带领我们获得技术上的进步,而且也是能让所有人的处境都有所改善的一年。

感谢您的阅读,祝您新的一年里好运连连!

译者简介:殷之涵(Jane):研究生毕业于康奈尔大学生物统计与数据科学专业,本科毕业于普渡大学精算与应用统计专业。目前在腾讯担任数据科学家,主要负责腾讯视频用户增长&市场营销数据科学方面的工作;此前在京东任数据分析师一年半,负责通过指标体系搭建、统计分析、数据挖掘和机器学习建模来驱动决策、制定并落地亿级用户的精细化运营策略。对数据科学充满兴趣和热情,希望通过多年勤恳深耕成长为真正的领域专家。

END

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


合作请加QQ:365242293  

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

这篇关于展望未来:数据科学、数据工程及技术(附链接)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/346071

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密