展望未来:数据科学、数据工程及技术(附链接)

2023-11-04 23:59

本文主要是介绍展望未来:数据科学、数据工程及技术(附链接),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:SeattleDataGuy (Zack Shapiro)  翻译:殷之涵   校对:欧阳锦


本文约2800字,建议阅读8分钟本文通过6位科技工作者的观察及感受,为大家介绍2021年即将发生在数据科学及数据工程领域的一些变化。

2020年已经成为历史,我们想对过去这一年内技术方面发生的变化进行一次复盘,并展望未来的发展方向。

无论您对初创企业及其IPO(首次公开募股)、技术创新感兴趣,抑或是Amazon re:Invent大会的密切关注者,相信在过去一年里,您都看到了很多不断突破自身界限的公司。

AWS的SageMaker Data Wrangler是2020年里笔者最喜欢的公告,其旨在加快机器学习和AI应用程序的数据准备工作。这似乎是朝着拥有更流畅的机器学习管道的方向迈出的一大步,并且有望帮助那些非技术驱动型公司更方便地应用机器学习技术。

为此,我们邀请了来自技术界的各个领域的人们,谈一谈他们关于2021年展望的见解——无论是新兴的初创公司、技术还是最佳实践。

那就让我们看看他们会说些什么吧!

Sam Cannon,Facebook数据科学家

图片源自LinkedIn

我觉得自然语言处理(NLP)当前正在以惊人的速度发展,这真是一件让人喜忧掺半的事情。一旦搭建出了不错的文本分类或词向量聚类的管道,就会出现一个新模型,其性能往往比哪怕是昨天刚搭好的模型还要好。

话虽如此,我对NLP的发展方向仍然感到非常兴奋,特别是在针对复杂NLP任务的开源解决方案方面。Hugging Face是我在这个领域最喜欢的公司之一,个人认为它是NLP领域最先进生产力的开源代表。Hugging Face通过使复杂的NLP模型和任务“民主化”,从而解决NLP领域长期存在的问题——即由于算力或专业知识的缺乏,许多人通常无法独自应付复杂的NLP模型和任务。

举例来说,他们已经支持用户仅通过最少的输入来完成文本情感分析。在此基础上,我认为2021年将迎来一系列可通过一行代码就实现的预打包SOTA NLP模型。虽然无法预测2021年这个领域的具体成果,但我认为,至少开箱即用的NLP模型能让更多的人从自然语言数据中得到洞察和见解—这就是2021年这个领域中我最期待的事了。

Catherine Tao,Data Standard数据科学家

图片源自LinkedIn

我很期待看到云计算在2021年的创新。当前阶段,云是存储公司数据的空间。这个领域存在一些挑战,例如可扩展性、效率、数据流等等。

我想看看云计算针对平衡技术企业所面临的一些主要问题将会有哪些改善。许多公司都还在纠结如何将AI引入其业务中,这导致一些公司在技术行业中落后于其它公司。通过云计算技术创新,更多的公司都应该能够迎来人工智能落地,并以更高的生产率来部署项目或产品。

Riley Kinser,Terrain产品负责人

图片源自LinkedIn

展望2021年(对于商业房地产来说,希望会是光明的一年!),我的主要重点是成为地理数据绘图工具——无论是新的还是现行的——专家。我的主要目标之一是将我们在Terrain的见解转化为易于向终端用户解释和说明的地图。

当今行业中的许多示例都是使用ArcGIS来完成的,ArcGIS是一种比较老但成熟的地理数据绘图工具。我相信可能会有更好的工具,这为我们的客户提供一个在传统经典的基础上了解新事物的机会。我感兴趣的两个工具是由Uber开发的开源项目:H3和kepler.gl。据我了解,H3的主要优势之一是能够根据缩放比例将世界细分为大小不同的六边形。

这解决了我们发现的早期问题之一,即不同的用户对都市圈内的社区、市场或城市的边界划分持有不同的观点。这也使我们能够更好地在全球范围内开发难以获取边界数据的地图。

另一方面,kepler.gl很有趣,因为它相对容易为终端用户或MVP(最小化可行产品)提供在线开发和托管支持。Uber开发了Kepler.gl,以允许用户在内部(技术和非技术)快速开发可共享的地图,以可视化地理空间数据中的想法。另一件有趣的事是,kepler.gl对具有时间序列性质的地理数据提供便捷的可视化功能。我希望通过kepler.gl开发出我们的MVP(最小化可行产品),然后在我们开始收集用户反馈时对H3进行探索。

Chris Zeoli,Base10 Partners负责人

图片源自LinkedIn

尽管我对许多趋势感到非常兴奋,但电子商务(尤其是Shopify及其相关工具的兴起)和远程医疗是最能让我感到激动的两个领域。我之前写过有关Shopify生态系统的文章,这家公司目前仍在创造新高——已为200多万商家提供了超过1000亿美元的GMV(成交总额)。

我对与Facebook / Instagram、TikTok、支付宝、Affirm和Pinterest等新的合作伙伴关系感到特别兴奋,因为Shopify已成为消费者商务交易主要网络的基础架构。它的软件以及第三方生态系统都正在经历着蓬勃发展。电子商务的传统领域(服装和时尚、快速消费品、保健产品等)持续增长,而食品/杂货等较新的类别可以通过Shopify等平台自动上线,这些都是很有趣的观察。

远程医疗和新的数字医疗体验也让我感到非常兴奋。就目前的新冠疫情现状而言,很明显,医疗保健是经济发展中的头等大事。该领域的总量占GDP的20%(并且还在增长),然而它几乎没有突破性成果,也没有FAANG规模的公司。我可以想象,五年内该领域至少会有一个主要参与者出现(同时也期望看到Apple,Google和Amazon继续推动医疗保健发展)。2020年对于远程医疗来说是重要的一年,Teladoc收购了Livongo并创建了数字医疗领域迄今最强大的品牌,其企业价值总和超过300亿美元,而且超过$ 15亿美元的ARR(年度经常性收入)增长超过100%。

我很高兴看到崭新的数字医疗体验浪潮,使人类最基本的照顾自己的需求得以被充分满足。

Jun Kim,Facebook数据工程师

图片源自LinkedIn

在即将到来的2021年里,最令我兴奋的技术是期待已久的Apache Airflow 2.0版本。自2015年首次发布以来,Apache Airflow一直是数据工程领域中最受欢迎的工作流管理系统之一。

它的巨大成功可以归因于以下事实:它允许将工作流编写为代码、简单但有效的GUI以及在构造数据管道方面具有通用的灵活性。借助新的2.0版本,每个人都喜欢的工作流管理系统将变得更加完善。Airflow 2.0将具有许多令人印象深刻的附加功能,包括完全受支持的综合REST API、TaskFlow API和Task Groups。它还有不少其他改进,包括简化的Kubernetes Executor、低延迟的调度程序以及更加直观的GUI。

我迫不及待地想要尝试改进后的新版本Airflow了。

Michael Mirandi,Saturn Cloud.io战略主管

图片源自LinkedIn

我很高兴在2021年看到几种技术趋势,但其中最好的莫过于GPU计算在数据科学和机器学习领域中的日益普及。这种趋势一开始是由性能方面的需求所驱动的,而开源项目RAPIDS将其变得更为易用。如果您不太熟悉RAPIDS,这里做一下简单科普:用户可以使用RAPIDS在NVIDIA硬件上执行Python代码(免责声明:NVIDIA对该项目进行了赞助)。

该团队于今年早些时候发布了行业标准的Big Data Analytics Benchmarks(大数据分析基准),其表现(相比benchmark)要高出近20倍!另一个有趣的事实是,这些基准测试不仅展示了GPU计算在完成数据科学工作方面的强大功能,而且还展示了其对传统数据工程ETL工作的加速能力。这会使Python得到更为广泛的使用吗?我愿意赌“会的”,特别是最近已有一批新的数据科学初创公司发布了分布式GPU计算平台——这可是一种能够以前所未有的速度启动云中GPU集群的功能。

2021年及以后的技术展望

我们对2021年有诸多期待,无论是能够通过一行代码调用的预打包SOTA NLP模型、自然语言查询,抑或是类似Airflow这样对当前框架所进行的改进。

大大小小的科技公司似乎都依然走在探索的路上,即使大家都处于“Zoom疲劳”之中(译者注:新冠疫情使员工被迫通过Zoom进行远程开会及办公)。

希望2021年不仅能带领我们获得技术上的进步,而且也是能让所有人的处境都有所改善的一年。

感谢您的阅读,祝您新的一年里好运连连!

译者简介:殷之涵(Jane):研究生毕业于康奈尔大学生物统计与数据科学专业,本科毕业于普渡大学精算与应用统计专业。目前在腾讯担任数据科学家,主要负责腾讯视频用户增长&市场营销数据科学方面的工作;此前在京东任数据分析师一年半,负责通过指标体系搭建、统计分析、数据挖掘和机器学习建模来驱动决策、制定并落地亿级用户的精细化运营策略。对数据科学充满兴趣和热情,希望通过多年勤恳深耕成长为真正的领域专家。

END

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


合作请加QQ:365242293  

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

这篇关于展望未来:数据科学、数据工程及技术(附链接)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/346071

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

安卓链接正常显示,ios#符被转义%23导致链接访问404

原因分析: url中含有特殊字符 中文未编码 都有可能导致URL转换失败,所以需要对url编码处理  如下: guard let allowUrl = webUrl.addingPercentEncoding(withAllowedCharacters: .urlQueryAllowed) else {return} 后面发现当url中有#号时,会被误伤转义为%23,导致链接无法访问