浪尖聊聊大数据从业者的迷茫及解决方案

2023-10-08 23:48

本文主要是介绍浪尖聊聊大数据从业者的迷茫及解决方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办!

一 现状

目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状:

对于整个行业来说处于上升期的小平台期。

这么说的原因是需要大数据平台的公司都多多少少已经建立了平台或者已经上云,对这类初级学者需求减弱,更需要有能力做平台运维,运维开发,平台框架开发,数仓,建模,算法等相关人才。

大数据相关业务比如数仓,数据分析,bi等已初具模型,而且有成熟的云解决方案,保不齐小公司直接全部上云了,需要的是云平台使用者,和简单的数据搬运工。

对于大数据人才来说,五年以内偏多,三年以内人才扎堆儿,这些数据大数据行业的耕耘者,本身需要学习和摸索。

学习本身也是一个慢长的过程,况且大数据领域内容还是颇多的,所以综上所述,这个迷茫阶段也是能力分化,领域细分的阶段,所以自己要选好自己的方向,以深耕。

但大数据还大有可为,因为很多数据采集还在继续中,将来肯定是一个数字化的社会。所以说是大数据处于上升期的小平台期,主要是大数据技术领域逐步趋于稳定,以后更多的是业务,算法,超大规模数据处理能力,数据的应用及数据产品化的能力。

上面是行业及人才需要现状,对于个人来说迷茫的主要原因两点:

1.对现状不满

主要特点:

a.事情比较简单,甚至无事情做,对技术或者业务技能提升无助。

b.大事儿没有,屁事颇多,每天机械的忙。

2.对前途迷茫

主要特点:

a.公司业务需求技术简单,目前架构落后,且领导没有变更意愿,致使自己无法实战新的技术框架,没有技能提升,担心今后被淘汰。

b.当前公司超忙且是重复的工作,或者太具体化到一个点,然后能接受的公司有超少。由于忙又没时间学习,扩展新技能,所以觉得前途堪忧。

二 迷茫&突破

针对常见的大数据工作,聊聊如何突破:

1.平台运维及运维开发

想要提升,可以从以下几个方面:

a.日志告警中心

日志采集,包括各个框架的运行日志,定义日志格式,开发专业的实时规则引擎,实时告警系统,指标展示系统。

这个平台基本是全栈学习了,成长还是十足!

b.平台化

基础框架集成系统开发,针对性地框架二次开发,自动化部署,监控及故障自动处理系统开发。

这个模块牵涉到Java技术栈,框架如spark,kafka等源码阅读及二次开发,也是过硬的技术提升。

2.平台框架开发

主要是讲针对业务需求特别,现有框架不好满足需求,需要造轮子或者改造现有框架,以适应业务需求,比如最近浪尖开发的图数据库等。

这个要求对业务场景,查询需求,底层存储有深入的了解,然后针对现有框架进行大幅改造,也可以参考现有框架从零造出自己的轮子,以满足需求。

能做到这个层次我觉得很难迷茫了!

可以走平台管理路线,架构师路线,也可以轻松转业务及项目管理,运维及运维开发。

3.数仓建设

a.模型设计

数仓模型层次划分:

模型

主要业务梳理,数据指标确立,模型确立,建模方法学习及使用,指标系统建立等,当然文档编写在这个模块中占了很大比例。

由于手打,细节就不说了,大家可以关注浪尖,搜数仓,进一步学习。

这块感觉还是比较有意思,而且成长空间比较大,可以走项目管理路线。

b.数仓平台建设

其实,属于基础平台建设的一部分吧,主要分为离线和实时数仓。

主要工作平台化,集成化,针对需求的二次开发。由于目前云计算及flink等框架有提供数仓一站式解决方案的趋势,该领域需求未来可能也会减弱。

技术要求跟平台开发差不多,不过需求进一步了解业务,以设计具体的存储和计算框架,还是有技术壁垒。

c.ETL工程狮

嘎嘛?挺没意思的,主要是针对数仓的各个层或者业务需求,生产,搬运数据,数据量大了这活还有的玩,数据量小的话可能就是没意思了!

针对ETL应该可以做实时分发,实时ETL规则引擎,离线ETL处理引擎,逐步实现平台化,配置化。这样可以增加难度,减少开发部署成本,也可以提升自己的技术水平,为跃级做准备!

d.业务梳理及开发

俗称sqlboy,最容易迷茫,叫boy就说明问题了,不是说sql开发,能力就弱,而是说大数据领域sql开发,确实很少有太高难度,而且很容易形成模块化,比如各类报表系统。所以,成长性比较低。

sql boy可以往数仓模型设计,数仓平台设计方向发展。

4.数据分析&挖掘

大数据分析,机器学习,深度学习,nlp等对数学及建模要求很高,那么学习成本,实践成本都会很高。不做过多点评,因为浪尖也没做过!

5.公司的全栈工程师

一般是小公司的需求,一个人拿1.5-2个人的工资,干一个团队的活。全栈工程师有好处,就是技术面宽,但缺点也很明显,无法形成自己的技术特长和壁。

建议去下大公司洗礼下。

三 总结

公司小,业务简单,数据量小等都不利于大数据从业者。

这种情况,要自己学习,然后进阶跳槽!

做好学习计划,按部就班,步步为营,才不会迷茫。

推荐阅读框架源码,刷leetcode。

学习乐园

浪尖聊大数据

这篇关于浪尖聊聊大数据从业者的迷茫及解决方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/168807

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

总有一条路,我们很迷茫

十年前,我家还处于一个贫穷落后的小山村,周围的人会根据我父母的收入来对待我,而十年后的今天,我家的那座小山村医成为重点开发的地区,一夜之间我家成了所谓的土豪,周围的人依然根据我家的收入对待我。现实,什么是现实?这就是现实。从那一刻,我开始明白要想得到别人的尊重,首先你得有别人尊重的实力。 所以,这么多年来不管自己过得多累,走得多艰辛,我都会一直坚持。在人生前进的道路,我们总会经历风雨,难免感到迷

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav