给大数据入门小伙伴的几个小挑战No.28

2024-05-15 08:48

本文主要是介绍给大数据入门小伙伴的几个小挑战No.28,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

我是小蕉。

子曰:视其所以,观其所由,察其所安,人焉廋哉?人焉廋哉?

子曰:不患无位,患所以立;不患莫己知,求为可知也。


今天突然神来之笔,有小伙伴说想入门大数据但是苦于还是不知道怎么入手,或者说没有东西练手。

好,那就直接跟你们分享几个小任务,我相信你要是用心去做,用心去理解有什么解决方案,背后的运行逻辑,你至少可以把大数据入个门,这几个任务为期两个月,具体时间分配自己把握。

敲黑板!!!

我不会提供任何的源码,也不会提供任何方案,但是可以提供咨询。

(当然一切问题小伙伴们还是先问度娘,因为只要是能度娘的问题,我全部都会直接回复:问度娘。)

任务一:环境搭建

自己开虚拟机或者云主机搭好Hadoop,Spark,Hive,sqoop,原生的那种。

注意事项:版本搭配要合理,不然会有很多坑。

任务二、数据准备

使用Spark生成500万数据,包含[身份证,手机号,日期]三个字段。其中身份证格式为18位,手机号为6位,日期为yyyy-mm-dd,手机号其中有100万必须为10086,都必须为合理的随机数据,不能是序列,结果保存到Hive表中。

注意事项:版本搭配要合理,不然会有很多坑。

任务三、MapReduce初探

使用任务二的数据进行关系生成,相同手机号的人认为有关系。过滤空数据以及6位号码相同的,若发现同一号码导致的关系数超过3000,剔除,结果保存到Hive中。

注意事项:注意考虑数据倾斜是怎么被解决的。

任务四、内存调优及算法实现

利用任务三生成的关系,利用GraphX和SLPA进行社区划分。

注意事项:SLPA需要自己实现,要思考GraphX的局限性。


完成了的小伙伴可以后台告诉我,也可以每天跟我互动进展。

很好玩的,肯定会会遇到很多很多的问题,也可以增进对Hadoop这一套东西的理解。

周末又过去了,小蕉除了看了点书看了点视频做了个PPT啥也没干。

要谢谢大家的支持~读者马上要破300啦~

虽然读者也不多,表达能力也不过关,没能给更多的读者带来帮助,但是呢,也是小小的激动,毕竟也写了四个多月啦,谢谢大家支持,喜欢的小伙伴呢,也可以分享给小伙伴,不然写起来很没劲吖~~

昨天的PPT放出来目录后还是收到了很多的建议,但是现在还没做好,所以暂时应该还不会放出来,相信到时候对大家理解机器学习这个东西和如何入门应该会有不小的帮助。

读着《数学之美》,越看越觉得数学在我们生活中的应用真的太被小看了,很多事情的解决方案,都可以从数学的角度来看待。可能大家经过了高中的教育后,对于天体,以及电子中的数学都比较熟悉了,但是对于语言、图论、密码学、信息噪音、搜索等领域的数学可能都是一片浆糊。

书中不断提及的一点:简单有效的方法,可能不是最准确的,但一定是最好用的。

也在同时看着《论语》,当然是有翻译那种,每次读都能读到一些之前可能不太想得到的东西,当然也有的东西过于极端化。嘛,每个人价值观都不一样嘛。

0?wx_fmt=jpeg

这篇关于给大数据入门小伙伴的几个小挑战No.28的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/991365

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.