本文主要是介绍hadoop是什么?我来试试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
刚刚进行了解,目前市面上的资料应该也不少,每个人的理解多少都会有些偏差,真理也就是用来被推翻的。
记录下小僧几个务虚的笔记很简洁
部署模式:严格上来分应该为四类,大都分为3类
1:本地模式 2:伪分布模式 3:完全分布式模式 4:HA完全分布式模式
区分依据:运行在几个JVM进程、几台机器。
MapReduce(分布式计算,并行编程模型与执行框架)
核心操作:map和reduce
map:是把一组数据,一对一的映射为另一组数据
reduce:是对一组数据进行归约
reduce函数输入类型必须匹配map函数的输出类型。
Map函数与Reduce函数
首先继承Mapper,并重写实现它的map方法 ,至于里面的逻辑是什么,输出类型还得看自己的需求。
有了Map函数还需要Reduce函数
reduce需要继承reducer并重写它的reduce方法
HDFS(分布式存储)
结构:M/S结构(主从)
部署:Master只运行一个namenode节点
每一台slave运行一个datanode实例
NameNode:是HDFS的守护程序
负责:记录大数据文件如何被分割成数据块,以及分割后的数据块分别被存储在哪些DataNode数据节点上
功能:NameNode的主要功能是对内存以及I/O进行集中管理。
文件副本数目成为文件的副本系数这个也是由NameNode保存。
NameNode负责维护文件系统的名称空间
任何对文件系统名称空间或属性的修改都会被nameNode记录下来。
持续更新。
这篇关于hadoop是什么?我来试试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!