hadoop学习第一天之伪分布模式安装( 上)

2024-05-06 09:58

本文主要是介绍hadoop学习第一天之伪分布模式安装( 上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hadoop核心项目:

1.   HDFS:Hadoop Distributed File System 分布式文件系统

2.   MapReduce:并行计算框架

 

HDFS的架构:

主从结构:

                   主节点:只有一个,namenode

                   从节点:有很多歌,datanodes

   Namenode负责:

3.   接收用户操作请求

4.   维护文件系统的目录结构

5.   管理文件与block之间的关系,block与datanode之间的关系

Datanode负责:

1.   存储文件

2.   文件被分为block存储在磁盘上

3.   为保证数据安全,文件会有多个副本

MapReduce架构:

1.   主从结构

a)     主节点,只有一个:JobTracker(项目经理)

b)     从节点:有很多TaskTrackers(开发人员)

2.   JobTracker负责

a)     接收客户提交的计算请求

b)     把计算任务分配给TaskTrackers执行

c)      监控TaskTracker的执行情况

3.   TaskTrackers负责

a)     执行JobTracker分配的计算任务

Hadoop特点:

1.   扩容能力(Scalable):PB级数据

2.   成本低(Economical):普通机器组成服务群

3.   高效率(Efficient):  分发数据,在各个节点并行处理他们,使得整体处理速度很高

4.   可靠性(Reliable):自动维护任务多个副本,并且在任务失败后能自动重新部署

 

 

主从节点的安装机器是没有区别的,主节点还是从节点根据机器上的进程是否为JobTracker和NameNode

Hadoop部署方式:

1.   本地模式:生产中不用

2.   伪分布模式:学习使用

3.   集群模式:开发生产用

伪分布模式安装步骤:

1.   关闭防火墙

2.   修改IP

3.   修改hostName

4.   设置ssh自动登录

5.   安装jdk

6.   安装hadoop

虚拟机的上网方式改为桥接上网。

      学习时可设置为host-only方式,多个虚拟机只连接宿主机,和外网没有接触。

虚拟机的ip修改:

1.   进入虚拟机Centosà桌面最顶端右击联网图标(两个电脑)à编辑连接à选择System Eth0类似的ip接口à点编辑à选择Ipv4 Setting àmethod设置为Manual,address处add添加上设置的ip地址,掩码和网关,网关需要是宿主机Vm的虚拟ip地址VMnet1的地址à点击Apply


2.   重启网络服务:#service network restart

3.   Ifconfig检查配置是否生效

4.   从CentOS上#ping 192.168.100.1

从宿主机cmd窗口:ping 192.168.100.11

都通了证明Ip配置好了

远程登录:

1.   检查CentOS上的ssh是否开启

PS –e | grep ssh

显示出以sshd结尾的一行就证明sshd服务已经启动,

否则用#service sshd start开启服务,#service sshd stop是关闭服务的。

2.   在宿主机打开PieTTY 输入CentOS的ip地址,点打开

输入root用户和密码,就会登录成功

3.   安装winscp软件,是在linux和windows系统之间传输文件的工具

4.   关闭防火墙

#service iptables  stop  都报OK就是关闭成功

#service iptables status 检查下防火墙关闭状态

这种关闭只是暂时的,可以通过修改配置文件,在开机启动时不启动防火墙。

#vim /etc/selinux/config (默认你会使用vim编辑器)

将SELINUX=enforcing (开机启动) 修改为SELINUX=disabled (开机不启动)。

也可以通过命令关闭防火墙自动启动

#chkconfig  --list| grep iptables

查看iptables的开启状态 0-6共7个

#chkconfig     iptables  off 关闭防火墙

5.   修改主机名:方便连接,不用输入ip了

#hostname 查看主机名

#hostname hadoop1 设置主机名为hadoop1

这样的设置只对当前操作生效,重启后会恢复为原理的主机名,需要修改配置文件才能一劳永逸

#vim /etc/sysconfig/network 文件下

HOSTNAME=hadoop1 保存退出,这样重启后就仍然是hadoop1了,不重启该文件修改时不生效的,可以直接使用hostname 在本次修改主机名

6.   SSH 远程免登陆设置

a)     生成RSA公钥

#ssh-keygen –t rsa

一直回车

b)     查看ssh公钥存在的位置

公钥在当前用户(root)主目录下的.ssh目录下

为id_rsa.pub

#cp  ~/.ssh/id_rsa.pub  ~/.ssh/authorized_keys

就可以实现本机的免密码登录

复制到远程主机,在接下来用scp命令添加公钥

c)      绑定主机名和IP地址

#vim /etc/hosts 添加一行

192.168.100.11  hadoop1  就可以了

#ssh  hadoop1 就可以免密码登录了,第一次会确认公钥,输入yes即可

 

 


这篇关于hadoop学习第一天之伪分布模式安装( 上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/964064

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

Centos7安装Mongodb4

1、下载源码包 curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.2.1.tgz 2、解压 放到 /usr/local/ 目录下 tar -zxvf mongodb-linux-x86_64-rhel70-4.2.1.tgzmv mongodb-linux-x86_64-rhel70-4.2.1/

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06