不想搭集群，直接用spark

2024-06-14 11:04

文章标签 集群直接不想 spark

本文主要是介绍不想搭集群，直接用spark，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

为了完成布置的作业，需要用到spark的本地模式，根本用不到集群，就不想搭建虚拟机，hadoop集群啥的，很繁琐，最后写作业还用不到集群（感觉搭建集群对于我完成作业来说没有什么意义），所以才想办法在windows环境下，直接安装jdk、scala、spark等，使用spark的本地模式来写作业

步骤：

1. 安装jdk

检查了，发现我自己电脑（windows）上已经安装过jdk了，环境变量也配置好了,

path路径中也设置好了jdk的路径

2. 下载安装scala

检查自己电脑上有没有安装scala

很好，没有安装scala，那就从官网上下载2.11.12版本，官网：

The Scala Programming Language (scala-lang.org)

路径是在E盘下：

配置环境变量：

进入cmd，scala的路径下，输入scala，如下图所示，即为成功安装scala

3. 下载maven

maven已经下载好了，新建一个文件夹Localwarehouse，用来保存下载的依赖文件

配置maven的系统环境配置

cmd下验证，已经成功

配置maven: 记得修改完文件之后保存！

继续添加如下代码用来配置jdk版本

4. 验证idea是否安装好了

输出hello world 证明安装成功

idea的一些使用方法：

字体设置：file–>settings–>输入font–>设置字体样式以及字号大小；
快捷生产main方法：psvm；
快速生产System.out.println()：sout；
删除一行：选中需要删除的那一行，ctrl+y；

5. 将maven加载到idea中

6. 安装scala插件

由于我的idea在plugins里搜索不到scala插件，所以可以官网上下载跟自己idea版本对应的scala插件，在idea安装目录下的plugins下，然后重启idea，就可以搜索到scala插件已经安装上了。

7.下载安装hadoop

Index of apache-local/hadoop/core/hadoop-3.2.2https://repo.huaweicloud.com/apache/hadoop/core/hadoop-3.2.2/环境变量配置好后，执行 hadoop version 出现以下异常

解决办法：

都修改完之后，执行hadoop version成功

8.Spark 安装和配置

安装的是3.0.2的版本

下载地址：

https://archive.apache.org/dist/spark/spark-3.0.2/

解压spark安装包，解压到E:\spark-3.0.2-bin-hadoop3.2

在系统环境变量中添加SPARK_HOME，并将SPARK_HOME添加到系统环境变量的Path中。

cmd中执行spark-shell，出现如下警告

解决办法：

到这里 GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows 下载和你的 Hadoop 版本对应的工具所在的整个目录，比如 hadoop-3.2.0

把下载的文件中的 winutils.exe 拷贝到上述文件夹中

重新运行spark-shell，执行成功

可通过http://DESKTOP-O202EN9:4040来查看web UI界面

9. idea里配置spark

新建maven项目、配置pom.xml文件等主要参考的是：

在IDEA运行spark程序（搭建Spark开发环境）_idea spark-CSDN博客

这篇关于不想搭集群，直接用spark的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1060225。 23002807@qq.com

相关文章

Redis分片集群的实现

Redis分片集群的实现

《Redis分片集群的实现》Redis分片集群是一种将Redis数据库分散到多个节点上的方式,以提供更高的性能和可伸缩性,本文主要介绍了Redis分片集群的实现,具有一定的参考价值,感兴趣的可以了解一... 目录1. Redis Cluster的核心概念哈希槽（Hash Slots）主从复制与故障转移2.

阅读更多...

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

《centos7基于keepalived+nginx部署k8s1.26.0高可用集群》Kubernetes是一个开源的容器编排平台,用于自动化地部署、扩展和管理容器化应用程序,在生产环境中,为了确保集... 目录一、初始化（所有节点都执行）二、安装containerd（所有节点都执行）三、安装docker-

阅读更多...

SpringBoot操作spark处理hdfs文件的操作方法

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

阅读更多...

如何在一台服务器上使用docker运行kafka集群

如何在一台服务器上使用docker运行kafka集群

《如何在一台服务器上使用docker运行kafka集群》文章详细介绍了如何在一台服务器上使用Docker运行Kafka集群,包括拉取镜像、创建网络、启动Kafka容器、检查运行状态、编写启动和关闭脚本... 目录1.拉取镜像2.创建集群之间通信的网络3.将zookeeper加入到网络中4.启动kafka集群

阅读更多...

Nacos集群数据同步方式

Nacos集群数据同步方式

《Nacos集群数据同步方式》文章主要介绍了Nacos集群中服务注册信息的同步机制,涉及到负责节点和非负责节点之间的数据同步过程,以及DistroProtocol协议在同步中的应用... 目录引言负责节点（发起同步）DistroProtocolDistroSyncChangeTask获取同步数据getDis

阅读更多...

服务器集群同步时间手记

服务器集群同步时间手记

1.时间服务器配置（必须root用户）（1）检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 （2）修改ntp配置文件 [r

阅读更多...

HDFS—集群扩容及缩容

HDFS—集群扩容及缩容

白名单：表示在白名单的主机IP地址可以，用来存储数据。配置白名单步骤如下： 1）在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件（1）创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称，假如集群正常工作的节

阅读更多...

Hadoop集群数据均衡之磁盘间数据均衡

Hadoop集群数据均衡之磁盘间数据均衡

生产环境，由于硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。（Hadoop3.x新特性） plan后面带的节点的名字必须是已经存在的，并且是需要均衡的节点。如果节点不存在，会报如下错误：如果节点只有一个硬盘的话，不会创建均衡计划：（1）生成均衡计划 hdfs diskbalancer -plan hadoop102 （2）执行均衡计划 hd

阅读更多...

搭建Kafka+zookeeper集群调度

搭建Kafka+zookeeper集群调度

前言硬件环境 172.18.0.5 kafkazk1 Kafka+zookeeper Kafka Broker集群 172.18.0.6 kafkazk2 Kafka+zookeeper Kafka Broker集群 172.18.0.7 kafkazk3

阅读更多...

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法，用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据，特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

阅读更多...