Windows单机安装配置mongodb+hadoop+spark+pyspark用于大数据分析

本文主要是介绍Windows单机安装配置mongodb+hadoop+spark+pyspark用于大数据分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 版本选择
  • 安装
  • 配置
    • Java环境配置
    • Hadoop配置
    • Spark配置
  • 安装pyspark
  • 使用Jupyter Notebook进行Spark+ MongoDB测试
  • 参考

版本选择

根据Spark Connector:org.mongodb.spark:mongo-spark-connector_2.13:10.3.0 的前提要求
在这里插入图片描述
这里选择使用最新的MongoDB 7.0.12社区版
https://www.mongodb.com/try/download/community

Spark使用最新的3.5.2
https://dlcdn.apache.org/spark/spark-3.5.2/spark-3.5.2-bin-hadoop3.tgz
官网下载比较慢,可以从阿里镜像源下载:
https://mirrors.aliyun.com/apache/spark/spark-3.5.2/?spm=a2c6h.25603864.0.0.52d721049dSJJZ
在这里插入图片描述

Java使用Java8最新更新
https://www.oracle.com/cn/java/technologies/javase/javase8u211-later-archive-downloads.html

PySpark 一般会与 Hadoop 环境一起运行 , 如果在 Windows 中没有安装 Hadoop 运行环境 , 就会报错误 ;
Hadoop 发布版本在https://hadoop.apache.org/releases.html 页面可下载 ;
官网下载比较慢,可以从阿里镜像源下载:
https://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.6/

winutils.exe是一个Windows平台上的实用工具,它是Apache Hadoop项目的一部分。Apache Hadoop是一个开源的分布式计算框架,用于处理大规模数据集的分布式存储和处理。winutils.exe主要用于在Windows环境下运行Hadoop相关的任务和操作。

winutils可以从如下github仓库下载:
https://github.com/cdarlint/winutils
在这里插入图片描述
由于winutils最新只支持hadoop-3.3.6,所以上面Hadoop下载的也是这个版本而不是最新版;

都下载后如下图
在这里插入图片描述

安装

mongodb和jdk直接按默认选项安装即可。

配置

Java环境配置

参考文章:Windows如何安装JDK
来自 https://blog.csdn.net/lcl17779740668/article/details/137992141?spm=1001.2014.3001.5502

Win+R键打开运行窗口,输入cmd,命令行串口输入java -version验证是否安装成功。

Hadoop配置

Hadoop下载后,解压即可,然后记录解压后的路径并配置环境变量
系统变量创建HADOOP_HOME变量值:hadoop安装的路径
系统变量中的Path添加:%HADOOP_HOME%\bin

将上面下载的winutils中的hadoop-3.3.6/bin文件夹下的所有文件复制到对应%HADOOP_HOME%\bin文件夹中并替换原有文件。

Win+R键打开运行窗口,输入cmd,命令行串口输入hadoop -version验证是否安装成功。

可能遇到的报错:“Error JAVA_HOME is incorrectly set.”
根因:JAVA_HOME的值有空格
解决方式一:修改系统环境变量C:\Program Files\Java\jdk-1.8为:C:\Progra~1\Java\jdk-1.8
解决方式二:直接更改hadoop对应etc\hadoop\hadoop-env.cmd 脚本中的 JAVA_HOME 为C:\Progra~1\Java\jdk-1.8
在这里插入图片描述
参考:DOS命令空格问题解决办法
来自 https://blog.csdn.net/youdaodao/article/details/89473558

Spark配置

Spark下载后,解压即可,然后记录解压后的路径并配置环境变量
新建系统变量》变量名:SPARK_HOME 变量值:spark安装的路径

系统变量path中新建两个变量值 %SPARK_HOME%\bin %SPARK_HOME%\sbin

Win+R键打开运行窗口,输入cmd,命令行串口输入spark-shell检查spark是否安装成功

安装pyspark

python环境使用的是python 3.8.10
pip install pyspark
在这里插入图片描述

使用Jupyter Notebook进行Spark+ MongoDB测试

from pyspark.sql import SparkSessionmy_spark = SparkSession \.builder \.appName("myApp") \.config("spark.mongodb.read.connection.uri", "mongodb://localhost:27017/local.startup_log") \.config("spark.mongodb.write.connection.uri", "mongodb://localhost:27017/local.FSHeight") \.config("spark.jars.packages", "org.mongodb.spark:mongo-spark-connector_2.13:10.3.0") \.getOrCreate()
dataFrame = my_spark.read.format("mongodb").load()
dataFrame.printSchema()

从local.startup_log读取数据,printSchema输出正常。

dataFrame.show()
dataFrame.count()

以上两个方法均报错:

Py4JJavaError: An error occurred while calling o42.showString.
: java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.encoders.ExpressionEncoder.resolveAndBind(Lscala/collection/immutable/Seq;Lorg/apache/spark/sql/catalyst/analysis/Analyzer;)Lorg/apache/spark/sql/catalyst/encoders/ExpressionEncoder;at com.mongodb.spark.sql.connector.schema.SchemaToExpressionEncoderFunction.apply(SchemaToExpressionEncoderFunction.java:97)at com.mongodb.spark.sql.connector.schema.RowToInternalRowFunction.<init>(RowToInternalRowFunction.java:41)at com.mongodb.spark.sql.connector.schema.BsonDocumentToRowConverter.<init>(BsonDocumentToRowConverter.java:100)at com.mongodb.spark.sql.connector.read.MongoBatch.<init>(MongoBatch.java:47)at com.mongodb.spark.sql.connector.read.MongoScan.toBatch(MongoScan.java:79)at org.apache.spark.sql.execution.datasources.v2.BatchScanExec.batch$lzycompute(BatchScanExec.scala:45)at org.apache.spark.sql.execution.datasources.v2.BatchScanExec.batch(BatchScanExec.scala:45)at org.apache.spark.sql.execution.datasources.v2.BatchScanExec.inputPartitions$lzycompute(BatchScanExec.scala:59)at org.apache.spark.sql.execution.datasources.v2.BatchScanExec.inputPartitions(BatchScanExec.scala:59)at org.apache.spark.sql.execution.datasources.v2.DataSourceV2ScanExecBase.supportsColumnar(DataSourceV2ScanExecBase.scala:179)at org.apache.spark.sql.execution.datasources.v2.DataSourceV2ScanExecBase.supportsColumnar$(DataSourceV2ScanExecBase.scala:175)at org.apache.spark.sql.execution.datasources.v2.BatchScanExec.supportsColumnar(BatchScanExec.scala:36)at org.apache.spark.sql.execution.datasources.v2.DataSourceV2Strategy.apply(DataSourceV2Strategy.scala:147)at org.apache.spark.sql.catalyst.planning.QueryPlanner.$anonfun$plan$1(QueryPlanner.scala:63)at scala.collection.Iterator$$anon$11.nextCur(Iterator.scala:486)at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:492)at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:491)

报错对应的是如下位置
在这里插入图片描述
从spark-3.5.2-bin-hadoop3\jars路径下找到了spark-sql_2.12-3.5.2.jar。
解压缩后发现并没有对应的org.apache.spark.sql.catalyst.encoders.ExpressionEncoder.resolveAndBind
在这里插入图片描述
根因就在这里
在这里插入图片描述
因为下载的spark编译包中spark-3.5.2-bin-hadoop3\jars都是基于scala 2.12的,
将org.mongodb.spark:mongo-spark-connector_2.13:10.3.0换成org.mongodb.spark:mongo-spark-connector_2.12:10.3.0问题解决

from pyspark.sql import SparkSessionmy_spark = SparkSession \.builder \.appName("myApp") \.config("spark.mongodb.read.connection.uri", "mongodb://localhost:27017/local.startup_log") \.config("spark.mongodb.write.connection.uri", "mongodb://localhost:27017/local.FSHeight") \.config("spark.jars.packages", "org.mongodb.spark:mongo-spark-connector_2.13:10.3.0") \.getOrCreate()
# 从上述spark.mongodb.read.connection.uri读取数据    
df = my_spark.read.format("mongodb").load()
# 将读取的数据写入上述spark.mongodb.write.connection.uri,mode可选overwrite or append
df.write.format("mongodb").mode("overwrite").save()
# 重新从数据库读取数据,并查看
dataFrame = my_spark.read\.format("mongodb")\.option("database", "local")\.option("collection", "FSHeight")\.load()
dataFrame.printSchema()
dataFrame.count()
dataFrame.show()

有一个类似案例,也是可能跟spark版本有关系
https://blog.csdn.net/qq_38345222/article/details/88750174

参考

https://www.cnblogs.com/lcl-cn/p/18182316
https://cloud.tencent.com/developer/article/2338486

这篇关于Windows单机安装配置mongodb+hadoop+spark+pyspark用于大数据分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1096757

相关文章

Maven如何手动安装依赖到本地仓库

《Maven如何手动安装依赖到本地仓库》:本文主要介绍Maven如何手动安装依赖到本地仓库问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、下载依赖二、安装 JAR 文件到本地仓库三、验证安装四、在项目中使用该依赖1、注意事项2、额外提示总结一、下载依赖登

CentOS7更改默认SSH端口与配置指南

《CentOS7更改默认SSH端口与配置指南》SSH是Linux服务器远程管理的核心工具,其默认监听端口为22,由于端口22众所周知,这也使得服务器容易受到自动化扫描和暴力破解攻击,本文将系统性地介绍... 目录引言为什么要更改 SSH 默认端口?步骤详解:如何更改 Centos 7 的 SSH 默认端口1

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

SpringBoot多数据源配置完整指南

《SpringBoot多数据源配置完整指南》在复杂的企业应用中,经常需要连接多个数据库,SpringBoot提供了灵活的多数据源配置方式,以下是详细的实现方案,需要的朋友可以参考下... 目录一、基础多数据源配置1. 添加依赖2. 配置多个数据源3. 配置数据源Bean二、JPA多数据源配置1. 配置主数据

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

Spring 基于XML配置 bean管理 Bean-IOC的方法

《Spring基于XML配置bean管理Bean-IOC的方法》:本文主要介绍Spring基于XML配置bean管理Bean-IOC的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录一. spring学习的核心内容二. 基于 XML 配置 bean1. 通过类型来获取 bean2. 通过

如何使用Nginx配置将80端口重定向到443端口

《如何使用Nginx配置将80端口重定向到443端口》这篇文章主要为大家详细介绍了如何将Nginx配置为将HTTP(80端口)请求重定向到HTTPS(443端口),文中的示例代码讲解详细,有需要的小伙... 目录1. 创建或编辑Nginx配置文件2. 配置HTTP重定向到HTTPS3. 配置HTTPS服务器

SpringBoot中配置Redis连接池的完整指南

《SpringBoot中配置Redis连接池的完整指南》这篇文章主要为大家详细介绍了SpringBoot中配置Redis连接池的完整指南,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以... 目录一、添加依赖二、配置 Redis 连接池三、测试 Redis 操作四、完整示例代码(一)pom.

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

IDEA自动生成注释模板的配置教程

《IDEA自动生成注释模板的配置教程》本文介绍了如何在IntelliJIDEA中配置类和方法的注释模板,包括自动生成项目名称、包名、日期和时间等内容,以及如何定制参数和返回值的注释格式,需要的朋友可以... 目录项目场景配置方法类注释模板定义类开头的注释步骤类注释效果方法注释模板定义方法开头的注释步骤方法注