pyspark的安装配置

2024-06-02 15:58

文章标签 配置安装 pyspark

本文主要是介绍pyspark的安装配置，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、搭建基本spark+Hadoop的本地环境

　　https://blog.csdn.net/u011513853/article/details/52865076?tdsourcetag=s_pcqq_aiomsg

2、下载对应的spark与pyspark的版本进行安装

　　https://pypi.org/project/pyspark/2.3.0/#history

3、单词统计测试

　　a、python版本

import os

import shutil

from pyspark import SparkContext

inputpath = './data/wc.txt'

outputpath = './data/out.txt'

sc = SparkContext('local', 'wordcount')

# 读取文件

input = sc.textFile(inputpath)

# 切分单词

words = input.flatMap(lambda line: line.split(' '))

# 转换成键值对并计数

counts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)

# 输出结果

counts.foreach(print)

# 删除输出目录

if os.path.exists(outputpath):

shutil.rmtree(outputpath, True)

# 将统计结果写入结果文件

counts.saveAsTextFile(outputpath)

　　b、scala版本

package com.wcount

import java.io.{File, PrintWriter}

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object ScalaWordCount {

def main(args: Array[String]): Unit = {

/**

* SparkConf:表示spark application的参数，

* setMaster：表示运行的模式：

*

* local：本地模式，一般用于测试

* standalone：spark集群自带的资源调度模式

* yarn：hadoop

* mesos:资源调度框架

* setAppName:设置application的名称

*/

val conf = new SparkConf().setMaster("local").setAppName("workJob")

/**

* SparkContext:spark application的上下文环境，通往集群的唯一入口

*/

val sc = new SparkContext(conf)

// val session: SparkSession = SparkSession.builder.appName("wc").master("local").getOrCreate()

val lines: RDD[String] = sc.textFile("./data/wc.txt")

val words: RDD[String] = lines.flatMap(line => {

println("flatmap...........")

line.split(" ")

})

val tuple: RDD[(String, Int)] = words.map(word => {

println("map............")

new Tuple2(word, 1)

})

val result: RDD[(String, Int)] = tuple.reduceByKey((v1: Int, v2: Int) => v1 + v2)

//result.foreach(println)

//文件写入

val outWriter = new PrintWriter(new File("./data/out.txt"))

var wt:String = ""

for (item<-result){

wt =item._1.toString+":"+item._2.toString+" "

println(wt)

}

println(wt)

outWriter.println(wt)

outWriter.close()

while (true){

}

// sc.textFile("./data/wc").flatMap(line => {line.split(" ")}).map(word => {new Tuple2(word, 1)}).reduceByKey((v1: Int, v2: Int) => v1 + v2).foreach(println)

sc.stop()

}

这篇关于pyspark的安装配置的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

pyspark的安装配置

1、搭建基本spark+Hadoop的本地环境

2、下载对应的spark与pyspark的版本进行安装

3、单词统计测试

a、python版本

b、scala版本

相关文章

Python中win32包的安装及常见用途介绍

Linux中SSH服务配置的全面指南

嵌入式数据库SQLite 3配置使用讲解

Linux如何快速检查服务器的硬件配置和性能指标

Nginx 重写与重定向配置方法

Nginx 配置跨域的实现及常见问题解决

gitlab安装及邮箱配置和常用使用方式

MySQL MCP 服务器安装配置最佳实践

在Windows上使用qemu安装ubuntu24.04服务器的详细指南

Python UV安装、升级、卸载详细步骤记录