本文主要是介绍spark wordcount 单词统计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
spark wordcount 单词统计
文件1.txt
hello world
hello tom
hello lucy
tom lucy
hello python
# -*- coding:utf-8 -*-
import os
import shutilfrom pyspark import SparkContextinputpath = '1.txt'
outputpath = 'result'sc = SparkContext('local', 'wordcount')# 读取文件
input = sc.textFile(inputpath)
# 切分单词
words = input.flatMap(lambda line: line.split(' '))
# 转换成键值对并计数
counts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)# 输出结果
result=counts.collect()
print result
for (word,count) in result:print word,count# 删除输出目录
if os.path.exists(outputpath):shutil.rmtree(outputpath, True)# 将统计结果写入结果文件
counts.saveAsTextFile(outputpath)
这篇关于spark wordcount 单词统计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!