本文主要是介绍Spark + Python《同桌的你》歌曲评论听众信息分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Fan Shiqing @Xiamen University
实验环境安装
Linux:Ubuntu16.04
Java:1.7.0_80
Hadoop:2.7.1
Python:2.7
PyCharm:2019.1.2(Community Edition)
matplotlib:2.0.0
Spark:2.1.0
下载数据集
数据集为某音乐平台歌曲《同桌的你》评论者的信息数据,包含评论者的用户ID、动态总数、关注总数、粉丝总数、所在地区、个人介绍、年龄、累计听歌总数属性。共4752条数据,部分如下图:
数据集的预处理
- 将txt文件转为csv文件
- 修改文件属性名称方便读写
使用Spark进行数据分析
- 读入数据并筛选需要用到的属性
sc =SparkContext()
sqlContext = SQLContext(sc)
data = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('commenters.csv')
list = ['ID', 'fans', 'province', 'city',
这篇关于Spark + Python《同桌的你》歌曲评论听众信息分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!