计算机毕业设计hadoop+spark+hive知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习

本文主要是介绍计算机毕业设计hadoop+spark+hive知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

新余学院本科毕业设计(论文)开题报告

学    号

202253025

学生姓名

毛维星

届    别

24届

专    业

数据科学与大数据技术

指导教师

姓名及职称

 潘诚 研究生

毕业设计

(论文)题目

基于Hadoop+Spark的音乐数据仓库的设计与实现

  1. 选题的依据和意义

随着移动互联网迅猛发展、数字音乐的兴起,人们听音乐的方式转变为在线音乐,导致在线音乐的需求不断在增加,各大音乐网站上也有了海量的用户群体。成长在移动互联网环境下年轻一代,越发依赖在线音乐。QQ音乐、酷我音乐、网易云音乐等是国内现有的几大主流音乐平台。其中网易云音乐登顶音乐类App用户的榜首。网易云音乐最初的目标是建立一个音乐社交网络,就不同操作系统客户端上线效率而言,网易云音乐侧重于小众圈子,提高了对小众人群的关注,而小众人群有比较大的概率形成社群,经过这种网络关系来提升品牌价值。根据易观分析发布的《2021中国在线用户洞察报告》中的数据显示,相比酷我音乐、酷狗音乐和QQ音乐等,网易云音乐是年轻用户占比最大的平台,35岁以下的用户约占80%。如图1所示,根据《2020年网易云音乐销售手册》显示:网易云的用户中,以学生及白领、15~35岁、高学历、一二线城市、可支配收入高的群体为主,听歌的人群更加年轻化。因此对网易云音乐进行数据可视化分析,有利于提高用户的音乐体验,即用户可以根据自己的喜好,选择自己对应音乐标签的听音乐,也有利于更加直观地剖析音乐数据,辅助音乐公司做出决策。

  1. 国内外有关本选题研究的动态

可视化分析主要应用于海量数据关联分析。由于涉及的信息比较分散,数据结构有可能不统一,而且通常以人工分析为主,再加上分析过程的非结构性和不确定性,所以普通的数据分析系统不易形成固定的分析流程或模式,很难将数据调入应用系统中进行分析挖掘。而功能强大的可视化数据分析平台,可以辅助人工操作,将数据进行关联分析,并做出完整的分析图表。图表中包含所有事件的相关信息,也能完整展示数据分析的过程和数据链走向。同时,这些分析图表也可通过另存为其他格式,供相关人员调阅。

大数据处理通常包括数据的采集、整理、存储、分析和挖掘、展示等多个环节。可视化是大数据分析的重要环节之一,因为它可能以更直观的图形、表格、地图等方式展现数据。“可视化分析并不是简单地将单一来源的数据用非常漂亮的图表展现出来,而是对不同来源的数据,比如财务数据、销售数据、人力资源数据、商业分析数据等进行分析,形成企业自己的洞见,然后再通过直观、形象的方式把它呈现出来。这才是真正的可视化。

早在2009 年,Qlik 就已经进入中国市场,目前拥有大量客户,比如联想、苏泊尔等。“中国客户对可视化分析、云服务、数据可控等有很强烈的需求。现在对我们来说,最大的挑战在于时间紧迫。我们要以更快的速度、更全面的产品和服务满足中国不同行业客户快速增长的需求。

用户要对大数据有正确的理解,大数据是用钱买不来的,一个企业如果想充分利用大数据,那么可以从一个细分的应用开始,逐渐扩展,慢慢了解和掌握数据的属性。这时,用户就需要一个平台化的工具。

在互联网信息时代,基于网络人们可以对各种信息轻松掌握,对于各种数据背后所反映出来的信息越来越重视。例如新浪微博、知乎等人们日常使用的APP背后都离不开大数据的支持。设计一个对流行音乐的数据分析,从不同方面呈现时下音乐的热度以及流行元素。以此为契机,也能在以后对其他数据的研究有更加深入的了解。

  1. 论文的基本内容,拟解决的主要问题

内容:

  1. 爬取网易云音乐数据作为数据分析的基础数据集;
  2. 搭建Linux数据分析环境,包括hadoop、spark生态圈组件;
  3. 将数据仓库的理论知识应用于实践,进行数据仓库建模;
  4. 完成数据清洗、数据分析等数仓流程;
  5. 研究FineReport报表技术,进行可视化实现;

拟解决的问题:

  1. 网易云反爬问题,数据获取不全面;
  2. 数据量较大数仓、MySQL数据库查询缓慢问题;
  3. 实时计算/离线计算数据倾斜问题、JVM内存计算溢出问题;
  4. 可视化指标精度问题;

  1. 研究方法
  1. 项目整体数通过对网易云网站数据进行分析,通过爬虫歌单 歌手 专辑等相关信息,将爬取到的数据存入MySQL;
  2. 通过sqoop工具将MySQL数据导入到大数据Hadoop平台;
  3. 使用Hive并采用数据仓库建设方法对相关指标进行数据分析,将分析出来的结果再次通过sqoop导出到MySQL供给可视化查询使用;
  4. 最终通过帆软大屏的方式对结果数据进行展示。
  5. 通过调度工具azkaban将整个项目流程串通,一键启动项目即可完成整个数据分析过程。
  6. 同时为了方便查hive数据,还采用了目前主流的数据查询工具hue;

  1. 选题的特色及创新点
  1. Hive离线数仓与Spark实时数仓相结合;
  2. FineReport一键拖拽可视化大屏工具的应用提高可视化开发效率;
  3. 即使千万真实数据量,通过构建MySQL索引、优化JVM等运维手段做到系统百万千万数据秒查;
  4. Python爬虫模拟人类真实浏览情况采集上千万网易云音乐数据作为数据分析基础数据集,并且数据种类丰富;

学生签名:                                   年     月     日

指导

教师

开题

报告

意见

    指导教师签名:                             年     月     日

说明:本表须双面打印。

核心算法代码分享如下:

# -*- codeing = utf-8 -*-
# @Time: 2022/4/29 12:10
# @Author: Administrator
# @File: lyric.py
# @Desc: 评论情感分析
import pymysql
from snownlp import SnowNLP
connect = pymysql.connect(host="bigdata",port=3306, user="root",password="123456", database="hive_music2024")
cur = connect.cursor()
cur.execute('''SELECT * FROM tb_comment''')
rv = cur.fetchall()
for result in rv:id=result[0]songId=result[1]userId=result[2]content=result[3]nickname=result[4]avatar=result[5]commentId=result[6]likedCount=result[7]isHot=result[8]pubTime=result[9]s = SnowNLP(content)score = s.sentimentsif score < 0.5:label='negative'else:label = 'positive'print('情感分析',label,score, content)sql = "replace into tb_comment2 (songId,userId,content,nickname,avatar,commentId,likedCount,isHot,pubTime,label,score) " \"values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"data = (songId,userId,content,nickname,avatar,commentId,likedCount,isHot,pubTime,label,score)cur.execute(sql, data)connect.commit()

这篇关于计算机毕业设计hadoop+spark+hive知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1032561

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数