本文主要是介绍Scrapy获取网易云音乐歌手全部歌曲(excel存取),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言:
这个爬虫是为了之后爬取10W以上评论的歌曲做一下准备,这次以网易云音乐中的林俊杰为实验例子
爬虫思路:
爬取思路上,需要先通过歌手的所有专辑页面,获取到歌手的每个专辑的id,通过专辑的id转到专辑的界面,在专辑中获取歌曲id,转到歌曲界面后,我们就可以抓取歌曲上的信息了,不包括评论数,评论数是在另外的页面
爬虫过程:
首先展示一下爬虫的item部分
class WangyimusictestItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()singer = scrapy.Field()#歌手music = scrapy.Field()#歌曲cd = scrapy.Field()
在Item部分中,我的目标只是获取歌曲的歌名,歌手和歌曲所在的专辑
在主爬虫部分,我们首先需要解析网页
这个是林俊杰的界面,右键查看源代码发现并没有专辑内容
但是发现右键会有一个“查看框架源代码”的选项,发现在这里面可以查看到我们需要内容
这里面正是存放着我们需要爬取的专辑,那么这个网页到底在哪里呢,我们可以F12查看审查元素,在Network中我们发现了我们需要的内容
这篇关于Scrapy获取网易云音乐歌手全部歌曲(excel存取)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!