网易评论觉得腻?爬取心动歌曲来解腻

2024-01-21 18:30

本文主要是介绍网易评论觉得腻?爬取心动歌曲来解腻,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

(一)前言

1.觉得腻?

听说你们觉得爬取评论已经腻歪了,今天鹏二就带你们一起爬取你的那个(他,她)或者欧巴的心动歌曲,话不多说,我们正题开始!

2.来解腻

今天我们就用各种方法进行爬取尝试,带大家一步步爬取到心动音乐

(二)准备工作

所用技术

2.1 requests+Beautifulsoup

requests获取网页内容
Beautifulsoup对获取内容进行解析,拿到相应数据

2.2 selenium

通过selenium自动化直接加载相应网页进行定位元素和内容获取

2.3 requests+Beautifulsoup+cookie

(三)网页分析

3.1网址说明和页面分析

本次爬取页面为羽肿喜欢的音乐
由于网页版只加载喜欢音乐前20个,因此我们只爬前20个
网址:https://music.163.com/#/playlist?id=408260494
在这里插入图片描述

3.2元素定位

在这里插入图片描述
红框部分即为音乐名所在处,这个找起来很麻烦,不过掌握规律后还是很快的

下面我们分析这个请求

请求视图
在这里插入图片描述

在这里插入图片描述
请求相应
在这里插入图片描述

(四)开始爬取

4.1 requests+Beautifulsoup

import requests
from bs4 import BeautifulSoupheaders={"user-agent":"chrome/10"
}
r=requests.get("https://music.163.com/playlist?id=2092096875",headers=headers,timeout=300)
print(r.status_code)#打印响应码
demo=r.text
f=open("羽肿.html","w",newline="",encoding="utf-8")
#将网页源代码写进文件
f.write(demo)
soup=BeautifulSoup(demo,"html.parser")#解析内容
ul=soup.find("ul","f-hide")
for item in ul.find_all("a"):print(item.text)

在这里插入图片描述

不知道为什么?那我们看看获取到的文件渲染到浏览器是什么样子:

在这里插入图片描述

为啥404?

很简单,没登录;那你们要说简单了,用selenium呗,好,下面我们试试selenium进行网易登录

4.2 selenium

再次分析登录情况

在这里插入图片描述
哎,我们只用过selenium进行输入登录,这是啥?这是啥?真头大;

看来我们只能另外想别的办法,看最后一个方法吧

4.3requests+Beautifulsoup+cookie

cookie

Cookie 并不是它的原意“甜饼”的意思, 而是一个保存在客户机中的简单的文本文件, 这个文件与特定的 Web 文档关联在一起, 保存了该客户机访问这个Web 文档时的信息, 当客户机再次访问这个 Web 文档时这些信息可供该文档使用。由于“Cookie”具有可以保存在客户机上的神奇特性, 因此它可以帮助我们实现记录用户个人信息的功能, 而这一切都不必使用复杂的CGI等程序 [2] 。
举例来说, 一个 Web 站点可能会为每一个访问者产生一个唯一的ID, 然后以 Cookie 文件的形式保存在每个用户的机器上。如果使用浏览器访问 Web, 会看到所有保存在硬盘上的 Cookie。在这个文件夹里每一个文件都是一个由“名/值”对组成的文本文件,另外还有一个文件保存有所有对应的 Web 站点的信息。在这里的每个 Cookie 文件都是一个简单而又普通的文本文件。透过文件名, 就可以看到是哪个 Web 站点在机器上放置了Cookie(当然站点信息在文件里也有保存) [2] 。

获取cookie

1.我们先进行手动扫码登录
2.利用f12开发者工具进行network分析,找到相应网址,进行获取cookie
在这里插入图片描述

代码及最终成果
import requests
from bs4 import BeautifulSoupheaders={"user-agent":"chrome/10","cookie":"_iuqxldmzr_=32; _ntes_nnid=bf3adaf31b24a95bffaf0eff23cbd392,1622199417424; _ntes_nuid=bf3adaf31b24a95bffaf0eff23cbd392; NMTID=00OdtxhAEx6bf4clU7-rB7gxE-YqjIAAAF5sp69Kg; WEVNSM=1.0.0; WM_TID=yvPp1FB8p6lBUEBABAZqws8dh73kEliG; hb_MA-891C-BF35BECB05C1_source=www.baidu.com; P_INFO=qpsbyqq@163.com|1623933631|0|mail163|00&99|not_found&1623933627&mail_client#shd&370100#10#0#0|&0|mailmaster_android|qpsbyqq@163.com; WNMCID=zlnbli.1623933639197.01.0; hb_MA-9F44-2FC2BD04228F_source=netease.im; WM_NI=COkNUF0afxwkZCGOuBOdMFEiw2j0b1wQyrpFjej6BAbpdB91DWCaik%2B4riQA9TjbZea7n65nvW7%2BMYPQDRoqpjh7xHvEGXy3Cf2KQYABo62OH%2BhM2I6skaogDs06N5gfS3g%3D; WM_NIKE=9ca17ae2e6ffcda170e2e6eeaab2738696e5b4db4392e78fb2c45b939b9ebbb67288bdfad2cc3aadeaabb2eb2af0fea7c3b92a8191a5afd84ef4bfaa99f6619a9d89b0f84a8dbc83a7c863b5eea6d1e13bb58fb793f34eaabba6d7c14ba2b0aca3bc3b88898d82ec61e9ecbe8ad44bfb8ca683d96fa3e9a2d7b866b689f9ccd053948f8cb3ee7bb4b6a8d8fb44b69b89b9fc3981bafeacd453839ea1d7b1458cf5a8aeb143f6ada582ee6d88ad00d7cd3fa5ba9dd4e637e2a3; ntes_kaola_ad=1; playerid=51924929; MUSIC_U=10877c15d1ef03604b524c43deae62623271b233789184dc6e7a9cb0bce4afda33a649814e309366; __csrf=4f06cbba2e503a935047e428675c4fc5; JSESSIONID-WYYY=visoF3%2BwIOG8JsXgXEoSfVIz%2Boa%2FBW3OFSeJrXYY4cvm31P%2Fpahd1%5CcmsRFxVGjy%2FzhSkWKw8quzPjj8IkYiCW31M2u69xTyXAJ2mV9w3cD1MmiY0%2FB3yICbR%2B%5Cwiqvt2XcXlkGYkB6RuCZ%5CPf1ECb2AQpoSKa%2BzeE6vpq31JTY2lSwB%3A1624969901111referer: https://music.163.com/"}
r=requests.get("https://music.163.com/playlist?id=2092096875",headers=headers,timeout=300)
print(r.status_code)
demo=r.text
soup=BeautifulSoup(demo,"html.parser")
ul=soup.find("ul","f-hide")
for item in ul.find_all("a"):print(item.text)

在这里插入图片描述

(五)结语

关于学爬虫,更多考察你的分析能力,多敲代码,加油塑造自己!!



好了,就到这里了,有疑惑的小伙伴可以在评论区留言,还想爬取什么?大胆说出来吧,博主在法律允许范围内量力而为!!!

在这里插入图片描述

这篇关于网易评论觉得腻?爬取心动歌曲来解腻的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/630446

相关文章

大厂算法例题解之网易2018秋招笔试真题 (未完)

1、字符串碎片 【题目描述】一个由小写字母组成的字符串可以看成一些同一字母的最大碎片组成的。例如,“aaabbaaac” 是由下面碎片组成的:‘aaa’,‘bb’,‘c’。牛牛现在给定一个字符串,请你帮助计算这个字符串的所有碎片的 平均长度是多少。 输入描述: 输入包括一个字符串 s,字符串 s 的长度 length(1 ≤ length ≤ 50),s 只含小写字母(‘a’-‘z’) 输出描述

0基础学习爬虫系列:网页内容爬取

1.背景 今天我们来实现,监控网站最新数据爬虫。 在信息爆炸的年代,能够有一个爬虫帮你,将你感兴趣的最新消息推送给你,能够帮你节约非常多时间,同时确保不会miss重要信息。 爬虫应用场景: 应用场景主要功能数据来源示例使用目的搜索引擎优化 (SEO)分析关键词密度、外部链接质量等网站元数据、链接提升网站在搜索引擎中的排名市场研究收集竞品信息、价格比较电商网站、行业报告制定更有效的市场策略舆情

如何利用评论进行有效的 ASO

如何利用评论进行有效的ASO的问题的答案通常以“正面评论”一词开始。确实,这句话首先浮现在脑海中。但这个问题的答案包括负面评论、用户体验、提高知名度、评分、根据评论优化应用程序以及许多其他有趣的点。这里几乎没有无聊的统计数据,这些数字也不会让你眼花缭乱。处理评论需要与用户的沟通和互动,需要社交性,甚至需要一点心理学。在本文中,我们将讨论评论对应用程序的总体影响,以及它们对 ASO 优化的

python网络爬虫(五)——爬取天气预报

1.注册高德天气key   点击高德天气,然后按照开发者文档完成key注册;作为爬虫练习项目之一。从高德地图json数据接口获取天气,可以获取某省的所有城市天气,高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters,若要获取某城市的天气推荐 2.安装MongoDB

redis 实现单位时间内错误记录 时间到key值就被清除------最近脑子不好使觉得还是写个博客试试

直接在客户端操作的, 所以需要redis的简单命令  去对比JAVA客户端jedis的命令就行   添加---set     格式 set  key  value  EX time(秒)   如果这个time不添加的话 ,那默认就是 永久 获取--get    格式 get key  ---查看剩余时间    格式 TTL key ---实现key实现自增: inrc key

【python】—— Python爬虫实战:爬取珠海市2011-2023年天气数据并保存为CSV文件

目录 目标 准备工作 爬取数据的开始时间和结束时间 爬取数据并解析 将数据转换为DataFrame并保存为CSV文件         本文将介绍如何使用Python编写一个简单的爬虫程序,以爬取珠海市2011年至2023年的天气数据,并将这些数据保存为CSV文件。我们将涉及到以下知识点: 使用requests库发送HTTP请求使用lxml库解析HTML文档使用dateti

评论的组件封装

主评论的人在数组第一层级,回复的评论都在children里面 【{name:"张三"idGenerator: 475403892531269info_Conmment":"今天天气晴朗😀"children:[{mainIdGenerator:475388950118469name:"张三"name1:"李四"idGenerator:475403933356101inf

scrapy 设置爬取深度 (七)

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。深度大于设置值的将被ignore。       如图:

scrapy自动多网页爬取CrawlSpider类(五)

一.目的。 自动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自动爬取。   二.热身。 1.CrawlSpider (1)概念与作用: 它是Spider的派生类,首先在说下Spider,它是所有爬虫的基类,对于它的设计原则是只爬取start_url列表中的网页,而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。 ࿰

Scrapy ——自动多网页爬取(抓取某人博客所有文章)(四)

首先创建project:   [python]  view plain  copy     转存失败重新上传取消<