爬取酷狗榜单中的top500

2023-10-13 18:48
文章标签 榜单 取酷 top500

本文主要是介绍爬取酷狗榜单中的top500,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先先看到top500的页面,如下图所示


网页版的酷狗没有翻页的操作,所以不能看到后面页数的链接,根据第一页的链接,http://www.kugou.com/yy/rank/home/1-8888.html   我们尝试把链接里面的数字1改为2,果然跳转到第二页去了,这样就好办了,每页显示22条歌曲,所以经过计算,需要23条url链接,后面自己手动创建url

具体的操作和解释都下面代码中

# -*- encoding:utf8 -*-
import requests
from bs4 import BeautifulSoup
import itertools
import time# 请求头,用来伪装为浏览器
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}# 定义获取信息的函数
def get_info(url):wb_data = requests.get(url,headers=headers)soup = BeautifulSoup(wb_data.text,"lxml")# 排名ranks = soup.select("span.pc_temp_num")# 标题titles = soup.select("div.pc_temp_songlist > ul > li > a")# 时间times = soup.select("span.pc_temp_tips_r > span")# itertools.izip()函数可以平行的迭代多个数组,python2.7里面用izip(),3.6版本的则用zip()更好for rank,title,time in itertools.izip(ranks,titles,times):data = {"rank":rank.text.strip(),# 字符串的分片"singer":title.text.split("-")[0],"song":title.text.split("-")[1],"time":time.text.strip(),"href":title.get("href")}print data# 程序的入口
if __name__ == "__main__":# 创建多页的urlurls = ["http://www.kugou.com/yy/rank/home/{}-8888.html".format(number) for number in range(1,24)]for i in urls:get_info(i)# 休眠2秒time.sleep(2)# 下面的代码可以更好的理解["http://www.kugou.com/yy/rank/home/{}-8888.html".format(number) for number in range(1,24)]
# for i in range(1,23):
#     urls = ["http://www.kugou.com/yy/rank/home/{}-8888.html".format(i)]
#     print urls


这篇关于爬取酷狗榜单中的top500的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/205160

相关文章

硬盘数据恢复软件TOP4榜单出炉,选对方法竟然如此重要

这年头,信息多得不得了,数据对我们来说太重要了。但是,不管是咱们自己还是公司,都可能碰上丢数据的倒霉事,特别是不小心把硬盘里的东西删了。数据一丢,不光可能亏钱,工作和生活也可能受影响。好在,市面上有不少厉害的数据恢复软件,能在紧要关头帮我们把丢的数据找回来。今天,我就来给你介绍几款大家都说好的硬盘数据恢复软件! 一、Foxit全面数据恢复 即时通道 \https://www.pdf365.cn

显卡天梯图(2024年9月版),游戏性能/生产力性能榜单

​原文地址(高清无水印原图/持续更新/含榜单出处链接): >>> 2024年9月显卡天梯图 <<< 2024年9月4日更新日志:更新所有显卡天梯图至9月/最新数据;移除Technical显卡榜单;新增OpenCL显卡性能榜单(含专业卡、计算卡、车机等)。 2024年8月2日更新日志:更新并拓展3DMark显卡榜单长度至150位;更新并拓展Technical显卡榜单至139位;

再获认可!海云安荣登2024中国网络安全市场100强榜单

近日,专注于网络安全垂直领域的智库平台数说安全正式发布《2024年中国网络安全市场100强》,海云安凭借领先的技术产品与硬核服务能力,成功入选《2024年中国网络安全市场100强》榜单。 据悉,此次《2024年中国网络安全市场100强》评选紧密结合我国网络安全产业特色,以资源支撑力和市场表现力两个关键维度对参选企业进行全面评估。 【资源支撑力】:是企业所依托的人力、资本、技术及销售等关

2018中国金融科技竞争力100强榜单

2018--金融科技--榜单  2018--金融科技--评价标准   参考地址:https://biz.ifeng.com/a/20180630/45044607_0.shtml

职场达人都在用的秘密武器!2024年PDF转PPT 的榜单Top4

在这个忙碌又讲究效率的工作环境里,搞定那些繁琐的PDF文件,把它们变成直观的PPT,可能是你职场上的一大挑战。不过别急,今天我要告诉你一些职场高手们悄悄用的工具,这些工具能帮你轻松把PDF文件变成PPT,让你在职场上更轻松。咱们来看看2024年最火的四个PDF转PPT的工具吧! 1. 福昕专业转换PDF 闪现 ✚ https://editor.foxitsoftware.cn/ 这个编辑器特

LLM大模型榜单

开原模型下载地址:HF-Mirror 1、中文大模型能力评测榜单 GitHub - jeinlee1991/chinese-llm-benchmark: 中文大模型能力评测榜单:目前已囊括106个大模型,覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、yi、书生internLM2、ll

这个TOP 100 AI应用榜单,包含了所有你需要的使用场景(一)

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。 第一部分:TOP 50 AI Web端应用 1. ChatGPT 所属公司:OpenAI主要功

喜报 | IDC中国Fintech50榜单正式发布!

IDC金融行业研究(IDC Financial Insights)团队以全球视角关注金融科技创新,并对金融科技厂商进行持续追踪。针对技术服务商的能力评估、比较优势分析以及市场份额等方面的研究是其中重要的组成部分。 基于研究报告以及行业用户的调研,IDC金融行业研究团队自2020年以来已连续四年推出 “IDC中国金融科技” 系列榜单,再基于研究报告以及行业用户的调研的背景下,IDC于8月8

【报告分享】 2020中国高科技高成长50强暨明日之星榜单-德勤咨询(附下载)

摘要:“2020中国高科技高成长50强”及“中国明日之星”榜单在数十家媒体的见证下,在德勤北京办公室隆重揭晓。同时发布的还有《2020中国高科技高成长50强暨明日之星》报告。该报告由德勤和清华大学全球私募股权研究院共同编写,基于参选企业首席执行官问卷调查,对科技企业的发展规律及面临的机遇和挑战进行分析,给出科技企业如何在变局中持续成长的建议。 来源:德勤咨询

【报告分享】2021年5月618预热期榜单及两大消费赛道抖音月报-果集数据(附下载)

摘要:统计周期内,抖音直播带货GMV达412.19亿,相比上月增长了74.99亿。平均每日销售额达13.3亿,总直播场次达490.7万场,5月20日前后,本月直播带货表现最佳。5月25日,适逢抖音开始618预售,至31日为预售期,此阶段抖音带货GMV数 据和平日基本保持一致。直播品类销售额占比中,男装女装、珠宝配饰、鞋帽箱包、护肤、美食饮品贡献大部分销售额,本月护肤品类带货占比提升。