用python爬虫自动获取某网站吉他谱并保存文件

2023-11-21 04:59

本文主要是介绍用python爬虫自动获取某网站吉他谱并保存文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        近日博主刚刚入门爬虫并且在不断学习基础知识,昨日下午室友问我能否爬出学校教务网的考试时间等信息做一个整合,博主进入教务网的主页后发现教务网全都是用js写的还有双层嵌套的网页,顿时感到无从下手,实在是学艺不精。于是弹起吉他开始摆烂,网上找谱的时候偶尔浏览到了一些页面结构比较简单的曲谱网站,于是尝试着写了一个能够自动保存吉他谱的爬虫。

        简单的实现思路就是我们进入易唱网获取一首歌曲的信息

      

 我们可以在源代码中找出标题和未经加密的曲谱图片的地址,然后爬取下载。

 在右边琴友正在浏览的吉他谱一栏中我们每次点击进入都会发现,每首歌下会有不同的超链接出现。

 那么我们就可以通过一首歌跳转到另一首歌的界面实现无限爬取,这里可以做一个递归,不过我没有去实现(爬取的数据量太大会被封ip,另外一个兴趣网站也请大家使用爬虫时不要一次几千条的爬把别人网站搞崩了

 功能如下:

在url里输入某一首歌的url链接

就可以实现爬取侧面栏目十几首歌的曲谱的效果

 

 

 

import requests
from pyquery import PyQuery as py
import os
import time
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50"
}
url = 'http://www.echangwang.com/pic/01/618.html'
def geturl(url):response = requests.get(url, headers=headers).content.decode('gbk')return response
def makeurl(response):urldata = []content=py(response)moreurl=content('#m-djph li ')for item in moreurl.items():urldata.append(item('a').attr('href'))return urldata
def get_pic(urldata):picdata=[]for url in urldata:data={}content=py(geturl(url))title = content('.hd h1').text().replace(' ', '_').replace('/','')imgurl=content('#main-article .content img')imglink=[]for item in imgurl.items():link=item.attr('src')if link[0:6]=="http:":passelse:link='http://www.echangwang.com'+linkimglink.append(link)data['imglink']=imglinkdata['name']=titlepicdata.append(data)return picdatadef save_pic(picdata):for item in picdata:path="D:\\pythonProject1"+'\\'+f"{item['name']}"mkdir(path)i=0for link in item['imglink']:i+=1with open(f'./{item["name"]}/{item["name"]+str(i)}{link[-4:]}','wb') as f:img=requests.get(link,headers=headers).contentf.write(img)print("正在保存"+item['name'])time.sleep(1)print("保存成功")passdef mkdir(path):folder = os.path.exists(path)if not folder:  # 判断是否存在文件夹如果不存在则创建为文件夹os.makedirs(path)  # makedirs 创建文件时如果路径不存在会创建这个路径print"---  new folder...  ---"print"---  OK  ---"else:print"---  There is this folder!  ---"if __name__ == '__main__':urldata=makeurl(geturl(url))save_pic(get_pic(urldata))

 注意修改当前py文件所在路径为path

 

 

 

这篇关于用python爬虫自动获取某网站吉他谱并保存文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/399975

相关文章

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

基于51单片机的自动转向修复系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

速盾高防cdn是怎么解决网站攻击的?

速盾高防CDN是一种基于云计算技术的网络安全解决方案,可以有效地保护网站免受各种网络攻击的威胁。它通过在全球多个节点部署服务器,将网站内容缓存到这些服务器上,并通过智能路由技术将用户的请求引导到最近的服务器上,以提供更快的访问速度和更好的网络性能。 速盾高防CDN主要采用以下几种方式来解决网站攻击: 分布式拒绝服务攻击(DDoS)防护:DDoS攻击是一种常见的网络攻击手段,攻击者通过向目标网