本文主要是介绍爬虫爬虫爬虫学习 day1:op.gg的爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
学习目标:
Python爬虫
学习内容:
1、 python爬虫简单语句的学习 2、 理解爬虫语句学习产出:
1.库的导入
import requests #导入requests库
import bs4 #导入bs4库
from bs4 import BeautifulSoup #导入BeautifulSoup库
2.返回html内容
r = requests.get(url,timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodinghtml =r.txt
3.分析内容,获取数据
这是最重要的部分,也是最难的,课上学的,不知道为什么,都没法用,就很气,先记一下别人的吧
hlist = []
soup = BeautifulSoup(html,"html.parser")for tr in soup.find(name = "tbody",attrs = "tabItem champion-trend-tier-TOP").children: #遍历上单tbody标签的儿子标签if isinstance(tr,bs4.element.Tag): #判断tr是否为标签类型,去除空行tds = tr('td') #查找tr标签下的td标签heroName = tds[3].find(attrs = "champion-index-table__name").string #英雄名winRate = tds[4].string #胜率pickRate = tds[5].string #选取率hlist.append([heroName,winRate,pickRate])
soup.find( ):
name是标签的名字,attrs是class的名字
.children 是该标签下的儿子标签
tds=tr('td')#到了下一级查找tr标签下的td标签
heroName = tds[3].find(attrs = "champion-index-table__name").string #英雄名
winRate = tds[4].string #胜率
pickRate = tds[5].string #选取率
tds 里边都是td以数组形式存放,又因为英雄名字要特地找一下
总结:
现在还是没有真正坐下来一个爬取,感觉本身爬虫本身不难,难得是对网页和前端的理解~
慢慢来吧~
加油菜鸡
这篇关于爬虫爬虫爬虫学习 day1:op.gg的爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!