本文主要是介绍beautifulsoup爬虫快速入门一基础知识,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
主要涉及到的知识点
这里针对的是数据以HTML返回的形式
beautifulsoup、lxml的使用
首先这里需要请求到一个网页地址,之后用beautifulsoup解析网页
requestsAPI = request.get(url)
bs = BeautifulSoup(requestsAPI.content,'lxml')
获取的是多个元素find_all
many = bs.find_all('div',class_ = 'pcb')
获取一个元素find
one = bs[0].find('td')
找到p id = 'number’下面的所有td
findTd = bs.find('p',id = 'number').find_all('td')
找到一个标签下的属性
find = bs[0].find('img')['file']
查看标签内包含的内容
bs[0].find_all('strong')[3].text
Beautiful Soup 4.2.0 文档
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
这篇关于beautifulsoup爬虫快速入门一基础知识的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!