本文主要是介绍python网络爬虫(一)——网络爬虫基本原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1.使用Beautiful Soup解析网页
通过request库已经抓取到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库,其主要功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中,也就是说在导入Beautiful Soup时需要先安装bs4。
安装好bs4库后,还需要安装lxml库。如果我们不安装lxml库,就会使用python默认的解析器。尽管Beautiful Soup既支持python标准库中的HTML解析器,又支持一些第三方解析器,但是lxml库功能更强大,速度更快,因此笔者推荐安装lxml库。
pip3 install request
pip3 install bs4
pip3 install lxml
Beautiful Soup库能够轻松解析网页信息,它被集成在bs4库中,需要时可以从bs4库中调用。首先,HTML文档将被转换成Unicode编码格式,然后Beautiful Soup选择最合适的解析器来解析这个文档,此处指定lxml库进行解析,解析后便将复杂的HTML文档转换成树形结构,并且每个节点都是python对象。
2.网络爬虫的基本原理
2.1网页请求
(1)Request
每个展示在用户面前的网页都必须经过这一步,也就是向服务器发送访问请求;
(2)Response
服务器在接收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容;客户端接收服务器响应的内容,将内容展示出来,这就是我们所熟悉的网页请求。
2.2请求方式
(1)GET
最常见的方式,一般用于获取或查询资源信息,参数设置在URL中,其也是大多数网站使用的方式,只需一次发送和返回,响应速度快
import requests
import json
url = 'https://blog.csdn.net/kk_lzvvkpj/article/details/138960980'
strhtml = requests.get(url)
print(strhtml.status_code)
print(strhtml.json())
获取网页信息的代码如下:
import requests
from bs4 import BeautifulSoupurl = 'https://www.bilibili.com/video/BV1TC4y1N7dB/?spm_id_from=333.1007.0.0&vd_source=912d1bec97cad7dac820d2ba865f116a'
strhtml = requests.get(url)
print(strhtml.text)soup = BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main >div >div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)
这里用select选择器定位数据,在定位数据时需要使用浏览器的开发者模式,将鼠标光标停留在对应的数据位置并右击,在弹出的快捷菜单中选择“检查”命令。
(2)POST
相比GET方式,POST方式通过request body传递参数,可发送请求的信息远大于GET方式。
 Post请求数据的方式不同于GET,GET可以通过URL传递参数,而POST参数则需要放在请求实体里。接着使用request.post()方法请求表单数据,并将字符串格式的数据转换成JSON格式的数据,并根据数据结构提取数据
这篇关于python网络爬虫(一)——网络爬虫基本原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!