Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥

本文主要是介绍Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

requests 安装和导入

  • requests 安装
pip install requests
  • requests 导入
import requests

爬虫编码流程

  1. 指定url
  2. 发起请求
  3. 获取响应数据
  4. 持久化存储

最简单的例子(爬取搜狗页面):

# 1.指定url
url = 'https://www.sogou.com'
# 2.发起请求get方法的返回值为响应对象
response = requests.get(url=url)
# 3. 获取响应数据
# .text:返回的是字符串形式的响应数据
page_text = response.text
# 4. 持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as f:f.write(page_text)

使用浏览器打开 “sogou.html” 文件,可以看到成功爬取:在这里插入图片描述

实现一个简易网页采集器

基于搜狗针对不同的关键字将其对应的页面数据进行爬取

参数动态化:

  • 如果请求的url携带参数,且我们想要将携带的参数进行动态化操作 那么我们必须:
    1. 将携带的动态参数以键值对应形式封装到一个字典中
    2. 将字典作用到get方法的params参数中即可
    3. 需要将原始携带参数中的url中将携带的参数删除

例如:我们搜索 jay,并通过代码来实现:

url=https://www.sogou.com/web?query=jay

在这里插入图片描述
具体代码实现如下:

keyWord = input('enter a key word:')
# 实现参数动态化:
params = {'query': keyWord
}
url = 'https://www.sogou.com/web'
# params参数(字典):保存请求时url携带的参数
response = requests.get(url=url, params=params)# 修改响应数据的编码格式
# encoding返回的是响应数据原始的编码格式,如果给其赋值则表示修改了响应数据的编码格式
response.encoding = 'uft-8'page_text = response.text
fileName = keyWord + '.html'
with open(fileName, 'w', encoding='utf-8') as f:f.write(page_text)
print(fileName, '爬取完毕!!!')

我们来看下结果:

(1)模拟搜狗搜索 jay在这里插入图片描述

(2)代码结果展示
在这里插入图片描述

第二种反爬机制

如上图,我们看到代码运行结果并没有爬取到我们想要的内容。难道是我们代码流程错了吗?

不完全是。

  • 异常的访问请求

    不是浏览器发起的请求都是异常请求
    网站的后台是如何知道请求是不是通过浏览器发起的?
    是通过判定请求的请求头中的user-agent判定的。

    什么是User-Agent:

    请求载体的身份标识

    什么是请求载体:
    浏览器:浏览器的身份标识是统一固定,身份标识可以从抓包工具中获取
    爬虫程序:身份标识是各自不同

  • 第二种反爬机制

    UA检测:网站后台会检测请求对应的User-Agent,以判定的安全请求是否为异常请求

  • 反反爬策略

    • UA伪装

      被作用到了大部分网站中,日后我们写的爬虫程序都默认带上UA检测

    • 伪装流程

      从抓包工具中捕获到某一个基于浏览器请求的User-Agent的值,将其伪装作用到一个字典中,将该字典作用到请求方法(get,post)的headers参数中即可
      在这里插入图片描述

    具体代码实现如下:

    # User-Agent
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
    }keyWord = input('enter a key word:')
    params = {'query': keyWord
    }
    response = requests.get(url=url, params=params, headers=headers)
    response.encoding = 'uft-8'
    page_text = response.text
    fileName = keyWord + '.html'
    with open(fileName, 'w', encoding='utf-8') as f:f.write(page_text)
    print(fileName, '爬取完毕!!!')

    现在就成功完整爬取到了页面!

关注 Python涛哥,学习更多Python知识!

这篇关于Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817403

相关文章

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("