Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥

本文主要是介绍Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

requests 安装和导入

  • requests 安装
pip install requests
  • requests 导入
import requests

爬虫编码流程

  1. 指定url
  2. 发起请求
  3. 获取响应数据
  4. 持久化存储

最简单的例子(爬取搜狗页面):

# 1.指定url
url = 'https://www.sogou.com'
# 2.发起请求get方法的返回值为响应对象
response = requests.get(url=url)
# 3. 获取响应数据
# .text:返回的是字符串形式的响应数据
page_text = response.text
# 4. 持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as f:f.write(page_text)

使用浏览器打开 “sogou.html” 文件,可以看到成功爬取:在这里插入图片描述

实现一个简易网页采集器

基于搜狗针对不同的关键字将其对应的页面数据进行爬取

参数动态化:

  • 如果请求的url携带参数,且我们想要将携带的参数进行动态化操作 那么我们必须:
    1. 将携带的动态参数以键值对应形式封装到一个字典中
    2. 将字典作用到get方法的params参数中即可
    3. 需要将原始携带参数中的url中将携带的参数删除

例如:我们搜索 jay,并通过代码来实现:

url=https://www.sogou.com/web?query=jay

在这里插入图片描述
具体代码实现如下:

keyWord = input('enter a key word:')
# 实现参数动态化:
params = {'query': keyWord
}
url = 'https://www.sogou.com/web'
# params参数(字典):保存请求时url携带的参数
response = requests.get(url=url, params=params)# 修改响应数据的编码格式
# encoding返回的是响应数据原始的编码格式,如果给其赋值则表示修改了响应数据的编码格式
response.encoding = 'uft-8'page_text = response.text
fileName = keyWord + '.html'
with open(fileName, 'w', encoding='utf-8') as f:f.write(page_text)
print(fileName, '爬取完毕!!!')

我们来看下结果:

(1)模拟搜狗搜索 jay在这里插入图片描述

(2)代码结果展示
在这里插入图片描述

第二种反爬机制

如上图,我们看到代码运行结果并没有爬取到我们想要的内容。难道是我们代码流程错了吗?

不完全是。

  • 异常的访问请求

    不是浏览器发起的请求都是异常请求
    网站的后台是如何知道请求是不是通过浏览器发起的?
    是通过判定请求的请求头中的user-agent判定的。

    什么是User-Agent:

    请求载体的身份标识

    什么是请求载体:
    浏览器:浏览器的身份标识是统一固定,身份标识可以从抓包工具中获取
    爬虫程序:身份标识是各自不同

  • 第二种反爬机制

    UA检测:网站后台会检测请求对应的User-Agent,以判定的安全请求是否为异常请求

  • 反反爬策略

    • UA伪装

      被作用到了大部分网站中,日后我们写的爬虫程序都默认带上UA检测

    • 伪装流程

      从抓包工具中捕获到某一个基于浏览器请求的User-Agent的值,将其伪装作用到一个字典中,将该字典作用到请求方法(get,post)的headers参数中即可
      在这里插入图片描述

    具体代码实现如下:

    # User-Agent
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
    }keyWord = input('enter a key word:')
    params = {'query': keyWord
    }
    response = requests.get(url=url, params=params, headers=headers)
    response.encoding = 'uft-8'
    page_text = response.text
    fileName = keyWord + '.html'
    with open(fileName, 'w', encoding='utf-8') as f:f.write(page_text)
    print(fileName, '爬取完毕!!!')

    现在就成功完整爬取到了页面!

关注 Python涛哥,学习更多Python知识!

这篇关于Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817403

相关文章

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

Linux下删除乱码文件和目录的实现方式

《Linux下删除乱码文件和目录的实现方式》:本文主要介绍Linux下删除乱码文件和目录的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux下删除乱码文件和目录方法1方法2总结Linux下删除乱码文件和目录方法1使用ls -i命令找到文件或目录

SpringBoot+EasyExcel实现自定义复杂样式导入导出

《SpringBoot+EasyExcel实现自定义复杂样式导入导出》这篇文章主要为大家详细介绍了SpringBoot如何结果EasyExcel实现自定义复杂样式导入导出功能,文中的示例代码讲解详细,... 目录安装处理自定义导出复杂场景1、列不固定,动态列2、动态下拉3、自定义锁定行/列,添加密码4、合并

mybatis执行insert返回id实现详解

《mybatis执行insert返回id实现详解》MyBatis插入操作默认返回受影响行数,需通过useGeneratedKeys+keyProperty或selectKey获取主键ID,确保主键为自... 目录 两种方式获取自增 ID:1. ​​useGeneratedKeys+keyProperty(推

Spring Boot集成Druid实现数据源管理与监控的详细步骤

《SpringBoot集成Druid实现数据源管理与监控的详细步骤》本文介绍如何在SpringBoot项目中集成Druid数据库连接池,包括环境搭建、Maven依赖配置、SpringBoot配置文件... 目录1. 引言1.1 环境准备1.2 Druid介绍2. 配置Druid连接池3. 查看Druid监控

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

Linux在线解压jar包的实现方式

《Linux在线解压jar包的实现方式》:本文主要介绍Linux在线解压jar包的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux在线解压jar包解压 jar包的步骤总结Linux在线解压jar包在 Centos 中解压 jar 包可以使用 u

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

c++ 类成员变量默认初始值的实现

《c++类成员变量默认初始值的实现》本文主要介绍了c++类成员变量默认初始值,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录C++类成员变量初始化c++类的变量的初始化在C++中,如果使用类成员变量时未给定其初始值,那么它将被

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核