Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥

本文主要是介绍Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

requests 安装和导入

  • requests 安装
pip install requests
  • requests 导入
import requests

爬虫编码流程

  1. 指定url
  2. 发起请求
  3. 获取响应数据
  4. 持久化存储

最简单的例子(爬取搜狗页面):

# 1.指定url
url = 'https://www.sogou.com'
# 2.发起请求get方法的返回值为响应对象
response = requests.get(url=url)
# 3. 获取响应数据
# .text:返回的是字符串形式的响应数据
page_text = response.text
# 4. 持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as f:f.write(page_text)

使用浏览器打开 “sogou.html” 文件,可以看到成功爬取:在这里插入图片描述

实现一个简易网页采集器

基于搜狗针对不同的关键字将其对应的页面数据进行爬取

参数动态化:

  • 如果请求的url携带参数,且我们想要将携带的参数进行动态化操作 那么我们必须:
    1. 将携带的动态参数以键值对应形式封装到一个字典中
    2. 将字典作用到get方法的params参数中即可
    3. 需要将原始携带参数中的url中将携带的参数删除

例如:我们搜索 jay,并通过代码来实现:

url=https://www.sogou.com/web?query=jay

在这里插入图片描述
具体代码实现如下:

keyWord = input('enter a key word:')
# 实现参数动态化:
params = {'query': keyWord
}
url = 'https://www.sogou.com/web'
# params参数(字典):保存请求时url携带的参数
response = requests.get(url=url, params=params)# 修改响应数据的编码格式
# encoding返回的是响应数据原始的编码格式,如果给其赋值则表示修改了响应数据的编码格式
response.encoding = 'uft-8'page_text = response.text
fileName = keyWord + '.html'
with open(fileName, 'w', encoding='utf-8') as f:f.write(page_text)
print(fileName, '爬取完毕!!!')

我们来看下结果:

(1)模拟搜狗搜索 jay在这里插入图片描述

(2)代码结果展示
在这里插入图片描述

第二种反爬机制

如上图,我们看到代码运行结果并没有爬取到我们想要的内容。难道是我们代码流程错了吗?

不完全是。

  • 异常的访问请求

    不是浏览器发起的请求都是异常请求
    网站的后台是如何知道请求是不是通过浏览器发起的?
    是通过判定请求的请求头中的user-agent判定的。

    什么是User-Agent:

    请求载体的身份标识

    什么是请求载体:
    浏览器:浏览器的身份标识是统一固定,身份标识可以从抓包工具中获取
    爬虫程序:身份标识是各自不同

  • 第二种反爬机制

    UA检测:网站后台会检测请求对应的User-Agent,以判定的安全请求是否为异常请求

  • 反反爬策略

    • UA伪装

      被作用到了大部分网站中,日后我们写的爬虫程序都默认带上UA检测

    • 伪装流程

      从抓包工具中捕获到某一个基于浏览器请求的User-Agent的值,将其伪装作用到一个字典中,将该字典作用到请求方法(get,post)的headers参数中即可
      在这里插入图片描述

    具体代码实现如下:

    # User-Agent
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
    }keyWord = input('enter a key word:')
    params = {'query': keyWord
    }
    response = requests.get(url=url, params=params, headers=headers)
    response.encoding = 'uft-8'
    page_text = response.text
    fileName = keyWord + '.html'
    with open(fileName, 'w', encoding='utf-8') as f:f.write(page_text)
    print(fileName, '爬取完毕!!!')

    现在就成功完整爬取到了页面!

关注 Python涛哥,学习更多Python知识!

这篇关于Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817403

相关文章

Qt实现对Word网页的读取功能

《Qt实现对Word网页的读取功能》文章介绍了几种在Qt中实现Word文档(.docx/.doc)读写功能的方法,包括基于QAxObject的COM接口调用、DOCX模板替换及跨平台解决方案,重点讨论... 目录1. 核心实现方式2. 基于QAxObject的COM接口调用(Windows专用)2.1 环境

MySQL查看表的历史SQL的几种实现方法

《MySQL查看表的历史SQL的几种实现方法》:本文主要介绍多种查看MySQL表历史SQL的方法,包括通用查询日志、慢查询日志、performance_schema、binlog、第三方工具等,并... 目录mysql 查看某张表的历史SQL1.查看MySQL通用查询日志(需提前开启)2.查看慢查询日志3.

Java实现字符串大小写转换的常用方法

《Java实现字符串大小写转换的常用方法》在Java中,字符串大小写转换是文本处理的核心操作之一,Java提供了多种灵活的方式来实现大小写转换,适用于不同场景和需求,本文将全面解析大小写转换的各种方法... 目录前言核心转换方法1.String类的基础方法2. 考虑区域设置的转换3. 字符级别的转换高级转换

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

Python列表的创建与删除的操作指南

《Python列表的创建与删除的操作指南》列表(list)是Python中最常用、最灵活的内置数据结构之一,它支持动态扩容、混合类型、嵌套结构,几乎无处不在,但你真的会创建和删除列表吗,本文给大家介绍... 目录一、前言二、列表的创建方式1. 字面量语法(最常用)2. 使用list()构造器3. 列表推导式

Python使用Matplotlib和Seaborn绘制常用图表的技巧

《Python使用Matplotlib和Seaborn绘制常用图表的技巧》Python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于Matplotlib和Seaborn,本篇... 目录1. 引言:数据可视化的力量2. 前置知识与环境准备2.1. 必备知识2.2. 安装所需库2.3

MyBatis-Plus逻辑删除实现过程

《MyBatis-Plus逻辑删除实现过程》本文介绍了MyBatis-Plus如何实现逻辑删除功能,包括自动填充字段、配置与实现步骤、常见应用场景,并展示了如何使用remove方法进行逻辑删除,逻辑删... 目录1. 逻辑删除的必要性编程1.1 逻辑删除的定义1.2 逻辑删php除的优点1.3 适用场景2.

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

《C#借助Spire.XLSfor.NET实现在Excel中添加文档属性》在日常的数据处理和项目管理中,Excel文档扮演着举足轻重的角色,本文将深入探讨如何在C#中借助强大的第三方库Spire.... 目录为什么需要程序化添加Excel文档属性使用Spire.XLS for .NET库实现文档属性管理Sp