洗礼灵魂,修炼python(60)--爬虫篇—httplib2模块

2024-01-31 13:50

本文主要是介绍洗礼灵魂,修炼python(60)--爬虫篇—httplib2模块,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

这里先要补充一下,Python3自带两个用于和HTTP web 服务交互的标准库(内置模块)

  • http.client 是HTTP协议的底层库
  • urllib.request 建立在http.client之上一个抽象层,它为访问HTTP和FTP服务器提供一个标准的API,可以自动跟随HTTP重定向并处理一些常见形式的HTTP 认证

httplib2

1.简介

httplib2是一个第三方的开源库。它比python3中的http.client更完整的实现了HTTP协议,同时比urllib.request提供了更好的抽象。

前面说的httplib,功能已经够全够实用了对吧,为什么还要用httplib2或者说为什么还要有httplib2?这个问题,我想你会立即联想到urllib和urllib2模块的关系。

答案也和urllib和urllib2一样,功能有补充,有提升。

 

httplib2是第三方模块,所以需要先安装再使用

 

 

有哪些很显著的特点呢?

 

1).支持HTTP 1.1的 Keep-Alive特性,能够在同一个socket连接里使用并发的httprequest

2).支持的认证方式

  • Basic(基础)
  • Digest(摘要)
  • WSSE(WS-Security,Web服务安全)
  • HMAC Digest(Hash-based message authentication code,利用哈希算法,以一个密钥和一个消息为输入,生成一个消息摘要作为输出)
  • Google Account Authentication(谷歌式账户认证)

当然一般Basic和Digest就够用了。

如果觉得保密性不够,那最好用HTTPS,这个防火墙也无法根据内容过滤

3).支持Cache(缓存)

是的,缓存是很多机制都必有的功能,如果http的库没有包含http本身支持的缓存就太可惜了。

如下就能创建一个带有缓存的HTTP对象test,缓存则存储在当前环境的“.cache"目录下:

注意httplib2.Http,Http,首字母大写

import httplib2
test = httplib2.Http(".cache")

4).支持所有HTTP请求方法:即在GET和POST基础上,还支持DELETE和CONNECT

5).自动通过”GET“方法,重定向状态码为3XX的返回值

6).支持deflate和gzip的压缩格式

 很多网页其实都用的gzip的压缩格式压缩网页源代码,减少浏览器加载时间,这样可以更加快速的打开网页,相对来说,deflate倒是很少见

7).支持最后修改时间检查

8).支持ETag(实体标签)

9).支持永久重定向。不仅会告诉你永久重定向,还会在本地记录,并且在发送请求前自动重写为重定向后的URL

 

2.方法/属性

 

 其实你有没有发现,httplib2和httplib模块等的都会带有其他标准库,比如上面截图里的urllib,time,copy等,还带有模块httplib,所以它的功能才那么多,可以简单的测试一下:

发现urllib的路径正好就是默认的urllib标准库,还有sys,time等的显示的都属于built-in,这个单词不用多说,我想你应该知道这就是内置模块的意思。

所以像这种第三方库,因为代码已经设置好了可以直接用标准库的方法,所以功能才那么强大,完全可以替代标准库

3.常用方法/属性解析

 httplib2模块和urllib3的地位一样尴尬,虽然它也是第三方库,但是用的其实也不多,网上的资料也少,而其方法和属性,上面的截取你应该看到了,基本链接的python自己的标准库。

httplib2.Http()会创建一个类对象,同前面的一样,自己去联想了。

 

 

httplib2.Http()

 

 

1.httplib2.Http()的常用实例:

1)首先httplib2.Http()最常用例:

# -*- coding:gb2312 -*-
import httplib2
html=httplib2.Http() print html.request('http://www.baidu.com')

 

 

 

 

 结果是报文头部信息+百度首页源代码组合成的元组,所以你也可以把上面的第四行改为【headers,content = html.request('http://www.baidu.com/') 】分别把头部和百度首页源代码取出来。

 

 

2):带cache的访问:

 

# -*- coding:gb2312 -*-
import httplib2
html=httplib2.Http('.cache') #默认在当前主py目录下创建名为.cache的文件夹 print html.request('http://www.baidu.com')

 

结果,我电脑里当前目录下多了个.cache目录

 

 

打开目录:

 

发现这就是刚才访问百度网页得到的缓存,用记事本打开:

 

发现里面的内容就同前面的一样,是http头部信息和百度首页的源代码。

 

 

2.httplib2.Http()的常用方法

 

1).Http.add_credentials:

  • 增加授权用户名和密码,httplib2自动会通过解析repond:Http.add_credentials(name, password[, domain=None]) 
  • 增加ssl的证书信息

2).Http.request(url[, method="GET", body=None, headers=None, redirections=DEFAULT_MAX_REDIRECTS, connection_type=None])

  • method:默认是"GET"
  • redirections:指定其他header和最大自动重定向次数(默认是5),并不能无限重定向
  • connection_type:连接类型
  • (其他参数相信你通过前面的学习都很清楚了,不用再说了)

 

例1:测试httplib2是否能支持https

 

# -*- coding:gb2312 -*-
import httplib2
html=httplib2.Http('.cache')
html.add_credentials('name','password')
reponse,cont=html.request('https://www.baidu.com','GET',headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0','content-type':'text/plain','Accept': 'text/plain'})
print reponse
print '---------------------------------------------------'
print cont

 

结果是,程序还是正常的的运行并爬取到百度首页的代码以及报文头部信息。

例2:域名重定向

注意:这里说个题外话,也是必须要说的。下面这个网站是我好不容易找到的,是一个私人网站,没有百度企业网站服务器那么经搞,大家尽量不要去测试,看我给的测试和结果就好了,毕竟是一个私人网站,如果你把别人网站服务器搞崩了就不太好了(我测试的前后这网站可是可以正常登录的,并没有给人搞崩),你知道httplib2模块可以实现域名重定向就可以了。还有我们现在写的爬虫都算一般的,别以为你用代理ip或者隐藏头部信息就真的匿名了,真要找你是找得到的。

 

# -*- coding:gb2312 -*-
import httplib2
html=httplib2.Http('.cache')
html.add_credentials('name','password')
reponse,cont=html.request('http://www.freedom1024.com','GET',headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0','content-type':'text/plain','Accept': 'text/plain'})
print reponse
print '---------------------------------------------------'
print cont

 

结果:

用浏览器打开测试看看:

 

确实是这个链接,完美(/斜眼笑)

 更多的相关功能就你自己去发现吧,我看到还有人用httplib2登录网页版的QQ等的。自己下去研究了。

 

免责声明

本博文只是为了分享技术和共同学习为目的,并不出于商业目的和用途,也不希望用于商业用途,特此声明。如果内容中测试的贵站的站长有异议,请联系我立即删除

 

转载于:https://www.cnblogs.com/Eeyhan/p/7786802.html

这篇关于洗礼灵魂,修炼python(60)--爬虫篇—httplib2模块的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/663986

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专