python爬虫学习之task1:request应用

2023-10-29 14:40

本文主要是介绍python爬虫学习之task1:request应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

python爬虫学习之task1

  • HTTP
  • 网页基础
    • 1.组成
    • 2.网页结构
  • Request
    • 1.安装
    • 2.七个方法
    • 4.豆瓣电影爬取练习

HTTP

HTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。

通过使用网页浏览器、网络爬虫或者其他工具,客户端可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。这个客户端成为客户代理(user agent)。应答服务器上存储着一些资源码,比如HTML文件和图像。这个应答服务器成为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”,比如代理服务器、网关或者隧道(tunnel)。尽管TCP/IP是互联网最流行的协议,但HTTP中并没有规定必须使用它或它支持的层。

网页基础

1.组成

网页是由 HTML 、 CSS 、JavaScript 组成的。

HTML:整个网页的框架。

CSS:层叠样式表。样式表定义如何显示 HTML 元素,就像 HTML 中的字体标签和颜色属性所起的作用那样。样式通常保存在外部的 .css 文件中。“样式”指网页中文字大小、颜色、元素间距、排列等格式。

JavaScript :实现网页的数据动态交互、网页上的动画。

2.网页结构

创建一个简单的HTML页面,显示“hello python”。

<!DOCTYPE html> 
<!--整个文档是以 DOCTYPE 来开头的--><html lang="en"> 
<!--%整个文档最外层的标签是 <html>-->
<!--HTML 文档一般分为 head 和 body 两个部分--><head>
<!--在 head 头中,一般指定当前的编码格式为 UTF-8 ,并且使用 title 来定义网页的标题,显示在浏览器的标签上--><meta charset="UTF-8"><title>Title</title>
</head><body>
<!--body 中的内容一般为整个 html 文档的正文,html的标签由<h1>到<h6>六个标签构成,字体由大到小递减,
换行标签为<br>,链接使用<a>来创建,herf属性包含链接的URL地址,比如<a href="http://www.baidu.com">
一个指向百度的链接--><div id="container"> <!--id 属性为元素提供在全文档内的唯一标识--><div class="wrapper"> <!--class 属性提供了一种将类似元素分类的方式,常被用于语义化或格式化--><h1>Hello World</h1><div>Hello Python.</div></div></div>
</body>
</html> 
<!--结尾以 </html> 来表示闭和,不强制需要每个标签都一定要有闭和标签-->

在浏览器中打开,显示如下:

在这里插入图片描述

Request

一个网络爬虫程序最普遍的过程:

  1. 访问站点;
  2. 定位所需的信息;
  3. 得到并处理信息。

1.安装

pip install requests

2.七个方法

在这里插入图片描述request.get()用法:
在这里插入图片描述## 3.例子
分别用request.get()和python自带urllib爬取“python之禅”。

import requests
url = 'https://www.python.org/dev/peps/pep-0020/'
res = requests.get(url)
text = res.text
with open('zon_of_python.txt', 'w') as f:f.write(text[text.find('<pre')+28:text.find('</pre>')-1])
print(text[text.find('<pre')+28:text.find('</pre>')-1])
import urllib
url = 'https://www.python.org/dev/peps/pep-0020/'
res = urllib.request.urlopen(url).read().decode('utf-8')
print(res[res.find('<pre')+28:res.find('</pre>')-1])

输出:

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!

用火狐浏览器打开金山词霸,翻译“python之禅”。打开开发者工具的network查看headers和data。

import requestsdef translate(word):url = "http://fy.iciba.com/ajax.php?a=fy"data = {'f': 'auto','t': 'auto','w': word,}headers = {'user-agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:75.0) Gecko/20100101 Firefox/75.0',}  # User-Agent会告诉网站服务器,访问者是通过什么工具来请求的,如果是爬虫请求,一般会拒绝,如果是用户浏览器,就会应答。response = requests.post(url, data=data, headers=headers)  # 发起请求json_data = response.json()  # 获取json数据# print(json_data)return json_datadef run(word):result = translate(word)['content']['out']print(result)return resultdef main():with open('zon_of_python.txt') as f:zh = [run(word) for word in f]with open('zon_of_python_zh-CN.txt', 'w') as g:for i in zh:g.write(i + '\n')if __name__ == '__main__':main()

结果:

美丽胜过丑陋。外显优于内隐..简单胜于复杂。复杂胜于复杂。平比嵌套好..疏而不密..可读性计数。特殊情况不足以打破规则。尽管实用性胜过纯度。错误永远不应该悄悄地过去。
除非有明确的沉默。面对暧昧,拒绝猜测的诱惑..应该有一种----最好只有一种----明显的办法来做到这一点。虽然这种方式一开始可能不明显,除非你是荷兰人。现在总比永远好。
虽然从来没有比现在更好。如果实施很难解释,那是个坏主意。如果实现很容易解释,这可能是个好主意。命名空间是一个伟大的想法-让我们做更多的这些!

4.豆瓣电影爬取练习

爬取豆瓣top250电影名字和海报。
注意:一开始res.status_code = 418,触发了反爬。解决方法:添加header。
代码:

import requests
import redef parase(text):para = re.compile('<img.*?alt.*?src.*?class="">')items = re.findall(para, text)for item in items:yield itemif __name__ == '__main__':headers = {'user-agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:75.0) Gecko/20100101 Firefox/75.0',}page = [0, 25, 50, 75, 100, 125, 150, 175, 200, 225]for num in page:url = 'https://movie.douban.com/top250?start=' + str(num) + '&fliter='print(url)res = requests.get(url,headers = headers)text = res.textprint(res.status_code)information = parase(text)for item in information:film_name = item[item.find('alt=')+4:item.find('src')-2]film_image = item[item.find('src=')+4:item.find('class')-2]print(film_name, film_image)

结果如下:

"肖申克的救赎 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg
"霸王别姬 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2561716440.jpg
"阿甘正传 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1484728154.jpg
"这个杀手不太冷 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p511118051.jpg
"美丽人生 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2578474613.jpg
"泰坦尼克号 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p457760035.jpg
"千与千寻 "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2557573348.jpg
"辛德勒的名单 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p492406163.jpg
"盗梦空间 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p513344864.jpg
"忠犬八公的故事 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p524964016.jpg
"海上钢琴师 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2574551676.jpg
"楚门的世界 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p479682972.jpg
"三傻大闹宝莱坞 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p579729551.jpg
"机器人总动员 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p1461851991.jpg
"放牛班的春天 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p1910824951.jpg
"星际穿越 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2206088801.jpg
"大话西游之大圣娶亲 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2455050536.jpg
"熔炉 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1363250216.jpg
"疯狂动物城 "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2315672647.jpg
"无间道 "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2564556863.jpg
"龙猫 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2540924496.jpg
"教父 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p616779645.jpg
"当幸福来敲门 "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p1312700628.jpg
"怦然心动 "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p501177648.jpg
"触不可及 "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1454261925.jpg
https://movie.douban.com/top250?start=25&fliter=

后面的电影没列出来。注意一点,排行一共有10页,每页网址不同。

这篇关于python爬虫学习之task1:request应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/301335

相关文章

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Python中win32包的安装及常见用途介绍

《Python中win32包的安装及常见用途介绍》在Windows环境下,PythonWin32模块通常随Python安装包一起安装,:本文主要介绍Python中win32包的安装及常见用途的相关... 目录前言主要组件安装方法常见用途1. 操作Windows注册表2. 操作Windows服务3. 窗口操作

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

python常用的正则表达式及作用

《python常用的正则表达式及作用》正则表达式是处理字符串的强大工具,Python通过re模块提供正则表达式支持,本文给大家介绍python常用的正则表达式及作用详解,感兴趣的朋友跟随小编一起看看吧... 目录python常用正则表达式及作用基本匹配模式常用正则表达式示例常用量词边界匹配分组和捕获常用re

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

python删除xml中的w:ascii属性的步骤

《python删除xml中的w:ascii属性的步骤》使用xml.etree.ElementTree删除WordXML中w:ascii属性,需注册命名空间并定位rFonts元素,通过del操作删除属... 可以使用python的XML.etree.ElementTree模块通过以下步骤删除XML中的w:as

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现:从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景:3D 堆叠图

深度解析Python装饰器常见用法与进阶技巧

《深度解析Python装饰器常见用法与进阶技巧》Python装饰器(Decorator)是提升代码可读性与复用性的强大工具,本文将深入解析Python装饰器的原理,常见用法,进阶技巧与最佳实践,希望可... 目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧