【PyCharm】从零到一:Python爬虫实战教程,小白、绕过反爬虫机制、实战案例全解析

本文主要是介绍【PyCharm】从零到一:Python爬虫实战教程,小白、绕过反爬虫机制、实战案例全解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 一、使用的工具
  • 二、安装必要的库
  • 三、编写程序
    • 1.引入库
    • 2.发送GET请求
    • 3.绕过反爬虫机制
    • 4.解析HTML内容
    • 5.输出需要的内容
  • 四、完整源码
  • 总结


前言

爬虫(Web Crawler)是一种自动浏览万维网并从中收集信息的程序。它们常被用于搜索引擎、数据分析、市场研究等领域。在本文中,我将通过一个简单的Python爬虫实例(获取豆瓣评分前250的电影名称)来演示如何从一个网页中抓取数据。

正如标题所说,本文的关键词为:从零到一、小白、绕过反爬虫机制、实战案例全解析。本文的实战案例也是很多人入门的第一个案例,希望能够帮助到第一次接触爬虫的你。


一、使用的工具

本文使用的工具为:PyCharm 2024.1.5 (Community Edition) 。

工具的安装可以参考这篇博客:【Python、PyCharm】介绍与安装 。

二、安装必要的库

  • 在PyCharm的控制台终端界面输入“ pip install requests beautifulsoup4 ”命令,如图:
    安装库

三、编写程序

1.引入库

  • 因为需要使用Python的requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML内容。

代码如下(示例):

import requests
from bs4 import BeautifulSoup

2.发送GET请求

  • 本文使用的案例目标链接为:https://movie.douban.com/top250
    代码如下(示例):
response = requests.get("https://movie.douban.com/top250")
print(response.status_code)

输出如下(示例):

418

3.绕过反爬虫机制

  • 因为返回的状态码为“418”,418是一个HTTP协议的状态码,也被称为“I’m a teapot”(我是一个茶壶)。状态码418用于表示服务器拒绝为客户端做出请求,因为服务器被认为是一个茶壶,无法为客户端泡茶。这实际上是一种隐喻,用于嘲讽那些滥用HTTP协议或向不适合的服务器发送请求的行为。
  • 通过定义请求头绕过。
    代码如下(示例):
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0"
}
response = requests.get("https://movie.douban.com/top250",headers=headers)

输出如下(示例):

200

4.解析HTML内容

  • 使用BeautifulSoup解析HTML内容。
    代码如下(示例):
html = response.text
soup = BeautifulSoup(html,"html.parser")

5.输出需要的内容

  • 通过观察HTML的具体内容,编写程序筛选目标内容。以下得到的结果为前25的电影名。
    代码如下(示例):
all_titles = soup.findAll("span",attrs={"class": "title"})
for title in all_titles:title_string = title.stringif '/' not in title_string:print(title_string)

输出如下(示例):

肖申克的救赎
霸王别姬
阿甘正传
泰坦尼克号
千与千寻
这个杀手不太冷
美丽人生
星际穿越
盗梦空间
楚门的世界
辛德勒的名单
忠犬八公的故事
海上钢琴师
三傻大闹宝莱坞
放牛班的春天
机器人总动员
疯狂动物城
无间道
控方证人
大话西游之大圣娶亲
熔炉
教父
触不可及
当幸福来敲门
寻梦环游记

四、完整源码

代码如下(示例):

import requests
from bs4 import BeautifulSoup# 请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0"
}for start_num in range(0, 250, 25):# 向目标网页的URL发送HTTP GET请求response = requests.get(f"https://movie.douban.com/top250?start={start_num}", headers=headers)# 确保请求成功if response.status_code == 200:html = response.text# 使用BeautifulSoup解析HTML内容soup = BeautifulSoup(html, "html.parser")# 查找所有标题(<span>),提取"class"属性为"title"的元素all_titles = soup.findAll("span", attrs={"class": "title"})for title in all_titles:title_string = title.stringif '/' not in title_string:print(title_string)else:print("请求失败,状态码:", response.status_code)

输出如下(示例):

肖申克的救赎
霸王别姬
阿甘正传
泰坦尼克号
千与千寻
这个杀手不太冷
美丽人生
星际穿越
盗梦空间
楚门的世界
辛德勒的名单
忠犬八公的故事
海上钢琴师
三傻大闹宝莱坞
放牛班的春天
机器人总动员
疯狂动物城
无间道
控方证人
大话西游之大圣娶亲
熔炉
教父
触不可及
当幸福来敲门
寻梦环游记
末代皇帝
龙猫
怦然心动
哈利·波特与魔法石
活着
蝙蝠侠:黑暗骑士
指环王3:王者无敌
我不是药神
乱世佳人
飞屋环游记
素媛
哈尔的移动城堡
十二怒汉
让子弹飞
何以为家
海蒂和爷爷
猫鼠游戏
摔跤吧!爸爸
天空之城
鬼子来了
少年派的奇幻漂流
钢琴家
指环王2:双塔奇兵
大话西游之月光宝盒
闻香识女人
死亡诗社
绿皮书
大闹天宫
罗马假日
黑客帝国
指环王1:护戒使者
天堂电影院
教父2
狮子王
辩护人
饮食男女
搏击俱乐部
本杰明·巴顿奇事
美丽心灵
穿条纹睡衣的男孩
窃听风暴
情书
两杆大烟枪
音乐之声
西西里的美丽传说
看不见的客人
哈利·波特与死亡圣器()
阿凡达
拯救大兵瑞恩
功夫
小鞋子
飞越疯人院
沉默的羔羊
布达佩斯大饭店
哈利·波特与阿兹卡班的囚徒
蝴蝶效应
禁闭岛
致命魔术
心灵捕手
超脱
低俗小说
摩登时代
春光乍泄
喜剧之王
海豚湾
致命ID
美国往事
杀人回忆
哈利·波特与密室
红辣椒
加勒比海盗
一一
七宗罪
狩猎
唐伯虎点秋香
7号房的礼物
蝙蝠侠:黑暗骑士崛起
被嫌弃的松子的一生
甜蜜蜜
爱在黎明破晓前
第六感
超能陆战队
请以你的名字呼唤我
重庆森林
入殓师
断背山
寄生虫
剪刀手爱德华
幽灵公主
爱在日落黄昏时
勇敢的心
菊次郎的夏天
借东西的小人阿莉埃蒂
未麻的部屋
消失的爱人
无人知晓
时空恋旅人
完美的世界
阳光灿烂的日子
倩女幽魂
哈利·波特与火焰杯
小森林 夏秋篇
天使爱美丽
茶馆
侧耳倾听
驯龙高手
教父3
新世界
怪兽电力公司
幸福终点站
一个叫欧维的男人决定去死
玩具总动员3
傲慢与偏见
小森林 冬春篇
头脑特工队
被解救的姜戈
萤火之森
色,戒
釜山行
神偷奶爸
九品芝麻官
哪吒闹海
告白
喜宴
玛丽和马克思
大鱼
模仿游戏
头号玩家
花样年华
射雕英雄传之东成西就
七武士
我是山姆
惊魂记
血战钢锯岭
阳光姐妹淘
恐怖直播
你的名字。
黑客帝国3:矩阵革命
三块广告牌
心迷宫
电锯惊魂
达拉斯买家俱乐部
疯狂原始人
小丑
谍影重重3
心灵奇旅
背靠背,脸对脸
上帝之城
绿里奇迹
英雄本色
风之谷
爱在午夜降临前
海街日记
纵横四海
疯狂的石头
卢旺达饭店
无间道2
2001太空漫游
雨中曲
记忆碎片
小偷家族
无敌破坏王
岁月神偷
忠犬八公物语
荒蛮故事
冰川时代
牯岭街少年杀人事件
恐怖游轮
爆裂鼓手
魔女宅急便
东京教父
大佛普拉斯
贫民窟的百万富翁
遗愿清单
末路狂花
东邪西毒
你看起来好像很好吃
可可西里
源代码
城市之光
疯狂的麦克斯4:狂暴之路
海边的曼彻斯特
黑天鹅
波西米亚狂想曲
真爱至上
爱乐之城
芙蓉镇
青蛇
雨人
高山下的花环
初恋这件小事
终结者2:审判日
人工智能
虎口脱险
恋恋笔记本
花束般的恋爱
无耻混蛋
新龙门客栈
罗生门
崖上的波妞
千钧一发
哈利·波特与死亡圣器()
彗星来的那一夜
白日梦想家
萤火虫之墓
黑客帝国2:重装上阵
奇迹男孩
火星救援
二十二
大红灯笼高高挂
战争之王
哈利·波特与凤凰社
血钻
步履不停
千年女优
谍影重重2
房间
魂断蓝桥
蜘蛛侠:平行宇宙
弱点
谍影重重
阿飞正传
朗读者
隐藏人物
再次出发之纽约遇见你

总结

以上,就是第一次爬虫实例的所有内容。本文仅为初步探讨,旨在抛砖引玉,非常期待读者们能够分享看法和见解,再次感谢您的观看,再见。

这篇关于【PyCharm】从零到一:Python爬虫实战教程,小白、绕过反爬虫机制、实战案例全解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1098078

相关文章

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》:本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig(自定义资源权限规则

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

java中反射(Reflection)机制举例详解

《java中反射(Reflection)机制举例详解》Java中的反射机制是指Java程序在运行期间可以获取到一个对象的全部信息,:本文主要介绍java中反射(Reflection)机制的相关资料... 目录一、什么是反射?二、反射的用途三、获取Class对象四、Class类型的对象使用场景1五、Class

MySQL Workbench 安装教程(保姆级)

《MySQLWorkbench安装教程(保姆级)》MySQLWorkbench是一款强大的数据库设计和管理工具,本文主要介绍了MySQLWorkbench安装教程,文中通过图文介绍的非常详细,对大... 目录前言:详细步骤:一、检查安装的数据库版本二、在官网下载对应的mysql Workbench版本,要是

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步