python3 爬取斗图啦网站的表情包图片

2023-10-18 17:20

本文主要是介绍python3 爬取斗图啦网站的表情包图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬取斗图啦网的表情包

前一阵子在网易云课堂学习了一些关于爬虫的教程,现在来实践一下,当做练习。本人小白,初学编程,如有错误,望不吝告之,多谢。

本人使用的是python3.6版本,引用里的注释是为了记忆相关爬虫模块的知识,请忽略,
相关代码如下:

from urllib import request
import requests
from bs4 import BeautifulSoup
import os
from urllib.error import URLError
# from urllib.request import ProxyHandler, build_openerheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}def get_imgurl_list(url):req = requests.get(url=url, headers=headers)response = req.textsoup = BeautifulSoup(response, 'lxml')# 找出带有相关class的img标签imgurl_list = soup.find_all('img', attrs={'class':'img-responsive lazy image_dta'})return imgurl_listdef save_imgs(list):for img in list:try:# 获取图片的源地址photo_url = img['data-original']# 给图片命名为 .jpg 或 .giffilename = img['alt'] + photo_url[-4:]# 将图片保存到指定目录path = os.path.join('D:/images', filename)# 开始用request.urlretrieve(photo_url, path)时出现403错误,可能是有反爬虫机制,后改为加上请求头的Requestresp = request.Request(photo_url, headers=headers)data = request.urlopen(resp).read()with open(path, 'wb') as f:f.write(data)except URLError as e:print(e)def main():# 此地址是到‘斗图啦’里的‘最新表情’里得到base_url = 'http://www.doutula.com/photo/list/?page='# 我只爬取了前四页,数字4可以更改for x in range(1, 4):url = base_url + str(x)save_imgs(get_imgurl_list(url))if __name__ == '__main__':main()

如果要爬取大量图片可以改用多线程爬取,相对效率能高一些:

from urllib import request
import requests
from bs4 import BeautifulSoup
import os
# from urllib.request import ProxyHandler, build_opener
from urllib.error import URLError
import threadingBASE_URL = 'http://www.doutula.com/photo/list/?page='
PAGE_URL_LIST = []
FACE_URL_LIST = []for x in range(1, 5):url = BASE_URL + str(x)PAGE_URL_LIST.append(url)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}
gLock = threading.Lock()def get_imgurl_list():while True:gLock.acquire()if len(PAGE_URL_LIST) == 0:gLock.release()breakelse:page_url = PAGE_URL_LIST.pop()gLock.release()req = requests.get(url=page_url, headers=headers)response = req.textsoup = BeautifulSoup(response, 'lxml')# 找出带有相关class的img标签,这里返回数据需要通过迭代或listimgurl_list = soup.find_all('img', attrs={'class':'img-responsive lazy image_dta'})gLock.acquire()for img in imgurl_list:url = img['data-original']FACE_URL_LIST.append(url)gLock.release()def save_imgs():while True:gLock.acquire()if len(FACE_URL_LIST) == 0:gLock.release()continueelse:face_url = FACE_URL_LIST.pop()gLock.release()try:# 这里没有上面代码的命名方法好filename = face_url[-14:]# 将图片保存到指定目录path = os.path.join('D:/images', filename)# 由于斗图啦网有反爬虫,所以需要加上请求头resp = request.Request(face_url, headers=headers)data = request.urlopen(resp).read()with open(path, 'wb') as f:f.write(data)except URLError as e:print(e)def main():# 创建3个线程来获取图片地址for i in range(3):t = threading.Thread(target=get_imgurl_list)t.start()# 创建4个线程来下载图片for i in range(4):t = threading.Thread(target=save_imgs)t.start()if __name__ == '__main__':main()

运行第一个程序后,获得图片 如下, 在使用多线程爬取时,爬取一定图片后,出现了很长的等待时间,我给中断了,可能爬取过快网站采取了相关的反爬虫机制。

继续努力

这篇关于python3 爬取斗图啦网站的表情包图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/234054

相关文章

C#实现添加/替换/提取或删除Excel中的图片

《C#实现添加/替换/提取或删除Excel中的图片》在Excel中插入与数据相关的图片,能将关键数据或信息以更直观的方式呈现出来,使文档更加美观,下面我们来看看如何在C#中实现添加/替换/提取或删除E... 在Excandroidel中插入与数据相关的图片,能将关键数据或信息以更直观的方式呈现出来,使文档更

C#中图片如何自适应pictureBox大小

《C#中图片如何自适应pictureBox大小》文章描述了如何在C#中实现图片自适应pictureBox大小,并展示修改前后的效果,修改步骤包括两步,作者分享了个人经验,希望对大家有所帮助... 目录C#图片自适应pictureBox大小编程修改步骤总结C#图片自适应pictureBox大小上图中“z轴

使用Python将长图片分割为若干张小图片

《使用Python将长图片分割为若干张小图片》这篇文章主要为大家详细介绍了如何使用Python将长图片分割为若干张小图片,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果1. Python需求

Python3中Sanic中间件的使用

《Python3中Sanic中间件的使用》Sanic框架中的中间件是一种强大的工具,本文就来介绍Python3中Sanic中间件的使用,具有一定的参考价值,感兴趣的可以了解一下... 目录Sanic 中间件的工作流程中间件的使用1. 全局中间件2. 路由中间件3. 异常处理中间件4. 异步中间件5. 优先级

使用 Python 和 LabelMe 实现图片验证码的自动标注功能

《使用Python和LabelMe实现图片验证码的自动标注功能》文章介绍了如何使用Python和LabelMe自动标注图片验证码,主要步骤包括图像预处理、OCR识别和生成标注文件,通过结合Pa... 目录使用 python 和 LabelMe 实现图片验证码的自动标注环境准备必备工具安装依赖实现自动标注核心

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

基于C#实现将图片转换为PDF文档

《基于C#实现将图片转换为PDF文档》将图片(JPG、PNG)转换为PDF文件可以帮助我们更好地保存和分享图片,所以本文将介绍如何使用C#将JPG/PNG图片转换为PDF文档,需要的可以参考下... 目录介绍C# 将单张图片转换为PDF文档C# 将多张图片转换到一个PDF文档介绍将图片(JPG、PNG)转

Qt QWidget实现图片旋转动画

《QtQWidget实现图片旋转动画》这篇文章主要为大家详细介绍了如何使用了Qt和QWidget实现图片旋转动画效果,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、效果展示二、源码分享本例程通过QGraphicsView实现svg格式图片旋转。.hpjavascript

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de