python爬虫抓取游民星空每日囧图

2023-12-11 11:30

本文主要是介绍python爬虫抓取游民星空每日囧图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

以前写过一个爬取游民每日囧图的python脚本,现在发现游民改版了,老的脚本不能用了,所以今天又写一个新的

#-*-coding:UTF-8-*-
'''首先在python文件下创建一个叫youmin的文件夹'''
import re
import urllib
import threading
import time
from Tkinter import *
import os
import random



#清除文件夹youmin下面的旧图片,请手动建立该文件夹
for filename in os.listdir('youmin'):
    os.remove(os.path.join( 'youmin', filename ))

src='<img class="picact".*?src="(.*?)"'
detail1='<img class="picact".*?</a><br>(.*?)</p>'
member='<p align="center"><a target="_blank".*?</p>'
titlelist=[]
urllist=[]
img=re.compile(src)
detail=re.compile(detail1)
mem=re.compile(member)
def gethtml(url):
    #获取网页所有源码
    return urllib.urlopen(url).read().decode('UTF-8').replace("\n","")

def getimg(html,s):
    
     #下载图片
    global img
    try:
        memlist=re.findall(mem,html)
        for i in memlist:
            #print i        
            imglist=re.findall(img,i)
            titles=re.findall(detail,i.replace('&nbsp; ','').replace('&nbsp;',''))
            for j in imglist:
                #下载图片
                tit=titles[0] if len(titles)>0 else random.choice(["JGood", "is", "a", "handsome", "boy"])
                urllib.urlretrieve(j,'.\\youmin\\'+str(s)+"--"+tit+j[-4:])
    except:
        
         pass

class getmy(threading.Thread):
     #创建多线程
    def __init__(self,url,begin,end):
        threading.Thread.__init__(self)
        self.url=url
        self.begin = begin
        self.end =end
    def run(self):
        try:
            for i in range(self.begin,self.end+1):
                s=i
                if i==1:
                    i=''
                else:
                    i='_'+str(i)
                murl = self.url[:-6]+str(i)+self.url[-6:]
                #print murl
                getimg(gethtml(murl),s)
        except:
            pass

        
root = Tk()
def printList(event):
    targeturl= urllist[lb.curselection()[0]]
    
    threads =[]
    i=1
    j=5
    #每个线程下载5页,一共下载50页
    for s in range(10):
         threads.append(getmy(targeturl,i,j))
         i+=5
         j+=5
    for t in threads:
         t.start()        
    for t in threads:
         t.join()
   
lb = Listbox(root,width=40,height=20)
lb.bind('<Double-Button-1>',printList)

def getbaseurl():
    
    url='http://www.gamersky.com/ent/'#游民每日图片发布页
    s=urllib.urlopen(url).read()
    urlhtm1='<a class="img1" target="_blank" .*?</a>'#寻找图片发布页网址所在的html区域
    urlhtm2='<a class="img2" target="_blank" .*?</a>'
    herfhtm='http:.*?shtml'#图片发布页网址
    title='<div class="txt">(.*?)</div>'
    urs1=re.compile(urlhtm1)
    urs2=re.compile(urlhtm2)    
   # urs=re.compile(herfhtm)
    urllist1=re.findall(urs1,s)#查找所有最新图片发布页网址
    urllist2=re.findall(urs2,s)
    divlist=urllist1+urllist2
    
    for i in divlist:
        urllist.append(re.search(herfhtm,i).group())
        title1=re.search(title,i).group(1)
        lb.insert(END,title1)
        titlelist.append(title1)
        #print i


getbaseurl()   
lb.pack()

root.mainloop()


列表显示所有页面的标题,双击就可以开启下载,因为用了多线程,下载还是非常快的








这篇关于python爬虫抓取游民星空每日囧图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/480525

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很