Queue的多线程爬虫和multiprocessing多进程

2024-03-31 05:28

本文主要是介绍Queue的多线程爬虫和multiprocessing多进程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Queue的模块里面提供了同步的、线程安全的队列类,包括FIFO(先入后出)队列Queue、FIFO(后入先出)LifoQueue和优先队列PriorityQueue。(在上个文件创建了爬取文件)我们使用这个方法来获取,代码如下:

import threading
import requests
import time
import queue as Queuelink_list=[]
with open('alexa.tex','r')as file:file_list=file.readlines()for eachone in file_list:link=eachone.split('\t')[1]link=link.replace('\n','')link_list.append(link)
start=time.time()
class myThread(threading.Thread):def __init__(self,name,q):threading.Thread.__init__(self)self.name=nameself.q=qdef run(self):print('Starting'+self.name)while True:try:crawler(self.name,self.q)except:breakprint('Exiting'+self.name)
def crawler(threadName,q):url=q.get(timeout=2)try:r=requests.get(url,timeout=20)print(q.qsize(),threadName,r.status_code,url)except Exception as e:print(q.qsize(),threadName,url,'Error:',e)aii_list=['Thread-1','Thread-2','Thread-3','Thread-4','Thread-5']workQueue=Queue.Queue(1000)
thread=[]#建立新的线程
for thName in aii_list:thread=myThread(thName,workQueue)thread.start()aii_list.append(thread)#填充列表
for i in link_list:workQueue.put(link_list)#结束线程
for t in thread:thread.join()end=time.time()
print('当前的总时间:',end-start)
print('Exiting')

对象传入myThread中;

thread = myThread(tName,workQueue)

 使用一个for循环来实现:

for url in link_list=:

      work.Queue.put(url)

多进程: 

 使用multiprocess库有两种方法:1.Process+Queue的方法    2.Pool+Queue的方法

我们因先了解计算机的cpu的核心:

from multiprocessing import cpu_count
print(cpu_count())

 然后代码示例:

from multiprocessing import Process,Queue
import requests
import timelink_list=[]
with open('alexa.tex','r')as file:file_list=file.readlines()for eachone in file_list:link=eachone.split('\t')[1]link=link.replace('\n','')link_list.append(link)
start=time.time()
class myProcess(Process):def __init__(self,q):Process.__init__(self)self.q=qdef run(self):print('Starting'+self.name)while True:try:crawler(self.name,self.q)except:breakprint('Exiting'+self.name)
def crawler(q):url=q.get(timeout=2)try:r=requests.get(url,timeout=20)print(q.qsize(),r.status_code,url)except Exception as e:print(q.qsize(),url,'Error:',e)if __name__ == '__main__':ProcessNames=['prcess1','prcess2','prcess3']workQueue=Queue(1000)for url in link_list:workQueue.put(url)for i in range(0,3):p=myProcess(workQueue)p.daemon=Truep.start()p.join()end=time.time()print('当前的总时间:',end-start)print('Exiting')

与多线程相比多进程相比,多进程里面设置了:(当父进程结束后,子进程就会自动被终止)

p.daemon=Ture

 并且multprocessing自带了Queue

这篇关于Queue的多线程爬虫和multiprocessing多进程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/863505

相关文章

C#如何优雅地取消进程的执行之Cancellation详解

《C#如何优雅地取消进程的执行之Cancellation详解》本文介绍了.NET框架中的取消协作模型,包括CancellationToken的使用、取消请求的发送和接收、以及如何处理取消事件... 目录概述与取消线程相关的类型代码举例操作取消vs对象取消监听并响应取消请求轮询监听通过回调注册进行监听使用Wa

C++——stack、queue的实现及deque的介绍

目录 1.stack与queue的实现 1.1stack的实现  1.2 queue的实现 2.重温vector、list、stack、queue的介绍 2.1 STL标准库中stack和queue的底层结构  3.deque的简单介绍 3.1为什么选择deque作为stack和queue的底层默认容器  3.2 STL中对stack与queue的模拟实现 ①stack模拟实现

[Linux]:进程(下)

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:Linux学习 贝蒂的主页:Betty’s blog 1. 进程终止 1.1 进程退出的场景 进程退出只有以下三种情况: 代码运行完毕,结果正确。代码运行完毕,结果不正确。代码异常终止(进程崩溃)。 1.2 进程退出码 在编程中,我们通常认为main函数是代码的入口,但实际上它只是用户级

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

多线程解析报表

假如有这样一个需求,当我们需要解析一个Excel里多个sheet的数据时,可以考虑使用多线程,每个线程解析一个sheet里的数据,等到所有的sheet都解析完之后,程序需要提示解析完成。 Way1 join import java.time.LocalTime;public class Main {public static void main(String[] args) thro

ActiveMQ—Queue与Topic区别

Queue与Topic区别 转自:http://blog.csdn.net/qq_21033663/article/details/52458305 队列(Queue)和主题(Topic)是JMS支持的两种消息传递模型:         1、点对点(point-to-point,简称PTP)Queue消息传递模型:         通过该消息传递模型,一个应用程序(即消息生产者)可以

Java 多线程概述

多线程技术概述   1.线程与进程 进程:内存中运行的应用程序,每个进程都拥有一个独立的内存空间。线程:是进程中的一个执行路径,共享一个内存空间,线程之间可以自由切换、并发执行,一个进程最少有一个线程,线程实际数是在进程基础之上的进一步划分,一个进程启动之后,进程之中的若干执行路径又可以划分成若干个线程 2.线程的调度 分时调度:所有线程轮流使用CPU的使用权,平均分配时间抢占式调度

Java 多线程的基本方式

Java 多线程的基本方式 基础实现两种方式: 通过实现Callable 接口方式(可得到返回值):

java 进程 返回值

实现 Callable 接口 与 Runnable 相比,Callable 可以有返回值,返回值通过 FutureTask 进行封装。 public class MyCallable implements Callable<Integer> {public Integer call() {return 123;}} public static void main(String[] args

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目