基于广域网的主从分布式爬虫系统

2024-04-01 06:58

本文主要是介绍基于广域网的主从分布式爬虫系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


241133427088097


目的:构造基于广域网的主从分布式爬虫系统,以asp300网站为例,主机用来爬取任务地址,从机在每次任务完成会向主机发送任务请求,由主机分配任务。

原理:

整个爬虫系统分为两块,一块是主机,一块是从机,从机数量不限,视主机的瓶颈压力而定!主机一般只用一台,但如果性能不够或者达到性能瓶颈,那主机就成了限制整个爬虫系统的最大效率的瓶颈,这也就是所谓的“木桶效应”。

如何提高主机效率在本篇文章中不做研究,大家自行探索。


实现工具:

语言:Python

  网址:ASP300.COM

环境:腾讯云学生主机(配置:1GHZ   单核   1G内存)


代码示例:

主机代码:

#coding=gb2312
import urllib2
import urllib
import random
import socket
from bs4 import BeautifulSoup
user_agent = ["User-Agent,Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36","User-Agent,Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50","User-Agent,Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50","User-Agent,Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;","User-Agent,Mozilla/5.0 (Windows NT 6.1; rv,2.0.1) Gecko/20100101 Firefox/4.0.1","User-Agent,Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11","User-Agent, Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)"]def iteration():url_list = []for i in range(1, 100):url = 'http://www.asp300.com/SoftList/27/27_%d.html' % i# 伪造用户身份headers = {'User-Agent': user_agent[random.randint(0, 6)]}  # 随机headersreq = urllib2.Request(url=url, headers=headers)#测试页面是否能丢失try:response = urllib2.urlopen(req)except urllib2.URLError, e:if hasattr(e, 'code') and e.code == 404:continueurl_list.append(url)return url_listdef server(url_list):HOST = ''PORT = 21567BUFSIZ = 1024ADDR = (HOST,PORT)#创建套接字tcpSerSock = socket.socket(socket.AF_INET,socket.SOCK_STREAM)tcpSerSock.bind(ADDR)tcpSerSock.listen(5)while True:#死循环,使主机保持接受从机访问print 'waiting for connection......'tcpCliSock, addr = tcpSerSock.accept()print '...connected from:',addrwhile True:data = tcpCliSock.recv(BUFSIZ)if not data:break#发送任务到从机tcpCliSock.send('%s'%url_list.pop)tcpCliSock.close()tcpSerSock.close()if __name__ == 'main':url_list = iteration()server(url_list)

 

从机代码:

#coding=gb2312
import urllib2
import urllib
import cookielib
import re
from PIL import Image
from bs4 import BeautifulSoup
import socket
import timeclass MyError(Exception):#定义一个错误,留引发passclass IgnoError(Exception):#定义一个错误,留引发passclass RedirctHandler(urllib2.HTTPRedirectHandler):#重构302,301页面处理类"""docstring for RedirctHandler"""def http_error_301(self, req, fp, code, msg, headers):if 'location' in headers:newurl = headers.getheaders('location')[0]elif 'uri' in headers:newurl = headers.getheaders('uri')[0]else:returnreturn newurldef http_error_302(self, req, fp, code, msg, headers):if 'location' in headers:newurl = headers.getheaders('location')[0]elif 'uri' in headers:newurl = headers.getheaders('uri')[0]else:returnreturn newurldef Download(url,headers,num_retries=9):#下载url所指向的页面req = urllib2.Request(url, headers=headers)try:response = urllib2.urlopen(req,timeout=60)the_page = response.read()response.close()except urllib2.URLError,e:if num_retries > 0 and hasattr(e,'code') and (500 <= e.code <600):return Download(url,headers,num_retries - 1)elif hasattr(e, 'code') and (e.code == 404):raise IgnoErrorelse:print 'Download Error:', e.reasonraise MyErrorexcept socket.timeout:if num_retries > 0 :return Download(url, headers, num_retries - 1)raise socket.timeoutreturn the_pagedef resolve(html):#提取源码信息image_url = []soup = BeautifulSoup(html,"lxml")title = unicode(soup.head.title.string)title = re.search('(.*?)_ASP300',title).groups()[0]size = soup.find('div',class_='box').find('div',class_='box_1').find('div',id='goodsInfo').find('div',class_='textInfo').ul.find_all('li')[2].ddsize = unicode(size)size = float(re.search(u'软件大小:(.*?)\D',size).groups()[0])summary_tag = soup.find('div',class_='s')summary_content = unicode(summary_tag).strip()summary_content = summary_content.split('<br/>')summary_content[0] = summary_content[0][15:]del summary_content[len(summary_content)-1]for a,b in enumerate(summary_content):if b == '\n':del summary_content[a]summary_cahe = u''for c in summary_content:summary_cahe += (c + u'<br/>')summary_content = summary_cahefor i in summary_tag.p.find_all('img'):image_url.append('http://www.asp300.com' + i['src'])#获取图片下载地址,放入image_url中,image_url中的元素为str,非unicodereturn title,size,summary_content,image_url#title,summary是unicode,size是float,image_url中的元素均为strdef download_image(name,url,headers,num_tries=9):#下载图片req = urllib2.Request(url=url,headers=headers)try:f = urllib2.urlopen(req,timeout=60)except urllib2.URLError, e:if num_tries > 0 and hasattr(e,'code') and 500 <= e.code <600:return download_image(name,url,headers,num_tries - 1)else:print '下载图片出错:',e.reasonraise MyErrorexcept socket.timeout:if num_tries > 0 :return download_image(name,url,headers,num_tries - 1)raise socket.timeoutimage = open(name,'wb')image.write(f.read())f.close()image.close()def screenshot(name,change,format):# 去除水印im = Image.open(name)w,h = im.sizebox = (0,0,w,h-change)region = im.crop(box)region.save(name,format)def soft_url(url,headers,num_retries=9):#获取软件真实下载地址id = int(re.search('SoftView_(.*?).html',url).groups()[0])url1 = 'http://www.asp300.com/2012dll/Down.jsp?CodeID=%d&id=1'%id#这一步是为了获取商品的ookiecookie = cookielib.CookieJar()handler = urllib2.HTTPCookieProcessor(cookie)opener1 = urllib2.build_opener(handler)req1 = urllib2.Request(url=url1,headers=headers)try:opener1.open(req1,timeout=60)print '%s:获取下载COOKIE成功'%time.ctime()except urllib2.URLError, e:if num_retries > 0 and hasattr(e,'code') and (500 <= e.code <600):return soft_url(url,headers,num_retries - 1)else:print 'SOFT_URL1 Error:', e.reasonraise MyErrorexcept socket.timeout:if num_retries > 0:return soft_url(url, headers, num_retries - 1)raise socket.timeout#cookie获取完毕#这一步是基于上一步的cookie,获取真是下载地址#debug_handler = urllib2.HTTPHandler(debuglevel=1)opener2 = urllib2.build_opener(RedirctHandler,handler)url2 = 'http://www.asp300.com/2012dll/DownBJ.jsp?CodeID=%d'%idreq2 = urllib2.Request(url=url2,headers=headers)try:html = opener2.open(req2,timeout=60)print '%s:获取下载地址成功'%time.ctime()except urllib2.URLError, e:if num_retries > 0 and hasattr(e,'code') and (500 <= e.code <600):return soft_url(url,headers,num_retries - 1)else:print 'SOFT_URL2 Error:', e.reasonraise MyErrorexcept socket.timeout:if num_retries > 0:return soft_url(url, headers, num_retries - 1)raise socket.timeoutreturn htmldef clicent():HOST = ''#这里填主机ip,自己根据情况修改PORT = 21567#这里填主机端口,自己根据情况修改BUFSIZ = 1024ADDR = (HOST,PORT)#创建套接字tcpCliSock = socket.socket(socket.AF_INET,socket.SOCK_STREAM)tcpCliSock.connect(ADDR)data = "ask for task"tcpCliSock.send(data)data = tcpCliSock.recv(BUFSIZ)return datadef main():headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 '}url = clicent()html = Download(url, headers)print '页面下载完成'title, size, summary_content, image_url = resolve(html)print '信息提取完成'id = 0for i in image_url:name = './image/image_cache%d.jpg' % iddownload_image(name, i, headers)print '图片下载完成%d' % idscreenshot(name, 52, 'jpeg')print '图片转换完成'id += 1download_url = soft_url(url, headers)print titleprint sizesummary_content = summary_content.replace(u'\u200b',u'')#unicode特殊字符'\u200b',不能转为gb2312print summary_content,type(summary_content)print summary_content.encode('gb2312')print image_urlprint download_urlif __name__ == '__main__':main()





这篇关于基于广域网的主从分布式爬虫系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/866506

相关文章

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

Redis分布式锁使用及说明

《Redis分布式锁使用及说明》本文总结了Redis和Zookeeper在高可用性和高一致性场景下的应用,并详细介绍了Redis的分布式锁实现方式,包括使用Lua脚本和续期机制,最后,提到了RedLo... 目录Redis分布式锁加锁方式怎么会解错锁?举个小案例吧解锁方式续期总结Redis分布式锁如果追求

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

mysql主从及遇到的问题解决

《mysql主从及遇到的问题解决》本文详细介绍了如何使用Docker配置MySQL主从复制,首先创建了两个文件夹并分别配置了`my.cnf`文件,通过执行脚本启动容器并配置好主从关系,文中还提到了一些... 目录mysql主从及遇到问题解决遇到的问题说明总结mysql主从及遇到问题解决1.基于mysql

TP-LINK/水星和hasivo交换机怎么选? 三款网管交换机系统功能对比

《TP-LINK/水星和hasivo交换机怎么选?三款网管交换机系统功能对比》今天选了三款都是”8+1″的2.5G网管交换机,分别是TP-LINK水星和hasivo交换机,该怎么选呢?这些交换机功... TP-LINK、水星和hasivo这三台交换机都是”8+1″的2.5G网管交换机,我手里的China编程has

基于Qt实现系统主题感知功能

《基于Qt实现系统主题感知功能》在现代桌面应用程序开发中,系统主题感知是一项重要的功能,它使得应用程序能够根据用户的系统主题设置(如深色模式或浅色模式)自动调整其外观,Qt作为一个跨平台的C++图形用... 目录【正文开始】一、使用效果二、系统主题感知助手类(SystemThemeHelper)三、实现细节

CentOS系统使用yum命令报错问题及解决

《CentOS系统使用yum命令报错问题及解决》文章主要讲述了在CentOS系统中使用yum命令时遇到的错误,并提供了个人解决方法,希望对大家有所帮助,并鼓励大家支持脚本之家... 目录Centos系统使用yum命令报错找到文件替换源文件为总结CentOS系统使用yum命令报错http://www.cppc

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,