基于广域网的主从分布式爬虫系统

2024-04-01 06:58

本文主要是介绍基于广域网的主从分布式爬虫系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


241133427088097


目的:构造基于广域网的主从分布式爬虫系统,以asp300网站为例,主机用来爬取任务地址,从机在每次任务完成会向主机发送任务请求,由主机分配任务。

原理:

整个爬虫系统分为两块,一块是主机,一块是从机,从机数量不限,视主机的瓶颈压力而定!主机一般只用一台,但如果性能不够或者达到性能瓶颈,那主机就成了限制整个爬虫系统的最大效率的瓶颈,这也就是所谓的“木桶效应”。

如何提高主机效率在本篇文章中不做研究,大家自行探索。


实现工具:

语言:Python

  网址:ASP300.COM

环境:腾讯云学生主机(配置:1GHZ   单核   1G内存)


代码示例:

主机代码:

#coding=gb2312
import urllib2
import urllib
import random
import socket
from bs4 import BeautifulSoup
user_agent = ["User-Agent,Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36","User-Agent,Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50","User-Agent,Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50","User-Agent,Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;","User-Agent,Mozilla/5.0 (Windows NT 6.1; rv,2.0.1) Gecko/20100101 Firefox/4.0.1","User-Agent,Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11","User-Agent, Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)"]def iteration():url_list = []for i in range(1, 100):url = 'http://www.asp300.com/SoftList/27/27_%d.html' % i# 伪造用户身份headers = {'User-Agent': user_agent[random.randint(0, 6)]}  # 随机headersreq = urllib2.Request(url=url, headers=headers)#测试页面是否能丢失try:response = urllib2.urlopen(req)except urllib2.URLError, e:if hasattr(e, 'code') and e.code == 404:continueurl_list.append(url)return url_listdef server(url_list):HOST = ''PORT = 21567BUFSIZ = 1024ADDR = (HOST,PORT)#创建套接字tcpSerSock = socket.socket(socket.AF_INET,socket.SOCK_STREAM)tcpSerSock.bind(ADDR)tcpSerSock.listen(5)while True:#死循环,使主机保持接受从机访问print 'waiting for connection......'tcpCliSock, addr = tcpSerSock.accept()print '...connected from:',addrwhile True:data = tcpCliSock.recv(BUFSIZ)if not data:break#发送任务到从机tcpCliSock.send('%s'%url_list.pop)tcpCliSock.close()tcpSerSock.close()if __name__ == 'main':url_list = iteration()server(url_list)

 

从机代码:

#coding=gb2312
import urllib2
import urllib
import cookielib
import re
from PIL import Image
from bs4 import BeautifulSoup
import socket
import timeclass MyError(Exception):#定义一个错误,留引发passclass IgnoError(Exception):#定义一个错误,留引发passclass RedirctHandler(urllib2.HTTPRedirectHandler):#重构302,301页面处理类"""docstring for RedirctHandler"""def http_error_301(self, req, fp, code, msg, headers):if 'location' in headers:newurl = headers.getheaders('location')[0]elif 'uri' in headers:newurl = headers.getheaders('uri')[0]else:returnreturn newurldef http_error_302(self, req, fp, code, msg, headers):if 'location' in headers:newurl = headers.getheaders('location')[0]elif 'uri' in headers:newurl = headers.getheaders('uri')[0]else:returnreturn newurldef Download(url,headers,num_retries=9):#下载url所指向的页面req = urllib2.Request(url, headers=headers)try:response = urllib2.urlopen(req,timeout=60)the_page = response.read()response.close()except urllib2.URLError,e:if num_retries > 0 and hasattr(e,'code') and (500 <= e.code <600):return Download(url,headers,num_retries - 1)elif hasattr(e, 'code') and (e.code == 404):raise IgnoErrorelse:print 'Download Error:', e.reasonraise MyErrorexcept socket.timeout:if num_retries > 0 :return Download(url, headers, num_retries - 1)raise socket.timeoutreturn the_pagedef resolve(html):#提取源码信息image_url = []soup = BeautifulSoup(html,"lxml")title = unicode(soup.head.title.string)title = re.search('(.*?)_ASP300',title).groups()[0]size = soup.find('div',class_='box').find('div',class_='box_1').find('div',id='goodsInfo').find('div',class_='textInfo').ul.find_all('li')[2].ddsize = unicode(size)size = float(re.search(u'软件大小:(.*?)\D',size).groups()[0])summary_tag = soup.find('div',class_='s')summary_content = unicode(summary_tag).strip()summary_content = summary_content.split('<br/>')summary_content[0] = summary_content[0][15:]del summary_content[len(summary_content)-1]for a,b in enumerate(summary_content):if b == '\n':del summary_content[a]summary_cahe = u''for c in summary_content:summary_cahe += (c + u'<br/>')summary_content = summary_cahefor i in summary_tag.p.find_all('img'):image_url.append('http://www.asp300.com' + i['src'])#获取图片下载地址,放入image_url中,image_url中的元素为str,非unicodereturn title,size,summary_content,image_url#title,summary是unicode,size是float,image_url中的元素均为strdef download_image(name,url,headers,num_tries=9):#下载图片req = urllib2.Request(url=url,headers=headers)try:f = urllib2.urlopen(req,timeout=60)except urllib2.URLError, e:if num_tries > 0 and hasattr(e,'code') and 500 <= e.code <600:return download_image(name,url,headers,num_tries - 1)else:print '下载图片出错:',e.reasonraise MyErrorexcept socket.timeout:if num_tries > 0 :return download_image(name,url,headers,num_tries - 1)raise socket.timeoutimage = open(name,'wb')image.write(f.read())f.close()image.close()def screenshot(name,change,format):# 去除水印im = Image.open(name)w,h = im.sizebox = (0,0,w,h-change)region = im.crop(box)region.save(name,format)def soft_url(url,headers,num_retries=9):#获取软件真实下载地址id = int(re.search('SoftView_(.*?).html',url).groups()[0])url1 = 'http://www.asp300.com/2012dll/Down.jsp?CodeID=%d&id=1'%id#这一步是为了获取商品的ookiecookie = cookielib.CookieJar()handler = urllib2.HTTPCookieProcessor(cookie)opener1 = urllib2.build_opener(handler)req1 = urllib2.Request(url=url1,headers=headers)try:opener1.open(req1,timeout=60)print '%s:获取下载COOKIE成功'%time.ctime()except urllib2.URLError, e:if num_retries > 0 and hasattr(e,'code') and (500 <= e.code <600):return soft_url(url,headers,num_retries - 1)else:print 'SOFT_URL1 Error:', e.reasonraise MyErrorexcept socket.timeout:if num_retries > 0:return soft_url(url, headers, num_retries - 1)raise socket.timeout#cookie获取完毕#这一步是基于上一步的cookie,获取真是下载地址#debug_handler = urllib2.HTTPHandler(debuglevel=1)opener2 = urllib2.build_opener(RedirctHandler,handler)url2 = 'http://www.asp300.com/2012dll/DownBJ.jsp?CodeID=%d'%idreq2 = urllib2.Request(url=url2,headers=headers)try:html = opener2.open(req2,timeout=60)print '%s:获取下载地址成功'%time.ctime()except urllib2.URLError, e:if num_retries > 0 and hasattr(e,'code') and (500 <= e.code <600):return soft_url(url,headers,num_retries - 1)else:print 'SOFT_URL2 Error:', e.reasonraise MyErrorexcept socket.timeout:if num_retries > 0:return soft_url(url, headers, num_retries - 1)raise socket.timeoutreturn htmldef clicent():HOST = ''#这里填主机ip,自己根据情况修改PORT = 21567#这里填主机端口,自己根据情况修改BUFSIZ = 1024ADDR = (HOST,PORT)#创建套接字tcpCliSock = socket.socket(socket.AF_INET,socket.SOCK_STREAM)tcpCliSock.connect(ADDR)data = "ask for task"tcpCliSock.send(data)data = tcpCliSock.recv(BUFSIZ)return datadef main():headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 '}url = clicent()html = Download(url, headers)print '页面下载完成'title, size, summary_content, image_url = resolve(html)print '信息提取完成'id = 0for i in image_url:name = './image/image_cache%d.jpg' % iddownload_image(name, i, headers)print '图片下载完成%d' % idscreenshot(name, 52, 'jpeg')print '图片转换完成'id += 1download_url = soft_url(url, headers)print titleprint sizesummary_content = summary_content.replace(u'\u200b',u'')#unicode特殊字符'\u200b',不能转为gb2312print summary_content,type(summary_content)print summary_content.encode('gb2312')print image_urlprint download_urlif __name__ == '__main__':main()





这篇关于基于广域网的主从分布式爬虫系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/866506

相关文章

通信系统网络架构_2.广域网网络架构

1.概述          通俗来讲,广域网是将分布于相比局域网络更广区域的计算机设备联接起来的网络。广域网由通信子网于资源子网组成。通信子网可以利用公用分组交换网、卫星通信网和无线分组交换网构建,将分布在不同地区的局域网或计算机系统互连起来,实现资源子网的共享。 2.网络组成          广域网属于多级网络,通常由骨干网、分布网、接入网组成。在网络规模较小时,可仅由骨干网和接入网组成

Eureka高可用注册中心registered-replicas没有分布式注册中心

自己在学习过程中发现,如果Eureka挂掉了,其他的Client就跑不起来了,那既然是商业项目,还是要处理好这个问题,所以决定用《Spring Cloud微服务实战》(PDF版在全栈技术交流群中自行获取)中说的“高可用注册中心”。 一开始我yml的配置是这样的 server:port: 8761eureka:instance:hostname: 127.0.0.1client:fetch-r

Linux系统稳定性的奥秘:探究其背后的机制与哲学

在计算机操作系统的世界里,Linux以其卓越的稳定性和可靠性著称,成为服务器、嵌入式系统乃至个人电脑用户的首选。那么,是什么造就了Linux如此之高的稳定性呢?本文将深入解析Linux系统稳定性的几个关键因素,揭示其背后的技术哲学与实践。 1. 开源协作的力量Linux是一个开源项目,意味着任何人都可以查看、修改和贡献其源代码。这种开放性吸引了全球成千上万的开发者参与到内核的维护与优化中,形成了

Python爬虫-贝壳新房

前言 本文是该专栏的第32篇,后面会持续分享python爬虫干货知识,记得关注。 本文以某房网为例,如下图所示,采集对应城市的新房房源数据。具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。接下来,跟着笔者直接往下看正文详细内容。(附带完整代码) 正文 地址:aHR0cHM6Ly93aC5mYW5nLmtlLmNvbS9sb3VwYW4v 目标:采集对应城市的

PS系统教程25

介绍软件 BR(bridge) PS 配套软件,方便素材整理、管理素材 作用:起到桥梁作用 注意:PS和BR尽量保持版本一致 下载和安装可通过CSDN社区搜索,有免费安装指导。 安装之后,我们打开照片只需双击照片,就自动在Ps软件中打开。 前提:电脑上有PS软件 三种预览格式 全屏预览 评星级 直接按数字键就可以 方向键可以更换图片 esc退出 幻灯片放

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

[分布式网络通讯框架]----Zookeeper客户端基本操作----ls、get、create、set、delete

Zookeeper数据结构 zk客户端常用命令 进入客户端 在bin目录下输入./zkCli.sh 查看根目录下数据ls / 注意:要查看哪一个节点,必须把路径写全 查看节点数据信息 get /第一行代码数据,没有的话表示没有数据 创建节点create /sl 20 /sl为节点的路径,20为节点的数据 注意,不能跨越创建,也就是说,创建sl2的时候,必须确保sl

Django 路由系统详解

Django 路由系统详解 引言 Django 是一个高级 Python Web 框架,它鼓励快速开发和干净、实用的设计。在 Django 中,路由系统是其核心组件之一,负责将用户的请求映射到相应的视图函数或类。本文将深入探讨 Django 的路由系统,包括其工作原理、配置方式以及高级功能。 目录 路由基础URL 映射路由参数命名空间URL 反向解析路由分发include 路由路由修饰符自

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

OSG数学基础:坐标系统

坐标系是一个精确定位对象位置的框架,所有的图形变换都是基于一定的坐标系进行的。三维坐标系总体上可以分为两大类:左手坐标系和右手坐标系。常用的坐标系:世界坐标系、物体坐标系和摄像机坐标系。 世界坐标系 世界坐标系是一个特殊的坐标系,它建立了描述其他坐标系所需要的参考框架。从另一方面说,能够用世界坐标系来描述其他坐标系的位置,而不能用更大的、外部的坐标系来描述世界坐标系。世界坐标系也被广泛地