爬虫 访问 重试

2024-08-31 21:08
文章标签 访问 爬虫 重试

本文主要是介绍爬虫 访问 重试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

不知道为啥,以前一直好好的,现在访问链接经常报错,所以加了错误重试

# coding:utf-8
import requests
import http.cookiejar
import re
import sys
import smtplib
import time
from email.mime.text import MIMETextretries1=30
_to = "xxxxxxx@360.cn"class SendQqMail:def getqqmail(self, retries):_user = "xxxxxxxx@qq.com"_pwd = "xxxxxxxxxxxxxxxxx"msg = MIMEText(listitem1)msg["Subject"] = listitem1msg["From"] = _usermsg["To"] = _totry:s = smtplib.SMTP_SSL("smtp.qq.com", 465)s.login(_user, _pwd)s.sendmail(_user, _to, msg.as_string())s.quit()print "Send QQ Email Success!"except smtplib.SMTPException, e:print "retry.QQ mail..............." % eif retries > 0:return self.getqqmail(retries - 1)else:print "Send QQ Email Falied,%s" % eclass Send163Mail:def get163mail(self, retries):_user = "xxxxxxxxxxxxxx@163.com"_pwd = "xxxxxxxxxxxxxxxxxxxxx"msg = MIMEText(listitem1)msg["Subject"] = listitem1msg["From"] = _usermsg["To"] = _totry:s = smtplib.SMTP_SSL("smtp.163.com", 465)s.login(_user, _pwd)s.sendmail(_user, _to, msg.as_string())s.quit()print "Send 163 Email Success!"except smtplib.SMTPException, e:print "retry.163mail..............." % eif retries > 0:return self.get163mail(retries - 1)else:print "Send 163 Email Falied,%s" % eclass Urlrequest:def get(self, retries):try:purposurl1 = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'resp1 = session.get(purposurl1, headers=headers, allow_redirects=False)buffer1 = str(resp1.text)getarticlelist1 = re.compile(r'<td style="overflow:hidden;word-break:break-all;word-wrap:break-word;"\s*([\S\s]*?)\s*</td>')pagemsg1 = re.findall(getarticlelist1, buffer1)except Exception, what:#print what, reqif retries > 0:return self.get(retries - 1)else:print 'visit url Failed',return pagemsg1headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:48.0) Gecko/20100101 Firefox/48.0'}
filename = 'cookie'# 建立一个会话,可以把同一用户的不同请求联系起来;直到会话结束都会自动处理cookies
session = requests.Session()
# 建立LWPCookieJar实例,可以存Set-Cookie3类型的文件。
session.cookies = http.cookiejar.LWPCookieJar(filename)
# 若本地有cookie则不用再post数据了
try:session.cookies.load(filename=filename, ignore_discard=True)print ('load local cookies successed')
except:print('Cookies load failed!')print('attemptting to login...')
url = 'https://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
data = {'user': 'zhangkun-s','passwd': 'zk584807419360!!!','ref': 'http:xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx','tag': '','src': 'qihoo'}
result = session.post(url, data=data, headers=headers)
# 保存cookie到本地
session.cookies.save(ignore_discard=True, ignore_expires=True)reload(sys)
sys.setdefaultencoding("utf-8")get_url = 'http://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
# allow_redirects=False 禁止重定向
resp = session.get(get_url, headers=headers, allow_redirects=False)purposurl = 'http://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
resp = session.get(purposurl, headers=headers, allow_redirects=False)
buffer = str(resp.text)
getarticlelist = re.compile(r'<td style="overflow:hidden;word-break:break-all;word-wrap:break-word;"\s*([\S\s]*?)\s*</td>')
pagemsg = re.findall(getarticlelist,buffer)
print ('system boot successed')
while True:time.sleep(60)buff = Urlrequest()pagemsg1 = buff.get(retries1)for listitem1 in pagemsg1:if listitem1 in pagemsg:passelse:if '[fix_error]' in listitem1 or '[init_error]' in listitem1 or '[exit_unexpect]' in listitem1 or '[android]' in listitem1 or '[FIX_ERROR]' in listitem1 or '[INIT_ERROR]' in listitem1 or '[EXIT_UNEXPECT]' in listitem1 or '[ANDROID]' in listitem1:pagemsg.append(listitem1)else:pagemsg.append(listitem1)try:print 'find a new feedback'qqsendmailer = SendQqMail()time.sleep(5)qqsendmailer.getqqmail(10)except:print "QQ mail try five times fail,change 163mail"neteasysendmailer = Send163Mail()time.sleep(5)neteasysendmailer.get163mail(10)

这篇关于爬虫 访问 重试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1124991

相关文章

使用Dify访问mysql数据库详细代码示例

《使用Dify访问mysql数据库详细代码示例》:本文主要介绍使用Dify访问mysql数据库的相关资料,并详细讲解了如何在本地搭建数据库访问服务,使用ngrok暴露到公网,并创建知识库、数据库访... 1、在本地搭建数据库访问的服务,并使用ngrok暴露到公网。#sql_tools.pyfrom

Javascript访问Promise对象返回值的操作方法

《Javascript访问Promise对象返回值的操作方法》这篇文章介绍了如何在JavaScript中使用Promise对象来处理异步操作,通过使用fetch()方法和Promise对象,我们可以从... 目录在Javascript中,什么是Promise1- then() 链式操作2- 在之后的代码中使

如何使用Docker部署FTP和Nginx并通过HTTP访问FTP里的文件

《如何使用Docker部署FTP和Nginx并通过HTTP访问FTP里的文件》本文介绍了如何使用Docker部署FTP服务器和Nginx,并通过HTTP访问FTP中的文件,通过将FTP数据目录挂载到N... 目录docker部署FTP和Nginx并通过HTTP访问FTP里的文件1. 部署 FTP 服务器 (

Nginx之upstream被动式重试机制的实现

《Nginx之upstream被动式重试机制的实现》本文主要介绍了Nginx之upstream被动式重试机制的实现,可以通过proxy_next_upstream来自定义配置,具有一定的参考价值,感兴... 目录默认错误选择定义错误指令配置proxy_next_upstreamproxy_next_upst

Spring Retry 实现乐观锁重试实践记录

《SpringRetry实现乐观锁重试实践记录》本文介绍了在秒杀商品SKU表中使用乐观锁和MybatisPlus配置乐观锁的方法,并分析了测试环境和生产环境的隔离级别对乐观锁的影响,通过简单验证,... 目录一、场景分析 二、简单验证 2.1、可重复读 2.2、读已提交 三、最佳实践 3.1、配置重试模板

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

本地搭建DeepSeek-R1、WebUI的完整过程及访问

《本地搭建DeepSeek-R1、WebUI的完整过程及访问》:本文主要介绍本地搭建DeepSeek-R1、WebUI的完整过程及访问的相关资料,DeepSeek-R1是一个开源的人工智能平台,主... 目录背景       搭建准备基础概念搭建过程访问对话测试总结背景       最近几年,人工智能技术

Ollama整合open-webui的步骤及访问

《Ollama整合open-webui的步骤及访问》:本文主要介绍如何通过源码方式安装OpenWebUI,并详细说明了安装步骤、环境要求以及第一次使用时的账号注册和模型选择过程,需要的朋友可以参考... 目录安装环境要求步骤访问选择PjrIUE模型开始对话总结 安装官方安装地址:https://docs.

解读静态资源访问static-locations和static-path-pattern

《解读静态资源访问static-locations和static-path-pattern》本文主要介绍了SpringBoot中静态资源的配置和访问方式,包括静态资源的默认前缀、默认地址、目录结构、访... 目录静态资源访问static-locations和static-path-pattern静态资源配置

Java访问修饰符public、private、protected及默认访问权限详解

《Java访问修饰符public、private、protected及默认访问权限详解》:本文主要介绍Java访问修饰符public、private、protected及默认访问权限的相关资料,每... 目录前言1. public 访问修饰符特点:示例:适用场景:2. private 访问修饰符特点:示例: