本文主要是介绍豆瓣个人信息的爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
通过scrapy框架模拟登陆豆瓣并进入个人信息页面
# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import urllib.requestclass DbSpider(scrapy.Spider):name = 'db'allowed_domains = ['douban.com']hearder={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}#start_urls = ('http://douban.com/',)#开始的请求信息def start_requests(self):print("进入开始爬取")return [Request("https://www.douban.com/login",meta={"cookiejar":1},callback=self.parse)]def parse(self, response):print("进入parse方法")#验证码的判断captcha=response.xpath('//*[@id="captcha_image"]/@src').extract()print(captcha)print("验证码长度",len(captcha))if len(captcha)>0:
这篇关于豆瓣个人信息的爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!