广西互联网金融平台系列-Scrapy爬虫爬取乐助贷Ajax api数据(无登陆GET)

本文主要是介绍广西互联网金融平台系列-Scrapy爬虫爬取乐助贷Ajax api数据(无登陆GET),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

一、背景

1.在爬取数据的过程中,会遇到很多不同的数据结构,有些是html/css直接输出、有些是JS渲染是数据、有些是JS点击,而有一些则是用Ajax与API通信进行数据的请求。这一次记录的是Ajax与API通信这种类型的数据抓取。

2.这一次的案例是GET请求,非POST,所以轻松一点。

二、目的

1.获取广西某网贷平台标的信息数据--[标的名称、标的收益率、标的期限、标的金额]等信息

2.获取其投资人投资记录信息--[投资人ID、投资人username、投资人投资金额amount]

3.通过Scrapy框架进行数据抓取

三、条件

1.目标接口请求类型为:GET请求2.目标无需登录验证3.目标需要翻页

四、工具

1.Scrapy2.MysqlWorkben3.Json

五、示例

1.简单示例

2.这里不翻页爬

spiders/spider.py中编写具体爬虫逻辑:

import scrapy
from scrapy.http import Request
import json
from urllib import parseclass LezhuSpider(scrapy.Spider):name = 'lezhudai'allowed_domains = ['www.lezhudai.com']start_urls = ["https://www.lezhudai.com/?action=invest_service.get_borrow_list&type=2&repayment_term=0&interest_rate=0&state=2&sort_type=0&repay_type=0&page_index=1"]def parse(self, response):"""将当前API的所有信息拿到并传给detail进行深入爬取简单测试只爬取当前页"""sites = json.loads(response.body_as_unicode())  # 通过json loads解析json数据 并且转换编码lsites = sites['list']for i in range(0,len(lsites)):""" 在循环中获取标的信息,包括标的id/标题/金额/投资收益率/投资期限等 然后根据标的id构造详情页 ,调用parse_detail进行详情页的接口请求"""lid = lsites[i]['id']title = lsites[i]['name']amount = lsites[i]['amount']profit = lsites[i]['annual_rate']terms = lsites[i]['period']print("标的ID=" + lid + ",标的名称=" + title + ",标的金额=" + amount + ",标的收益率" + profit + ",标的期限")yield Request(url="https://www.lezhudai.com/?action=invest_service.get_borrow_invest_log&id=%s&page_index=1" %(lid), callback=self.parse_detail)def parse_detail(self, response):"""根据上面传进来的url 解析投资记录获取投资人投资记录信息 包括[投资人id/投资人用户名/投资人投资金额]记录当前接口url 后期入库进行关联识别"""lsites = json.loads(response.body_as_unicode())  # 解码invest = lsites['list']for i in range(0,len(invest)):target_urls = response.urluserid = invest[i]['user_id']user_name = invest[i]['user_name']amount = invest[i]['amount']print(userid +"->" + user_name + "->" + amount)print(target_urls)

保存运行,即可得到输出结果:

标的信息数据,到网页中对比,数据无误

标的ID=11371,标的名称=乐助分期借款66611779,标的金额=1540000,标的收益率0.12,标的期限24

标的ID=11370,标的名称=乐助分期借款66611778,标的金额=1540000,标的收益率0.12,标的期限24

标的ID=11368,标的名称=乐助分期借款66611774,标的金额=1540000,标的收益率0.12,标的期限24

标的ID=11367,标的名称=乐助分期借款66611771,标的金额=1540000,标的收益率0.12,标的期限24

标的ID=11366,标的名称=乐助分期借款66611770,标的金额=1540000,标的收益率0.12,标的期限24

标的ID=11365,标的名称=乐助分期借款66611769,标的金额=1540000,标的收益率0.12,标的期限24

标的ID=11364,标的名称=乐助分期借款66611768,标的金额=1540000,标的收益率0.12,标的期限24

标的ID=11363,标的名称=乐助分期借款66611767,标的金额=1540000,标的收益率0.12,标的期限24

标的ID=11362,标的名称=乐助分期借款11111766,标的金额=1980000,标的收益率0.12,标的期限24

标的ID=11358,标的名称=乐助分期借款22211762,标的金额=1980000,标的收益率0.12,标的期限24

投资人投资记录信息输出:

86813->138*****239->1980000 https://www.lezhudai.com/?action=invest_service.get_borrow_invest_log&id=11358&page_index=1

40270->185*****884->1980000 https://www.lezhudai.com/?action=invest_service.get_borrow_invest_log&id=11362&page_index=1

67116->139*****756->1540000 https://www.lezhudai.com/?action=invest_service.get_borrow_invest_log&id=11363&page_index=1

……

……

……

然后可以编写Item和对应的数据处理了,比如将金额格式统一float 19800.00元,收益率12%等等操作

再到Pipeline编写入库或者存入文件的操作

转载于:https://my.oschina.net/RanboSpider/blog/1605032

这篇关于广西互联网金融平台系列-Scrapy爬虫爬取乐助贷Ajax api数据(无登陆GET)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/761397

相关文章

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解