裁判文书网2019年9月份最新爬虫

2024-01-01 06:32

本文主要是介绍裁判文书网2019年9月份最新爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文书网在9月份终于更新了,上去看了一下,无比的流畅。秉持着一颗探索,天真的童心看看文书网这次更新有啥突破和进展,一言不合直接打开开发者工具,仔细寻找了一番,看到了一个可疑的连接,定睛一看,wc,参数这么多,加入参数,最后的返回值内竟然没有自己想要的文本内容,到底怎么弄!!!,可能很多小伙伴看到这里就开始怀疑自己了,这是啥玩意嘛,弄得这么复杂,还能不能愉快的玩耍了!在这里插入图片描述
可是没办法嘛,我们要紧跟时代的步伐,慢慢来。经过一两个小时,调试js,终于拨开云雾,海阔天空。下面我们一一来分析这些参数。
1、pageid 其实这个参数我们可以猜想,可能是根据页数,通过某个加密函数进行加密,可是当我进行调试的时候,发现在改变页数的同时,他是不发生改变的。所以上面猜想失败。我全局搜索了一下pageid,出现很多,其中一个函数他尤其的亮眼,是他,是他,就是他,人群中最亮的仔。
pageid
其实观察源码发现,他是传入一个数,循环32次,每次输出一个16进制的数组成,没有什么难度。
2、s8 表示案件类型,05代表的是国家赔偿与司法救助案件,这些在wenshulist1.js这个js内全都有标注,可以自己去看(可以自己修改)
3、sortFields表示按照法院层级降序排列(可以自己修改)
4、ciphertext 这个参数其实也很好找,全局搜索
ciphertext
可以简单看下逻辑,前面几行都比较简单,重点是在 var enc这边,这边用到了一个DES3加密,也是这次更新可能唯一的难点,传入三个参数加密后,再经过strTobinary函数处理,就能得到该参数,DES3加密的函数在下方:
在这里插入图片描述
大约稍微那么一丢丢能看得懂,其实看不懂也没关系,python执行js就好了。
5、pagenum 当前的页数
6、querycondition 将之前那个转成字典再转化成列表就好了
7、cfg 固定参数
8、__RequestVerificationToken 唯一标致,也是一次获取后,后面也可以不发生改变,全局搜索下,是由这边生成的

function random(size){var str = "",arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'];for(var i=0; i<size; i++){str += arr[Math.round(Math.random() * (arr.length-1))];}return str;}

以上所有参数都基本上有逻辑能够写出来了,但是得到这些参数成功请求后,网站的作者还设置了一道坎,就是他会返回两个值,一个result,一个secretkey(还真是秘密钥匙),将这两个参数再进行一次DES3解码就能得到json数据了。其实整体看下来,没有以前难,甚至还有那么一丢丢小简单,下面就贴下代码,大家参考就好。

# coding=utf-8
import requests
import time
import execjs
import base64
import json
from pprint import pprint
from Cryptodome.Cipher import DES3
from Cryptodome.Util.Padding import unpad, pad
"""
2019年9月份文书网spider更新,简单看了下文书网更新过后的加密方式,整体比以前简单不少,
总结起来大概就是ciphertext这个参数是变化的,其他的基本上不会改变,传入data获取数据后,会有一个
DES3解密,其他的好像没什么难点(有可能没遇到坑),就大概写个逻辑脚本,需要完善
"""# ----------------------------------自定义函数-------------------------------------------# 获取ciphertext参数
def get_cipher():with open ("c:\\Users\\包子xia\\Desktop\\file\\cipher.js",encoding='utf-8') as f:js = f.read()ctx =execjs.compile(js)cipher = ctx.call("cipher")return cipher# 获取DES解密后的返回值
def get_result(result,secretKey,date):des3 = DES3.new(key=secretKey.encode(), mode=DES3.MODE_CBC, iv=date.encode())decrypted_data = des3.decrypt(base64.b64decode(result))plain_text = unpad(decrypted_data, DES3.block_size).decode()return plain_text# 获取__RequestVerificationToken参数
def get_token():js = """ function random(size){var str = "",arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'];for(var i=0; i<size; i++){str += arr[Math.round(Math.random() * (arr.length-1))];}return str;}"""ctx = execjs.compile(js)result = ctx.call("random", "24")return result# 获取pageid
def get_pageid():js = """function happy() {var guid = "";for (var i = 1; i <= 32; i++) {var n = Math.floor(Math.random() * 16.0).toString(16);guid += n;// if ((i == 8) || (i == 12) || (i == 16) || (i == 20)) guid +=// "-";}return guid;}"""ctx = execjs.compile(js)pageid = ctx.call("happy")return pageid#-------------------------------自定义函数结束-----------------------------------------class wenshu(object):def __init__(self):self.session = requests.Session()self.headers = {"Cookie":"SESSION=f25ce583-7609-43ba-bb12-a0f3cdb15515","Host":"wenshu.court.gov.cn","Origin":"http://wenshu.court.gov.cn","User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",}def get_docid(self):"""文书列表页"""url = "http://wenshu.court.gov.cn/website/parse/rest.q4w"data = {"s8": "04","pageId": "%s" % get_pageid(),"sortFields": "s50:desc",  # 按照法院层级降序排列"ciphertext": "%s" % get_cipher(),"pageNum": "1","pageSize": "5","queryCondition": '[{"key":"s8","value":"04"}]',  # 这边可以自定义选择,04表示行政案件"cfg": "com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@queryDoc","__RequestVerificationToken": "%s" % get_token()}response = self.session.post(url, data=data,headers=self.headers)json_value = json.loads(response.text)secretKey = json_value["secretKey"]result = json_value["result"]data = json.loads(get_result(result, secretKey, time.strftime("%Y%m%d")))for key in data["queryResult"]["resultList"]:rowkey = key["rowkey"]self.detail_page(rowkey)def detail_page(self,docid):"""文书详情页"""url = "http://wenshu.court.gov.cn/website/parse/rest.q4w"data = {"docId": "%s" % docid,"ciphertext": get_cipher(),"cfg": "com.lawyee.judge.dc.parse.dto.SearchDataDsoDTO@docInfoSearch","__RequestVerificationToken": "%s" % get_token(),}response = self.session.post(url, data=data,headers=self.headers)json_value = json.loads(response.text)secretKey = json_value["secretKey"]result = json_value["result"]data = json.loads(get_result(result, secretKey, time.strftime("%Y%m%d")))pprint(data)if __name__ == '__main__':demo = wenshu()demo.get_docid()

结果
上面有一个js文件,我是用pyexecjs执行的,就不贴出来。本项目也是自己出于兴趣,想解析下看看。也是希望大家对网站手下留情,速度慢一点,温柔一点,这样对大家都好。

在此声明,如需转载,请标注来源。本文章也是记录自己的技术实践,绝无破坏网站运行的想法,如若被他人用于商业用途,与本人无关。同时欢迎访问个人博客主页… …

这篇关于裁判文书网2019年9月份最新爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/558400

相关文章

查看Oracle数据库中UNDO表空间的使用情况(最新推荐)

《查看Oracle数据库中UNDO表空间的使用情况(最新推荐)》Oracle数据库中查看UNDO表空间使用情况的4种方法:DBA_TABLESPACES和DBA_DATA_FILES提供基本信息,V$... 目录1. 通过 DBjavascriptA_TABLESPACES 和 DBA_DATA_FILES

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

OpenManus本地部署实战亲测有效完全免费(最新推荐)

《OpenManus本地部署实战亲测有效完全免费(最新推荐)》文章介绍了如何在本地部署OpenManus大语言模型,包括环境搭建、LLM编程接口配置和测试步骤,本文给大家讲解的非常详细,感兴趣的朋友一... 目录1.概况2.环境搭建2.1安装miniconda或者anaconda2.2 LLM编程接口配置2

Mysql中InnoDB与MyISAM索引差异详解(最新整理)

《Mysql中InnoDB与MyISAM索引差异详解(最新整理)》InnoDB和MyISAM在索引实现和特性上有差异,包括聚集索引、非聚集索引、事务支持、并发控制、覆盖索引、主键约束、外键支持和物理存... 目录1. 索引类型与数据存储方式InnoDBMyISAM2. 事务与并发控制InnoDBMyISAM

Redis 内存淘汰策略深度解析(最新推荐)

《Redis内存淘汰策略深度解析(最新推荐)》本文详细探讨了Redis的内存淘汰策略、实现原理、适用场景及最佳实践,介绍了八种内存淘汰策略,包括noeviction、LRU、LFU、TTL、Rand... 目录一、 内存淘汰策略概述二、内存淘汰策略详解2.1 ​noeviction(不淘汰)​2.2 ​LR

StarRocks索引详解(最新整理)

《StarRocks索引详解(最新整理)》StarRocks支持多种索引类型,包括主键索引、前缀索引、Bitmap索引和Bloomfilter索引,这些索引类型适用于不同场景,如唯一性约束、减少索引空... 目录1. 主键索引(Primary Key Index)2. 前缀索引(Prefix Index /

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Java中实现订单超时自动取消功能(最新推荐)

《Java中实现订单超时自动取消功能(最新推荐)》本文介绍了Java中实现订单超时自动取消功能的几种方法,包括定时任务、JDK延迟队列、Redis过期监听、Redisson分布式延迟队列、Rocket... 目录1、定时任务2、JDK延迟队列 DelayQueue(1)定义实现Delayed接口的实体类 (

SpringBoot中整合RabbitMQ(测试+部署上线最新完整)的过程

《SpringBoot中整合RabbitMQ(测试+部署上线最新完整)的过程》本文详细介绍了如何在虚拟机和宝塔面板中安装RabbitMQ,并使用Java代码实现消息的发送和接收,通过异步通讯,可以优化... 目录一、RabbitMQ安装二、启动RabbitMQ三、javascript编写Java代码1、引入