从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作

本文主要是介绍从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出。欢迎各位前来交流。(部分材料来源网络,若有侵权,立即删除)
本人博客所有文章纯属学习之用,不涉及商业利益。不合适引用,自当删除!
若被用于非法行为,与我本人无关
仅用于学习交流,若用于商业行为或违法行为,后果自负

学习|实例练手|获取裁判决定网

  • 情况说明
  • 代码分析
  • 代码展示
  • 运行结果
  • 总结

情况说明

  • 最近在学习法律

  • 想了解一系列的案例

  • 但是呢在对应的学习网站一个一个下载会很慢诶

  • 那就结合一下最近学习的内容

  • 在不吃牢饭的前提下,让电脑自己突然抽搐并且开始帮我下载案例文件,省得我一个一个点吧

  • 基于selenium进行了一些自动化操作

  • 主要分为Cookie的获取与用自己的账号模拟登录,然后让浏览器帮我们一个一个点下载的超链接

  • 关于cookies的获取和模拟登录可以看这里

代码分析

  • 库的引用
import time
import json
from selenium import webdriver
  • cookies获取函数
def get_cookies():driver = webdriver.Chrome()url='https://wenshu.court.gov.cn/'driver.get(url)#发送请求#打开之后,手动登录一次time.sleep(3)input('完成登陆后点击enter:')time.sleep(3)dictcookies = driver.get_cookies()  # 获取cookiesjsoncookies = json.dumps(dictcookies)  # 转换成字符串保存with open('cookie.txt', 'w') as f:f.write(jsoncookies)print('cookies保存成功!')driver.close()
  • 携带cookies进行访问网页
def test():driver = webdriver.Chrome()url = 'https://wenshu.court.gov.cn/'driver.get(url)  # 发送请求# 打开之后,手动登录一次time.sleep(3)with open('cookie.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.wenshu.court.gov.cn','name': cookie.get('name'),'value': cookie.get('value'),"expires": '','path': '/','httpOnly': False,'HostOnly': False,'Secure': False}driver.add_cookie(cookie_dict)driver.refresh()  # 刷新网页,才能实现cookie导入
  • 搜索活动
time.sleep(3)what=input("请输入查询关键词:")#输入参数driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').clear()  # 清空搜索框time.sleep(0.5)driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').send_keys("{}".format(what))  # 输入搜索内容time.sleep(0.5)WHAT = driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[3]')WHAT.click()#模拟鼠标动作点击driver.refresh()  # 刷新网页,才能实现cookie导入
  • 循环所有页面,依次定位并点击对应下载的位置
time.sleep(1)#driver.refresh()for i in range(1):for j in range(3,8):WHAT =driver.find_element_by_xpath('//*[@id="_view_1545184311000"]/div[{}]/div[6]/div/a[2]'.format(j))WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(2)input("")driver.refresh()  # 刷新网页,才能实现cookie导入

代码展示

import time
import json
from selenium import webdriverdef get_cookies():driver = webdriver.Chrome()url='https://wenshu.court.gov.cn/'driver.get(url)#发送请求#打开之后,手动登录一次time.sleep(3)input('完成登陆后点击enter:')time.sleep(3)dictcookies = driver.get_cookies()  # 获取cookiesjsoncookies = json.dumps(dictcookies)  # 转换成字符串保存with open('cookie.txt', 'w') as f:f.write(jsoncookies)print('cookies保存成功!')driver.close()def test():driver = webdriver.Chrome()url = 'https://wenshu.court.gov.cn/'driver.get(url)  # 发送请求# 打开之后,手动登录一次time.sleep(3)with open('cookie.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.wenshu.court.gov.cn','name': cookie.get('name'),'value': cookie.get('value'),"expires": '','path': '/','httpOnly': False,'HostOnly': False,'Secure': False}driver.add_cookie(cookie_dict)driver.refresh()  # 刷新网页,才能实现cookie导入#print(cookie_dict)time.sleep(3)what=input("请输入查询关键词:")driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').clear()  # 清空搜索框time.sleep(0.5)driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').send_keys("{}".format(what))  # 输入搜索内容time.sleep(0.5)WHAT = driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[3]')WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(1)#driver.refresh()for i in range(1):for j in range(3,8):WHAT =driver.find_element_by_xpath('//*[@id="_view_1545184311000"]/div[{}]/div[6]/div/a[2]'.format(j))WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(2)input("")driver.refresh()  # 刷新网页,才能实现cookie导入if __name__ == "__main__":#get_cookies()test()

运行结果

在这里插入图片描述
在这里插入图片描述

总结

  • 多使用time.sleep()
  • 然后客观地说,并不属于爬虫,是基于Selenium自动化操作
  • 手动狗头

这篇关于从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/362019

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

springboot security验证码的登录实例

《springbootsecurity验证码的登录实例》:本文主要介绍springbootsecurity验证码的登录实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录前言代码示例引入依赖定义验证码生成器定义获取验证码及认证接口测试获取验证码登录总结前言在spring

java中反射(Reflection)机制举例详解

《java中反射(Reflection)机制举例详解》Java中的反射机制是指Java程序在运行期间可以获取到一个对象的全部信息,:本文主要介绍java中反射(Reflection)机制的相关资料... 目录一、什么是反射?二、反射的用途三、获取Class对象四、Class类型的对象使用场景1五、Class