【python爬虫】邮政包裹物流查询

2024-01-21 03:30

本文主要是介绍【python爬虫】邮政包裹物流查询,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【python爬虫】邮政包裹物流查询

  • 目标网站 ems 邮政快递包裹查询:

https://www.ems.com.cn/

  • 截图

image-20230801214420758

  • 接口预览
    image-20230801215145340

    • getPic请求滑动验证码的背景图片和滑块图片,返回的是base64编码的图片

    • getLogisticsTestFlag发送验证码的验证信息

      image-20230801215455640

      • xpos为滑动的距离,本站没有验证轨迹一说,属于验证码简单的一类
      • waybillNoList为需要查询的单号
    • queryTrack为查询物流的api

    • 请求头的加密参数

      image-20230801215918222

      • tickettime必须校验
      • user-sign没有校验
  • 解决思路

    • 滑动验证码采取ddddocr识别
    • 逆向tickettime请求头参数即可
  • js调试

    image-20230801220459596

    • 上图显示了这两个加密参数的加密逻辑

    • h()跟进去看是MD5

    • p.encode()base64

    • 需要注意的是querytrack那个接口的l参数不一样,如下

      image-20230801220725904

    • 另外,请求前需要获取一个服务器时间,穿插在每次请求前,这个是为了让获取的信息更加实时

  • 代码实现

import requests
import base64
import ddddocr
import hashlib
import json
from loguru import logger
logger.info("技术交流qq群:{}",529528142)
det = ddddocr.DdddOcr(det=False, ocr=False, show_ad=False)
headers = {'authority': 'www.ems.com.cn','accept': 'application/json, text/plain, */*','accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',# 'content-length': '0','origin': 'https://www.ems.com.cn','referer': 'https://www.ems.com.cn/','sec-ch-ua': '"Not/A)Brand";v="99", "Google Chrome";v="115", "Chromium";v="115"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36',
}def query_time():response = requests.post('https://www.ems.com.cn/ems-web/currentTime/queryTime', headers=headers)return response.json()["value"]def getPic():response = requests.post('https://www.ems.com.cn/ems-web/cutPic/getPic', headers=headers).json()return response["value"]["capcode"], response["value"]["backImage"], response["value"]["slidingImage"], \response["value"]["yHeight"]def verify(_ticket, _time, _xpos, _capcode):__headers = {'authority': 'www.ems.com.cn','accept': 'application/json, text/plain, */*','accept-language': 'zh-CN,zh;q=0.9,en;q=0.8','content-type': 'application/json;charset=UTF-8','origin': 'https://www.ems.com.cn','referer': 'https://www.ems.com.cn/','sec-ch-ua': '"Not/A)Brand";v="99", "Google Chrome";v="115", "Chromium";v="115"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','ticket': _ticket,'time': _time,'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36',}json_data = {'value': {'customerIP': '你的ip','phoneNum': '','waybillNoList': [consult_code,],'xpos': _xpos,'capcode': _capcode,},}response = requests.post('https://www.ems.com.cn/ems-web/trackTestQuery/getLogisticsTestFlag', headers=__headers,json=json_data)# print(response.json())if response.json()["success"]:logger.info("验证成功")else:logger.error("验证失败")def ddocr_get_pos(_slide, _bg):_slide_bytes = base64.b64decode(_slide)_bg_bytes = base64.b64decode(_bg)with open('./slide.png', 'wb') as f:f.write(_slide_bytes)with open('./bg.jpg', 'wb') as f:f.write(_bg_bytes)_res = det.slide_match(_slide_bytes, _bg_bytes)return _resdef get_ticket_(_time, _capcode, _type):o = _timen = o[0:3]r = o[3:]l = ""if _type == "verify":l = "1163FA15CC9A425EA4B65B2A218FF5F8"elif _type == "track":l = "053B245CB1B74EBBB5FBB4A5889D66B8"else:passc = _capcodeu = consult_code + n + l + r + cg = hashlib.md5(u.encode('utf-8')).hexdigest().upper()d = hashlib.md5(g.encode('utf-8')).hexdigest().upper()m = base64.b64encode(d.encode('utf-8')).decode('utf-8')return mdef query_track(_ticket, _time, _xpos, _capcode):headers_ = {'authority': 'www.ems.com.cn','accept': 'application/json, text/plain, */*','accept-language': 'zh-CN,zh;q=0.9,en;q=0.8','content-type': 'application/json;charset=UTF-8','origin': 'https://www.ems.com.cn','referer': 'https://www.ems.com.cn/','sec-ch-ua': '"Not/A)Brand";v="99", "Google Chrome";v="115", "Chromium";v="115"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','ticket': _ticket,'time': _time,'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36',}json_data = {'value': [{'ip': '你的ip','xpos': _xpos,'capcode': _capcode,'mailStatus': 'a','orderNum': [consult_code,],'orderType': '1','noRulesNum': [],'appleFlag': None,},],'list': [consult_code,],}response = requests.post('https://www.ems.com.cn/ems-web/mailTrack/queryTrack', headers=headers_, json=json_data)return response.json()if __name__ == "__main__":consult_code = "12121212121"capCode, bg, slide, yheight = getPic()time_ = query_time()xpos_ = ddocr_get_pos(slide, bg)['target'][0] - 3logger.info("ddddocr->{}", xpos_)ticket_ = get_ticket_(_time=str(time_), _capcode=capCode, _type="verify")verify(_ticket=ticket_, _time=str(time_), _xpos=xpos_, _capcode=capCode)time_ = query_time()ticket_ = get_ticket_(_time=str(time_), _capcode=capCode, _type="track")info = query_track(_ticket=ticket_, _time=str(time_), _xpos=xpos_, _capcode=capCode)logger.info(info)
  • 运行截图

image-20230801221156097

time=str(time), _capcode=capCode, _type=“track”)
info = query_track(ticket=ticket, time=str(time), xpos=xpos, _capcode=capCode)
logger.info(info)


- 运行截图[外链图片转存中...(img-ElMgBEOl-1690961672127)]技术交流群:`529528142`

这篇关于【python爬虫】邮政包裹物流查询的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/628237

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专