php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200

2023-11-08 17:40

本文主要是介绍php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

用php抓取页面,用正则表达式 获取信息,整理到数组中

// 1.抓取目标网站分析,通过 f12 分析加截的js文件及 DOM结构里寻找 信息列表,通常是json数据格式,包括 api接口文件,js文件,以及script 标签中保存的json数据。

// 2. 直接抓取html文档,通过 css 标签 分析数据格式,用正则表达式过滤目标信息,并进行目标数据整理,包括 标签,标题,内容,图片,链接等信息,

// 3 整理获取到的字符串,

实例

header("Content-Type: text/html;charset=utf8");

$url = 'https://www.jd.com/';

$ch = curl_init();

// 创建一个新cURL资源

curl_setopt($ch, CURLOPT_URL, $url);

// 设置URL

curl_setopt($ch, CURLOPT_TIMEOUT, 30);

// 设置超时限制防止死循环

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

// 爬取重定向页面

curl_setopt($ch, CURLOPT_AUTOREFERER, 1);

// 自动设置Referer,防止盗链

// curl_setopt($ch, CURLOPT_POST, 1);

// 发送一个常规的Post请求

// curl_setopt($ch, CURLOPT_POSTFIELDS, $data);

// Post提交的数据包

curl_setopt($ch, CURLOPT_HEADER, 0);

// 显示返回的Header区域内容

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 要求结果保存到字符串中还是输出到屏幕上

// 禁用SSL证书的验证,就可以解决HTPPS获取不到的问题

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);

// 对认证证书来源的检查

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);

// 从证书中检查SSL加密算法是否存在

// curl_setopt($ch, CURLOPT_HTTP_VERSION, CURL_HTTP_VERSION_1_1);

// 默认值,让 cURL 自己判断使用哪个版本。 (强制使用 HTTP/1.1)。

// curl_setopt($ch, CURLOPT_USERAGENT, 'Data');

// 在HTTP请求中包含一个"User-Agent: "头的字符串。

$html = curl_exec($ch);

// 运行cURL,请求URL,把结果复制给变量

if (curl_errno($ch)) {

echo 'Errno' . curl_error($curl);

//捕抓异常

}

curl_close($ch);

// 关闭cURL连接

// 用正则表达式 匹配cate_menu_lk 开头的 信息到数组

$pattem = '/(cate_menu_lk)(.*)(?)/';

preg_match_all($pattem, $html, $match);

// 整理获取到的字符串,

foreach ($match[2] as $v) {

//  获取/后面的内容

$v = strstr($v, '/');

//  去掉 /

$v = ltrim($v, '/');

//  用"> 分割字符串

$v = explode('">', $v);

echo '商品名称:' . $v[1] . '网址:' . $v[0] . '
';

}

运行实例 »

点击 "运行实例" 按钮查看在线实例

200cfae2888e72f27553cf72979956ad.png

这篇关于php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/371448

相关文章

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

MySQL 获取字符串长度及注意事项

《MySQL获取字符串长度及注意事项》本文通过实例代码给大家介绍MySQL获取字符串长度及注意事项,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 获取字符串长度详解 核心长度函数对比⚠️ 六大关键注意事项1. 字符编码决定字节长度2

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

SpringMVC高效获取JavaBean对象指南

《SpringMVC高效获取JavaBean对象指南》SpringMVC通过数据绑定自动将请求参数映射到JavaBean,支持表单、URL及JSON数据,需用@ModelAttribute、@Requ... 目录Spring MVC 获取 JavaBean 对象指南核心机制:数据绑定实现步骤1. 定义 Ja

C++中RAII资源获取即初始化

《C++中RAII资源获取即初始化》RAII通过构造/析构自动管理资源生命周期,确保安全释放,本文就来介绍一下C++中的RAII技术及其应用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、核心原理与机制二、标准库中的RAII实现三、自定义RAII类设计原则四、常见应用场景1. 内存管理2. 文件操

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过

使用Python实现获取屏幕像素颜色值

《使用Python实现获取屏幕像素颜色值》这篇文章主要为大家详细介绍了如何使用Python实现获取屏幕像素颜色值,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、一个小工具,按住F10键,颜色值会跟着显示。完整代码import tkinter as tkimport pyau

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

使用Python获取JS加载的数据的多种实现方法

《使用Python获取JS加载的数据的多种实现方法》在当今的互联网时代,网页数据的动态加载已经成为一种常见的技术手段,许多现代网站通过JavaScript(JS)动态加载内容,这使得传统的静态网页爬取... 目录引言一、动态 网页与js加载数据的原理二、python爬取JS加载数据的方法(一)分析网络请求1