php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200

2023-11-08 17:40

本文主要是介绍php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

用php抓取页面,用正则表达式 获取信息,整理到数组中

// 1.抓取目标网站分析,通过 f12 分析加截的js文件及 DOM结构里寻找 信息列表,通常是json数据格式,包括 api接口文件,js文件,以及script 标签中保存的json数据。

// 2. 直接抓取html文档,通过 css 标签 分析数据格式,用正则表达式过滤目标信息,并进行目标数据整理,包括 标签,标题,内容,图片,链接等信息,

// 3 整理获取到的字符串,

实例

header("Content-Type: text/html;charset=utf8");

$url = 'https://www.jd.com/';

$ch = curl_init();

// 创建一个新cURL资源

curl_setopt($ch, CURLOPT_URL, $url);

// 设置URL

curl_setopt($ch, CURLOPT_TIMEOUT, 30);

// 设置超时限制防止死循环

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

// 爬取重定向页面

curl_setopt($ch, CURLOPT_AUTOREFERER, 1);

// 自动设置Referer,防止盗链

// curl_setopt($ch, CURLOPT_POST, 1);

// 发送一个常规的Post请求

// curl_setopt($ch, CURLOPT_POSTFIELDS, $data);

// Post提交的数据包

curl_setopt($ch, CURLOPT_HEADER, 0);

// 显示返回的Header区域内容

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 要求结果保存到字符串中还是输出到屏幕上

// 禁用SSL证书的验证,就可以解决HTPPS获取不到的问题

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);

// 对认证证书来源的检查

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);

// 从证书中检查SSL加密算法是否存在

// curl_setopt($ch, CURLOPT_HTTP_VERSION, CURL_HTTP_VERSION_1_1);

// 默认值,让 cURL 自己判断使用哪个版本。 (强制使用 HTTP/1.1)。

// curl_setopt($ch, CURLOPT_USERAGENT, 'Data');

// 在HTTP请求中包含一个"User-Agent: "头的字符串。

$html = curl_exec($ch);

// 运行cURL,请求URL,把结果复制给变量

if (curl_errno($ch)) {

echo 'Errno' . curl_error($curl);

//捕抓异常

}

curl_close($ch);

// 关闭cURL连接

// 用正则表达式 匹配cate_menu_lk 开头的 信息到数组

$pattem = '/(cate_menu_lk)(.*)(?)/';

preg_match_all($pattem, $html, $match);

// 整理获取到的字符串,

foreach ($match[2] as $v) {

//  获取/后面的内容

$v = strstr($v, '/');

//  去掉 /

$v = ltrim($v, '/');

//  用"> 分割字符串

$v = explode('">', $v);

echo '商品名称:' . $v[1] . '网址:' . $v[0] . '
';

}

运行实例 »

点击 "运行实例" 按钮查看在线实例

200cfae2888e72f27553cf72979956ad.png

这篇关于php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/371448

相关文章

Vue3组件中getCurrentInstance()获取App实例,但是返回null的解决方案

《Vue3组件中getCurrentInstance()获取App实例,但是返回null的解决方案》:本文主要介绍Vue3组件中getCurrentInstance()获取App实例,但是返回nu... 目录vue3组件中getCurrentInstajavascriptnce()获取App实例,但是返回n

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

SpringMVC获取请求参数的方法

《SpringMVC获取请求参数的方法》:本文主要介绍SpringMVC获取请求参数的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下... 目录1、通过ServletAPI获取2、通过控制器方法的形参获取请求参数3、@RequestParam4、@

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法

《golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法》:本文主要介绍golang获取当前时间、时间戳和时间字符串及它们之间的相互转换,本文通过实例代码给大家介绍的非常详细,感兴趣... 目录1、获取当前时间2、获取当前时间戳3、获取当前时间的字符串格式4、它们之间的相互转化上篇文章给大家介

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

C++常见容器获取头元素的方法大全

《C++常见容器获取头元素的方法大全》在C++编程中,容器是存储和管理数据集合的重要工具,不同的容器提供了不同的接口来访问和操作其中的元素,获取容器的头元素(即第一个元素)是常见的操作之一,本文将详细... 目录一、std::vector二、std::list三、std::deque四、std::forwa

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解