本文主要是介绍php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
用php抓取页面,用正则表达式 获取信息,整理到数组中
// 1.抓取目标网站分析,通过 f12 分析加截的js文件及 DOM结构里寻找 信息列表,通常是json数据格式,包括 api接口文件,js文件,以及script 标签中保存的json数据。
// 2. 直接抓取html文档,通过 css 标签 分析数据格式,用正则表达式过滤目标信息,并进行目标数据整理,包括 标签,标题,内容,图片,链接等信息,
// 3 整理获取到的字符串,
实例
header("Content-Type: text/html;charset=utf8");
$url = 'https://www.jd.com/';
$ch = curl_init();
// 创建一个新cURL资源
curl_setopt($ch, CURLOPT_URL, $url);
// 设置URL
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
// 设置超时限制防止死循环
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
// 爬取重定向页面
curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
// 自动设置Referer,防止盗链
// curl_setopt($ch, CURLOPT_POST, 1);
// 发送一个常规的Post请求
// curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
// Post提交的数据包
curl_setopt($ch, CURLOPT_HEADER, 0);
// 显示返回的Header区域内容
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
// 要求结果保存到字符串中还是输出到屏幕上
// 禁用SSL证书的验证,就可以解决HTPPS获取不到的问题
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
// 对认证证书来源的检查
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
// 从证书中检查SSL加密算法是否存在
// curl_setopt($ch, CURLOPT_HTTP_VERSION, CURL_HTTP_VERSION_1_1);
// 默认值,让 cURL 自己判断使用哪个版本。 (强制使用 HTTP/1.1)。
// curl_setopt($ch, CURLOPT_USERAGENT, 'Data');
// 在HTTP请求中包含一个"User-Agent: "头的字符串。
$html = curl_exec($ch);
// 运行cURL,请求URL,把结果复制给变量
if (curl_errno($ch)) {
echo 'Errno' . curl_error($curl);
//捕抓异常
}
curl_close($ch);
// 关闭cURL连接
// 用正则表达式 匹配cate_menu_lk 开头的 信息到数组
$pattem = '/(cate_menu_lk)(.*)(?)/';
preg_match_all($pattem, $html, $match);
// 整理获取到的字符串,
foreach ($match[2] as $v) {
// 获取/后面的内容
$v = strstr($v, '/');
// 去掉 /
$v = ltrim($v, '/');
// 用"> 分割字符串
$v = explode('">', $v);
echo '商品名称:' . $v[1] . '网址:' . $v[0] . '
';
}
运行实例 »
点击 "运行实例" 按钮查看在线实例
这篇关于php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!