PHP——爬虫DOM解析

2024-06-22 12:52
文章标签 php dom 爬虫 解析

本文主要是介绍PHP——爬虫DOM解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景

php在爬取网页信息的时候,有一些函数可以使用。
这里介绍两个

  • DOMDocument
  • DOMXPath
代码解析
<?php
// 示例HTML
$html = '<!DOCTYPE html>
<html><head><meta charset="UTF-8"><title>Example</title></head><body><div><p>Hello World!</p><p xx="test_custom_key" k="test_multi_key">this is a test 中文</p><a href="#xxx_link">Link</a><p id="xxx_p">Link</p><a href="#xxx_link——2">Link</a><a href="#xxx_link_%E4%B8%AD%E6%96%87%E9%93%BE%E6%8E%A5">Link</a></div><div id="custom_div_id"><p id="xxx">Another paragraph</p><a href="#">Another link</a><div>second empty div</div><div id="custom_div_id"><p>second div paragraph</p></div></div></body>
</html>';function printDomNode($paragraph){echo "----\nNode: ".$paragraph->nodeValue . "\n";echo "all attr: \n";for ($i = 0; $i < $paragraph->attributes->length; $i++) {$attr = $paragraph->attributes->item($i);echo "\t".$attr->nodeName . ': ' . $attr->nodeValue . "\n";}
}// 创建DOMDocument实例并加载HTML
$dom = new DOMDocument();
@$dom->loadHTML($html);// 创建DOMXPath实例
$xpath = new DOMXPath($dom);echo "----------------------------\n";
// 示例1:查找所有<p>元素
$paragraphs = $xpath->query('//p');
foreach ($paragraphs as $paragraph) {echo "----\nNode----------: ".$paragraph->nodeValue . "\n";echo "id attr: ".$paragraph->getAttribute('id') . "\n";echo "all attr: \n";for ($i = 0; $i < $paragraph->attributes->length; $i++) {$attr = $paragraph->attributes->item($i);echo "\t".$attr->nodeName . ': ' . $attr->nodeValue . "\n";}echo "=foreach=\n";foreach ($paragraph->attributes as $attr) {echo "\t".$attr->name . ': ' . $attr->value . "\n";echo "\t".$attr->nodeName . ': ' . $attr->nodeValue . "\n";}}echo "----------------------------\n";
$paragraphs = $xpath->query('//p[@xx="test_custom_key"]');
foreach ($paragraphs as $paragraph) {printDomNode($paragraph);
}echo "----------------------------\n";
// 示例2:查找包含特定文本的<a>元素
$links = $xpath->query('//a[text()="Link"]');
//$links = $xpath->query('//*[text()="Link"]'); //不限制a标签,会找到所有值是Link的节点
foreach ($links as $link) {$herf = $link->getAttribute('href');echo "origin: ".$herf . "\n";echo "decode: ".urldecode($herf) . "\n";
}//如果找到指定路径下面的节点
echo "----------------------------指定路径下的p节点\n";
$paragraphs = $xpath->query('//div[@id="custom_div_id"]//p[@id="xxx"]');
foreach ($paragraphs as $paragraph) {printDomNode($paragraph);
}echo "----------------------------\n";
// 示例3:查找<div>元素内的所有节点(这个会找到所有子节点,包括节点里面的节点)
$divChildren = $xpath->query('//div/*');
foreach ($divChildren as $child) {
//    echo $child->nodeName . ": " . $child->nodeValue . "\n";printDomNode($paragraph);
}?>

示例:比如获取一个html文档中的p标签

  • 步骤
    • 获取网页html
      • 这里省略了请求url。如果需要从url获取html:$html = file_get_contents($url);
    • 将html文件构建成DOM树结构
    • 使用DOMXPath类来查找指定的元素节点
      • 构建DOMXPath类实例
      • 使用query函数查询
        • 如果找所有p标签,那么会遍历整个树,把所有的p标签找出来
        • 如何找指定属性的p标签:p[@xx="test_custom_key"]
          • 这里的xx是自定义的属性
          • 这里的@表示选择节点的属性
        • 如何找到指定路径下的节点
          • //div[@id="custom_div_id"]//p[@id="xxx"]

这篇关于PHP——爬虫DOM解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1084344

相关文章

解析 XML 和 INI

XML 1.TinyXML库 TinyXML是一个C++的XML解析库  使用介绍: https://www.cnblogs.com/mythou/archive/2011/11/27/2265169.html    使用的时候,只要把 tinyxml.h、tinystr.h、tinystr.cpp、tinyxml.cpp、tinyxmlerror.cpp、tinyxmlparser.

JavaWeb系列二十: jQuery的DOM操作 下

jQuery的DOM操作 CSS-DOM操作多选框案例页面加载完毕触发方法作业布置jQuery获取选中复选框的值jQuery控制checkbox被选中jQuery控制(全选/全不选/反选)jQuery动态添加删除用户 CSS-DOM操作 获取和设置元素的样式属性: css()获取和设置元素透明度: opacity属性获取和设置元素高度, 宽度: height(), widt

tf.split()函数解析

API原型(TensorFlow 1.8.0): tf.split(     value,     num_or_size_splits,     axis=0,     num=None,     name='split' ) 这个函数是用来切割张量的。输入切割的张量和参数,返回切割的结果。  value传入的就是需要切割的张量。  这个函数有两种切割的方式: 以三个维度的张量为例,比如说一

Python爬虫-贝壳新房

前言 本文是该专栏的第32篇,后面会持续分享python爬虫干货知识,记得关注。 本文以某房网为例,如下图所示,采集对应城市的新房房源数据。具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。接下来,跟着笔者直接往下看正文详细内容。(附带完整代码) 正文 地址:aHR0cHM6Ly93aC5mYW5nLmtlLmNvbS9sb3VwYW4v 目标:采集对应城市的

陀螺仪LSM6DSV16X与AI集成(8)----MotionFX库解析空间坐标

陀螺仪LSM6DSV16X与AI集成.8--MotionFX库解析空间坐标 概述视频教学样品申请源码下载开启CRC串口设置开启X-CUBE-MEMS1设置加速度和角速度量程速率选择设置FIFO速率设置FIFO时间戳批处理速率配置过滤链初始化定义MotionFX文件卡尔曼滤波算法主程序执行流程lsm6dsv16x_motion_fx_determin欧拉角简介演示 概述 本文将探讨

【文末附gpt升级秘笈】腾讯元宝AI搜索解析能力升级:千万字超长文处理的新里程碑

腾讯元宝AI搜索解析能力升级:千万字超长文处理的新里程碑 一、引言 随着人工智能技术的飞速发展,自然语言处理(NLP)和机器学习(ML)在各行各业的应用日益广泛。其中,AI搜索解析能力作为信息检索和知识抽取的核心技术,受到了广泛的关注和研究。腾讯作为互联网行业的领军企业,其在AI领域的探索和创新一直走在前列。近日,腾讯旗下的AI大模型应用——腾讯元宝,迎来了1.1.7版本的升级,新版本在AI搜

PHP的基本语法有哪些?

PHP的基本语法包括以下几个方面: PHP标记:PHP脚本以<?php开始,以?>结束。这是PHP文件的默认文件扩展名是.php。 变量和常量:变量以$符号开头,其后是变量的名称。常量使用define()函数定义,例如define("常量名", 常量值);。 数据类型:PHP支持多种数据类型,如整型、浮点型、字符串型等。 注释:PHP支持单行注释(用//表示)和多行注释(用/* */表示

消息认证码解析

1. 什么是消息认证码         消息认证码(Message Authentication Code)是一种确认完整性并进行认证的技术,取三个单词的首字母,简称为MAC。         消息认证码的输入包括任意长度的消息和一个发送者与接收者之间共享的密钥,它可以输出固定长度的数据,这个数据称为MAC值。         根据任意长度的消息输出固定长度的数据,这一点和单向散列函数很类似

问题1,PE文件转到内存中出现解析PE不正确的问题

1,使用fopen(FileName, “r”) r的方式读取文件到内存,此时就可能存在问题了,r以只读方式,有时候不表示字符的有可能就不读了,那么内存中就不会是完整的原始文件。所以此时要采用rb,二进制读取的方式。 bool ReadFileToMem(char* FileName, char**buf) { FILE* f; f = fopen(FileName, “rb”); if

php json_encode 大括号中括号

当array是一个从0开始的连续数组时,json_encode出来的结果是一个由[]括起来的字符串。 而当array是不从0开始或者不连续的数组时,json_encode出来的结果是一个由{}括起来的key-value模式的字符串。 当字符串为[1,1,1] 这种模式时,json_decode默认解析出来的结果是一个数组。 当字符串为{"1":1,"2":1} 这种模式时,json_