PHP 采集网页内容

2024-03-30 01:48
文章标签 php 采集 网页内容

本文主要是介绍PHP 采集网页内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. phpQuery的用法

include 'phpQuery.php'; 
phpQuery::newDocumentFile('http://www.phper.org.cn'); 
echo pq("title")->text();   // 获取网页标题
echo pq("div#header")->html();  // 获取id为header的div的html内容

上例中第一行引入phpQuery.php文件,

第二行通过newDocumentFile加载一个文件,

第三行通过pq()函数获取title标签的文本内容,

第四行获取id为header的div标签所包含的HTML内容。

主要做了两个动作,即加载文件和读取文件内容。

1.1 载入文档

phpQuery::newDocument( html, contentType = null)
根据标记URL新建一个文档。如果 contentType,,text/htmlutf8phpQuery::newDocumentFile( file, $contentType = null)
根据文件新建一个文档。类似于newDocument()

phpQuery::newDocumentHTML( html, charset = ‘utf-8’)
phpQuery::newDocumentXHTML( html, charset = ‘utf-8’)
phpQuery::newDocumentXML( html, charset = ‘utf-8’)
phpQuery::newDocumentPHP( html, contentType = null)
phpQuery::newDocumentFileHTML( file, charset = ‘utf-8’)
phpQuery::newDocumentFileXHTML( file, charset = ‘utf-8’)
phpQuery::newDocumentFileXML( file, charset = ‘utf-8’)
phpQuery::newDocumentFilePHP( file, contentType)

1.2 pq()函数用法

pq()函数的用法是phpQuery的重点,主要分两部分:即选择器和过滤器

【选择器】
要了解phpQuery选择器的用法,建议先了解jQuery的语法
最常用的语法包括有:
pq(‘#id’):即以#号开头的ID选择器,用于选择已知ID的容器所包括的内容
pq(‘.classname’):即以.开头的class选择器,用于选择class匹配的容器内容
pq(‘parent > child’):选择指定层次结构的容器内容,如:pq(‘.main > p’)用于选择class=main容器的所有p标签
更多的语法请参考jQuery手册

【过滤器】
主要包括::first,:last,:not,:even,:odd,:eq(index),:gt(index),:lt(index),:header,:animated等
如:
pq(‘p:last’):用于选择最后一个p标签
pq(‘tr:even’):用于选择表格中偶然行

1.2.1 pq(); 相当于 jQuery的$();。它主要完成三件事情:

  1. 载入标记资源:
输入到载入的文档: 
对于最开始输入的字符串不接收文本类型的节点:pq('<div/>')$pq->getDocumentID()根据ID载入到文档: pq('<div/>', $pq->getDocumentID())
根据DOM节点的归属将同样的文档载入:pq('<div/>', DOMNode)
从phpQuery 对象载入文档: pq('<div/>', $pq)
  1. 运行查询
// 根据最后一个选择的文档执行查询:pq('div.myClass')
// 根据$pq->getDocumentID()的ID从文档中进行查询:pq('div.myClass', $pq->getDocumentID())
// 在同样的文档上根据DOM节点的归属进行查询并且使用节点作为查询的根节点:pq('div.myClass', DOMNode)
// 在文档上使用phpQuery对象进行查询
// 同时使用对象的栈作为根节点进行查询: pq('div.myClass', $pq) 
  1. 使用phpQuery对象对DOM节点进行原型化操作
    foreach(pq(‘li’) as li)// li是纯DOM节点, 将它变为phpQuery对象: pq($li);

选择器
选择器是类似于jQuery接口的一个核心。大多数CSS3语法已经被采用(和jQuery保持同步)。

示例
pq(“.class ul > li[rel=’foo’]:first:has(a)”)->appendTo(‘.append-target-wrapper div’)->…

基础
#id 根据给定的ID属性匹配单个元素。
element 根据给定的名称匹配所有符合的元素。
.class 根据给定的class匹配所有的元素。
* 选择所有元素。
selector1, selector2, selectorN 根据所有制定的选择器匹配结合结果。层级 
ancestor descendant 匹配由先祖指定的元素的后代指定的所有后代元素。
parent > child 匹配由父元素指定的子元素指定的所有子元素。
prev + next 根据指定的"next"和指定的"prev"匹配所有的下一个元素。
prev ~ siblings 匹配根据"prev" 元素的 所有相邻元素。基础过滤 
:first匹配第一个被选择的元素。
:last 匹配最后一个被选择的元素。
:not(selector) 匹配所有不是被选择的元素。
:even 匹配所有被选择的偶数元素,0索引。
:odd 匹配所有被选择的奇数元素,0索引。
:eq(index) 匹配等同于给定的索引的元素。
:gt(index) 匹配大于给定的索引的元素。
:lt(index) 匹配小于给定的索引的元素。
:header 匹配所有header元素,如h1,h2,h3等。
:animated 匹配正在进行动画效果的元素。文本过滤 
:contains(text) 匹配包含指定文本的元素。
:empty 匹配所有无子节点的元素(包括文本节点)。
:has(selector) 匹配至少包含一个对于给定选择器的元素。
:parent 匹配所有父元素 - 拥有子元素的,包括文本。属性过滤 
[attribute] 匹配给定属性的元素。
[attribute=value] 匹配给定属性等于确定值的元素。
[attribute!=value] 匹配给定属性不等于确定值的元素。
[attribute^=value] 匹配给定属性是确定值开始的元素。
[attribute$=value] 匹配给定属性是确定值结尾的元素。
[attribute*=value] 匹配给定属性包含确定值的元素。
[selector1selector2selectorN] 匹配给定属性并且包含确定值的元素。子元素过滤 
:nth-child(index/even/odd/equation) 匹配所有是父元素的第n个的子元素,或者是父元素的偶数或者奇数子元素。:first-child 匹配所有是父元素的第一个的子元素。
:last-child 匹配所有是父元素的最后一个的子元素。
:only-child 匹配所有是父元素唯一子元素的子元素。表单 
:input 匹配input, textarea, select和button元素。
:text 匹配所有类型为text的input元素。
:password 匹配所有类型为password的input元素。
:radio 匹配所有类型为radio的input元素。
:checkbox 匹配所有类型为checkbox的input元素。
:submit 匹配所有类型为submit的input元素。
:image 匹配所有类型为image的input元素。
:reset 匹配所有类型为reset的input元素。
:button 匹配所有类型为button的input元素和button元素。
:file 匹配所有类型为file的input元素。
:hidden 匹配所有类型为hidden的input元素或者其他hidden元素。表单过滤 
:enabled 匹配所有可用元素。
:disabled 匹配所有不可用元素。
:checked 匹配所有被勾选的元素。
:selected 匹配所有被选择的元素。
方法示例
pq('a')->attr('href', 'newVal')->removeClass('className')->html('newHtml')->...Attr
attr($name) 访问第一个给名称的元素的属性。这个方法可以很轻易地取得第一个匹配到的元素的属性值。如果这个元素没有对应名称的属性则返回undefined。attr($properties) 对于所有匹配到的元素设置对应属性。
attr($key, $value) 对于匹配到的元素设置一个属性和对应值。
attr($key, $fn) 对于匹配到的元素设置一个属性和需要计算的值。
removeAttr($name) 对匹配到的元素移除给定名称的属性。Class
addClass($class) 对匹配到的元素添加一个给定的类。
hasClass($class) 如果有至少一个匹配到的元素包含给定的类则返回true。
removeClass($class) 对匹配到的元素移除给定名称的类。
toggleClass($class) 对匹配到的元素,如果类不存在则添加,如果存在则移除。HTML
html() 获取第一个匹配到的元素的html内容(innerHTML)。这个方法不适用于XML文本(但适用于XHTML。)
html($val) 对匹配到的元素设置html内容。这个方法不适用于XML文本(但适用于XHTML。)Text 
text() 获取匹配到的所有元素的文本内容。
text($val) 对匹配到的所有元素设置文本内容。Value 
val() 获取匹配到的第一个元素的value属性的值。
val($val) 对匹配到的元素设置value值。
val($val) 所有的Checks, selects, radio buttons, checkboxes,和select options都会设置相应给定的值。

@ 采集代理ip

require_once(dirname(__FILE__).'/include/phpQuery.class.php');
/*** 采集代理IP*/
for($i=1;$i<=3;$i++){$fetchIpUrl = 'http://www.xicidaili.com/nn/'.$i;phpQuery::newDocumentFile($fetchIpUrl);$ipstr        = pq("tr");foreach($ipstr as $key=>$iplist) {$ip = trim(pq($iplist)->find('td:eq(1)')->text());if($ip){$ipArr[] = $ip;$portArr[] = trim(pq($iplist)->find('td:eq(2)')->text());}}
}
echo "<pre>";
var_dump($ipArr);
var_dump($portArr);
exit;

这篇关于PHP 采集网页内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/860203

相关文章

Python结合requests和Cheerio处理网页内容的操作步骤

《Python结合requests和Cheerio处理网页内容的操作步骤》Python因其简洁明了的语法和强大的库支持,成为了编写爬虫程序的首选语言之一,requests库是Python中用于发送HT... 目录一、前言二、环境搭建三、requests库的基本使用四、Cheerio库的基本使用五、结合req

PHP执行php.exe -v命令报错的解决方案

《PHP执行php.exe-v命令报错的解决方案》:本文主要介绍PHP执行php.exe-v命令报错的解决方案,文中通过图文讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录执行phpandroid.exe -v命令报错解决方案执行php.exe -v命令报错-PHP War

Verybot之OpenCV应用一:安装与图像采集测试

在Verybot上安装OpenCV是很简单的,只需要执行:         sudo apt-get update         sudo apt-get install libopencv-dev         sudo apt-get install python-opencv         下面就对安装好的OpenCV进行一下测试,编写一个通过USB摄像头采

PHP原理之内存管理中难懂的几个点

PHP的内存管理, 分为俩大部分, 第一部分是PHP自身的内存管理, 这部分主要的内容就是引用计数, 写时复制, 等等面向应用的层面的管理. 而第二部分就是今天我要介绍的, zend_alloc中描写的关于PHP自身的内存管理, 包括它是如何管理可用内存, 如何分配内存等. 另外, 为什么要写这个呢, 因为之前并没有任何资料来介绍PHP内存管理中使用的策略, 数据结构, 或者算法. 而在我们

php中json_decode()和json_encode()

1.json_decode() json_decode (PHP 5 >= 5.2.0, PECL json >= 1.2.0) json_decode — 对 JSON 格式的字符串进行编码 说明 mixed json_decode ( string $json [, bool $assoc ] ) 接受一个 JSON 格式的字符串并且把它转换为 PHP 变量 参数 json

如何将文件夹里的PHP代码放到一个文件里

find ./dir -name "*.php" -exec 'cat' {} \; > dir.out

PHP抓取网站图片脚本

方法一: <?phpheader("Content-type:image/jpeg"); class download_image{function read_url($str) { $file=fopen($str,"r");$result = ''; while(!feof($file)) { $result.=fgets($file,9999); } fclose($file); re

PHP防止SQL注入详解及防范

SQL 注入是PHP应用中最常见的漏洞之一。事实上令人惊奇的是,开发者要同时犯两个错误才会引发一个SQL注入漏洞。 一个是没有对输入的数据进行过滤(过滤输入),还有一个是没有对发送到数据库的数据进行转义(转义输出)。这两个重要的步骤缺一不可,需要同时加以特别关注以减少程序错误。 对于攻击者来说,进行SQL注入攻击需要思考和试验,对数据库方案进行有根有据的推理非常有必要(当然假设攻击者看不到你的

PHP防止SQL注入的方法(2)

如果用户输入的是直接插入到一个SQL语句中的查询,应用程序会很容易受到SQL注入,例如下面的例子: $unsafe_variable = $_POST['user_input'];mysql_query("INSERT INTO table (column) VALUES ('" . $unsafe_variable . "')"); 这是因为用户可以输入类似VALUE”); DROP TA

PHP防止SQL注入的方法(1)

(1)mysql_real_escape_string – 转义 SQL 语句中使用的字符串中的特殊字符,并考虑到连接的当前字符集 使用方法如下: $sql = "select count(*) as ctr from users where username ='".mysql_real_escape_string($username)."' and password='". mysql_r