Python分析网页神器pyquery

2024-03-11 04:18

本文主要是介绍Python分析网页神器pyquery,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于pyquery

相信做web的没有不知道jQuery的。它是那么的方便,功能强大。 它的一大特点就是它的选择器。
pyquery是一个模仿jquery的python编写的分析网页的类库。它的接口完全模仿了jquery。

pyquery的文档

pyquery文档

测试

import urllib
from pyquery import PyQuery as pq
import codecs# fetch page
print 'fetch page...'
url = 'http://www.7dsw.com/toplastupdate/1.html'
resp = urllib.urlopen(url)
page = resp.read()
page = page.decode('gbk')
fetch page...
doc = pq(page)
doc
[<html>]
wanted = doc('a')
wanted
[<a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.first>, <a.pgroup>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.next>, <a.ngroup>, <a.last>]
d = [i.attr('href') for i in wanted.items()]
d
['#',u"javascript:window.external.addFavorite('http://www.7dsw.com','7\u5ea6\u4e66\u5c4b_\u4e66\u53cb\u6700\u503c\u5f97\u6536\u85cf\u7684\u7f51\u7edc\u5c0f\u8bf4\u9605\u8bfb\u7f51')",'http://www.7dsw.com','/newmessage.php?tosys=1','/jifen.html','http://www.7dsw.com/','/modules/article/bookcase.php','http://www.7dsw.com/sort1/1.html','http://www.7dsw.com/sort2/1.html','http://www.7dsw.com/sort3/1.html','http://www.7dsw.com/sort4/1.html','http://www.7dsw.com/sort5/1.html','http://www.7dsw.com/sort6/1.html','/quanben/','/toplastupdate/1.html','http://www.7dsw.com/book/17/17870/','http://www.7dsw.com/book/17/17870/11409157.html','http://www.7dsw.com/book/2/2827/','http://www.7dsw.com/book/2/2827/11409156.html','http://www.7dsw.com/book/18/18732/','http://www.7dsw.com/book/18/18732/11409155.html','http://www.7dsw.com/book/33/33268/','http://www.7dsw.com/book/33/33268/11409154.html','http://www.7dsw.com/book/27/27876/','http://www.7dsw.com/book/27/27876/11409150.html','http://www.7dsw.com/book/4/4876/','http://www.7dsw.com/book/4/4876/11409145.html','http://www.7dsw.com/book/33/33261/','http://www.7dsw.com/book/33/33261/11409144.html','http://www.7dsw.com/book/29/29849/','http://www.7dsw.com/book/29/29849/11409133.html','http://www.7dsw.com/book/32/32541/','http://www.7dsw.com/book/32/32541/11409132.html','http://www.7dsw.com/book/30/30083/','http://www.7dsw.com/book/30/30083/11409130.html','http://www.7dsw.com/book/15/15156/','http://www.7dsw.com/book/15/15156/11409124.html','http://www.7dsw.com/book/33/33518/','http://www.7dsw.com/book/33/33518/11409123.html','http://www.7dsw.com/book/31/31904/','http://www.7dsw.com/book/31/31904/11409115.html','http://www.7dsw.com/book/6/6807/','http://www.7dsw.com/book/6/6807/11409112.html','http://www.7dsw.com/book/30/30605/','http://www.7dsw.com/book/30/30605/11409109.html','http://www.7dsw.com/book/33/33169/','http://www.7dsw.com/book/33/33169/11409107.html','http://www.7dsw.com/book/6/6415/','http://www.7dsw.com/book/6/6415/11409101.html','http://www.7dsw.com/book/30/30440/','http://www.7dsw.com/book/30/30440/11409099.html','http://www.7dsw.com/book/28/28703/','http://www.7dsw.com/book/28/28703/11409096.html','http://www.7dsw.com/book/28/28849/','http://www.7dsw.com/book/28/28849/11409095.html','http://www.7dsw.com/book/29/29668/','http://www.7dsw.com/book/29/29668/11409093.html','http://www.7dsw.com/book/33/33460/','http://www.7dsw.com/book/33/33460/11409091.html','http://www.7dsw.com/book/33/33683/','http://www.7dsw.com/book/33/33683/11409090.html','http://www.7dsw.com/book/28/28865/','http://www.7dsw.com/book/28/28865/11409086.html','http://www.7dsw.com/book/22/22913/','http://www.7dsw.com/book/22/22913/11409085.html','http://www.7dsw.com/book/32/32568/','http://www.7dsw.com/book/32/32568/11409084.html','http://www.7dsw.com/book/26/26175/','http://www.7dsw.com/book/26/26175/11409082.html','http://www.7dsw.com/book/12/12455/','http://www.7dsw.com/book/12/12455/11409081.html','http://www.7dsw.com/book/28/28760/','http://www.7dsw.com/book/28/28760/11409079.html','http://www.7dsw.com/book/29/29305/','http://www.7dsw.com/book/29/29305/11409078.html','http://www.7dsw.com/toplastupdate/1.html','http://www.7dsw.com/toplastupdate/1.html','http://www.7dsw.com/toplastupdate/2.html','http://www.7dsw.com/toplastupdate/3.html','http://www.7dsw.com/toplastupdate/4.html','http://www.7dsw.com/toplastupdate/5.html','http://www.7dsw.com/toplastupdate/6.html','http://www.7dsw.com/toplastupdate/7.html','http://www.7dsw.com/toplastupdate/8.html','http://www.7dsw.com/toplastupdate/9.html','http://www.7dsw.com/toplastupdate/10.html','http://www.7dsw.com/toplastupdate/2.html','http://www.7dsw.com/toplastupdate/16.html','http://www.7dsw.com/toplastupdate/1056.html']

jQuery的文档

可以参考query的文档来明白pyquery的使用方式

jQuery 遍历函数
jQuery 遍历函数包括了用于筛选、查找和串联元素的方法。
函数 描述
.add() 将元素添加到匹配元素的集合中。
.andSelf() 把堆栈中之前的元素集添加到当前集合中。
.children() 获得匹配元素集合中每个元素的所有子元素。
.closest() 从元素本身开始,逐级向上级元素匹配,并返回最先匹配的祖先元素。
.contents() 获得匹配元素集合中每个元素的子元素,包括文本和注释节点。
.each() 对 jQuery 对象进行迭代,为每个匹配元素执行函数。
.end() 结束当前链中最近的一次筛选操作,并将匹配元素集合返回到前一次的状态。
.eq() 将匹配元素集合缩减为位于指定索引的新元素。
.filter() 将匹配元素集合缩减为匹配选择器或匹配函数返回值的新元素。
.find() 获得当前匹配元素集合中每个元素的后代,由选择器进行筛选。
.first() 将匹配元素集合缩减为集合中的第一个元素。
.has() 将匹配元素集合缩减为包含特定元素的后代的集合。
.is() 根据选择器检查当前匹配元素集合,如果存在至少一个匹配元素,则返回 true。
.last() 将匹配元素集合缩减为集合中的最后一个元素。
.map() 把当前匹配集合中的每个元素传递给函数,产生包含返回值的新 jQuery 对象。
.next() 获得匹配元素集合中每个元素紧邻的同辈元素。
.nextAll() 获得匹配元素集合中每个元素之后的所有同辈元素,由选择器进行筛选(可选)。
.nextUntil() 获得每个元素之后所有的同辈元素,直到遇到匹配选择器的元素为止。
.not() 从匹配元素集合中删除元素。
.offsetParent() 获得用于定位的第一个父元素。
.parent() 获得当前匹配元素集合中每个元素的父元素,由选择器筛选(可选)。
.parents() 获得当前匹配元素集合中每个元素的祖先元素,由选择器筛选(可选)。
.parentsUntil() 获得当前匹配元素集合中每个元素的祖先元素,直到遇到匹配选择器的元素为止。
.prev() 获得匹配元素集合中每个元素紧邻的前一个同辈元素,由选择器筛选(可选)。
.prevAll() 获得匹配元素集合中每个元素之前的所有同辈元素,由选择器进行筛选(可选)。
.prevUntil() 获得每个元素之前所有的同辈元素,直到遇到匹配选择器的元素为止。
.siblings() 获得匹配元素集合中所有元素的同辈元素,由选择器筛选(可选)。
.slice() 将匹配元素集合缩减为指定范围的子集。

这篇关于Python分析网页神器pyquery的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/796613

相关文章

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Python中win32包的安装及常见用途介绍

《Python中win32包的安装及常见用途介绍》在Windows环境下,PythonWin32模块通常随Python安装包一起安装,:本文主要介绍Python中win32包的安装及常见用途的相关... 目录前言主要组件安装方法常见用途1. 操作Windows注册表2. 操作Windows服务3. 窗口操作

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提