Python分析网页神器pyquery

2024-03-11 04:18

本文主要是介绍Python分析网页神器pyquery,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于pyquery

相信做web的没有不知道jQuery的。它是那么的方便,功能强大。 它的一大特点就是它的选择器。
pyquery是一个模仿jquery的python编写的分析网页的类库。它的接口完全模仿了jquery。

pyquery的文档

pyquery文档

测试

import urllib
from pyquery import PyQuery as pq
import codecs# fetch page
print 'fetch page...'
url = 'http://www.7dsw.com/toplastupdate/1.html'
resp = urllib.urlopen(url)
page = resp.read()
page = page.decode('gbk')
fetch page...
doc = pq(page)
doc
[<html>]
wanted = doc('a')
wanted
[<a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.first>, <a.pgroup>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.next>, <a.ngroup>, <a.last>]
d = [i.attr('href') for i in wanted.items()]
d
['#',u"javascript:window.external.addFavorite('http://www.7dsw.com','7\u5ea6\u4e66\u5c4b_\u4e66\u53cb\u6700\u503c\u5f97\u6536\u85cf\u7684\u7f51\u7edc\u5c0f\u8bf4\u9605\u8bfb\u7f51')",'http://www.7dsw.com','/newmessage.php?tosys=1','/jifen.html','http://www.7dsw.com/','/modules/article/bookcase.php','http://www.7dsw.com/sort1/1.html','http://www.7dsw.com/sort2/1.html','http://www.7dsw.com/sort3/1.html','http://www.7dsw.com/sort4/1.html','http://www.7dsw.com/sort5/1.html','http://www.7dsw.com/sort6/1.html','/quanben/','/toplastupdate/1.html','http://www.7dsw.com/book/17/17870/','http://www.7dsw.com/book/17/17870/11409157.html','http://www.7dsw.com/book/2/2827/','http://www.7dsw.com/book/2/2827/11409156.html','http://www.7dsw.com/book/18/18732/','http://www.7dsw.com/book/18/18732/11409155.html','http://www.7dsw.com/book/33/33268/','http://www.7dsw.com/book/33/33268/11409154.html','http://www.7dsw.com/book/27/27876/','http://www.7dsw.com/book/27/27876/11409150.html','http://www.7dsw.com/book/4/4876/','http://www.7dsw.com/book/4/4876/11409145.html','http://www.7dsw.com/book/33/33261/','http://www.7dsw.com/book/33/33261/11409144.html','http://www.7dsw.com/book/29/29849/','http://www.7dsw.com/book/29/29849/11409133.html','http://www.7dsw.com/book/32/32541/','http://www.7dsw.com/book/32/32541/11409132.html','http://www.7dsw.com/book/30/30083/','http://www.7dsw.com/book/30/30083/11409130.html','http://www.7dsw.com/book/15/15156/','http://www.7dsw.com/book/15/15156/11409124.html','http://www.7dsw.com/book/33/33518/','http://www.7dsw.com/book/33/33518/11409123.html','http://www.7dsw.com/book/31/31904/','http://www.7dsw.com/book/31/31904/11409115.html','http://www.7dsw.com/book/6/6807/','http://www.7dsw.com/book/6/6807/11409112.html','http://www.7dsw.com/book/30/30605/','http://www.7dsw.com/book/30/30605/11409109.html','http://www.7dsw.com/book/33/33169/','http://www.7dsw.com/book/33/33169/11409107.html','http://www.7dsw.com/book/6/6415/','http://www.7dsw.com/book/6/6415/11409101.html','http://www.7dsw.com/book/30/30440/','http://www.7dsw.com/book/30/30440/11409099.html','http://www.7dsw.com/book/28/28703/','http://www.7dsw.com/book/28/28703/11409096.html','http://www.7dsw.com/book/28/28849/','http://www.7dsw.com/book/28/28849/11409095.html','http://www.7dsw.com/book/29/29668/','http://www.7dsw.com/book/29/29668/11409093.html','http://www.7dsw.com/book/33/33460/','http://www.7dsw.com/book/33/33460/11409091.html','http://www.7dsw.com/book/33/33683/','http://www.7dsw.com/book/33/33683/11409090.html','http://www.7dsw.com/book/28/28865/','http://www.7dsw.com/book/28/28865/11409086.html','http://www.7dsw.com/book/22/22913/','http://www.7dsw.com/book/22/22913/11409085.html','http://www.7dsw.com/book/32/32568/','http://www.7dsw.com/book/32/32568/11409084.html','http://www.7dsw.com/book/26/26175/','http://www.7dsw.com/book/26/26175/11409082.html','http://www.7dsw.com/book/12/12455/','http://www.7dsw.com/book/12/12455/11409081.html','http://www.7dsw.com/book/28/28760/','http://www.7dsw.com/book/28/28760/11409079.html','http://www.7dsw.com/book/29/29305/','http://www.7dsw.com/book/29/29305/11409078.html','http://www.7dsw.com/toplastupdate/1.html','http://www.7dsw.com/toplastupdate/1.html','http://www.7dsw.com/toplastupdate/2.html','http://www.7dsw.com/toplastupdate/3.html','http://www.7dsw.com/toplastupdate/4.html','http://www.7dsw.com/toplastupdate/5.html','http://www.7dsw.com/toplastupdate/6.html','http://www.7dsw.com/toplastupdate/7.html','http://www.7dsw.com/toplastupdate/8.html','http://www.7dsw.com/toplastupdate/9.html','http://www.7dsw.com/toplastupdate/10.html','http://www.7dsw.com/toplastupdate/2.html','http://www.7dsw.com/toplastupdate/16.html','http://www.7dsw.com/toplastupdate/1056.html']

jQuery的文档

可以参考query的文档来明白pyquery的使用方式

jQuery 遍历函数
jQuery 遍历函数包括了用于筛选、查找和串联元素的方法。
函数 描述
.add() 将元素添加到匹配元素的集合中。
.andSelf() 把堆栈中之前的元素集添加到当前集合中。
.children() 获得匹配元素集合中每个元素的所有子元素。
.closest() 从元素本身开始,逐级向上级元素匹配,并返回最先匹配的祖先元素。
.contents() 获得匹配元素集合中每个元素的子元素,包括文本和注释节点。
.each() 对 jQuery 对象进行迭代,为每个匹配元素执行函数。
.end() 结束当前链中最近的一次筛选操作,并将匹配元素集合返回到前一次的状态。
.eq() 将匹配元素集合缩减为位于指定索引的新元素。
.filter() 将匹配元素集合缩减为匹配选择器或匹配函数返回值的新元素。
.find() 获得当前匹配元素集合中每个元素的后代,由选择器进行筛选。
.first() 将匹配元素集合缩减为集合中的第一个元素。
.has() 将匹配元素集合缩减为包含特定元素的后代的集合。
.is() 根据选择器检查当前匹配元素集合,如果存在至少一个匹配元素,则返回 true。
.last() 将匹配元素集合缩减为集合中的最后一个元素。
.map() 把当前匹配集合中的每个元素传递给函数,产生包含返回值的新 jQuery 对象。
.next() 获得匹配元素集合中每个元素紧邻的同辈元素。
.nextAll() 获得匹配元素集合中每个元素之后的所有同辈元素,由选择器进行筛选(可选)。
.nextUntil() 获得每个元素之后所有的同辈元素,直到遇到匹配选择器的元素为止。
.not() 从匹配元素集合中删除元素。
.offsetParent() 获得用于定位的第一个父元素。
.parent() 获得当前匹配元素集合中每个元素的父元素,由选择器筛选(可选)。
.parents() 获得当前匹配元素集合中每个元素的祖先元素,由选择器筛选(可选)。
.parentsUntil() 获得当前匹配元素集合中每个元素的祖先元素,直到遇到匹配选择器的元素为止。
.prev() 获得匹配元素集合中每个元素紧邻的前一个同辈元素,由选择器筛选(可选)。
.prevAll() 获得匹配元素集合中每个元素之前的所有同辈元素,由选择器进行筛选(可选)。
.prevUntil() 获得每个元素之前所有的同辈元素,直到遇到匹配选择器的元素为止。
.siblings() 获得匹配元素集合中所有元素的同辈元素,由选择器筛选(可选)。
.slice() 将匹配元素集合缩减为指定范围的子集。

这篇关于Python分析网页神器pyquery的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/796613

相关文章

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

Python运行中频繁出现Restart提示的解决办法

《Python运行中频繁出现Restart提示的解决办法》在编程的世界里,遇到各种奇怪的问题是家常便饭,但是,当你的Python程序在运行过程中频繁出现“Restart”提示时,这可能不仅仅是令人头疼... 目录问题描述代码示例无限循环递归调用内存泄漏解决方案1. 检查代码逻辑无限循环递归调用内存泄漏2.

Python中判断对象是否为空的方法

《Python中判断对象是否为空的方法》在Python开发中,判断对象是否为“空”是高频操作,但看似简单的需求却暗藏玄机,从None到空容器,从零值到自定义对象的“假值”状态,不同场景下的“空”需要精... 目录一、python中的“空”值体系二、精准判定方法对比三、常见误区解析四、进阶处理技巧五、性能优化

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

python logging模块详解及其日志定时清理方式

《pythonlogging模块详解及其日志定时清理方式》:本文主要介绍pythonlogging模块详解及其日志定时清理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录python logging模块及日志定时清理1.创建logger对象2.logging.basicCo

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

如何将Python彻底卸载的三种方法

《如何将Python彻底卸载的三种方法》通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装,所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何彻底卸载Pyth... 目录软件卸载①方法:②方法:③方法:清理相关文件夹软件卸载①方法:首先,在安装python时,下

python uv包管理小结

《pythonuv包管理小结》uv是一个高性能的Python包管理工具,它不仅能够高效地处理包管理和依赖解析,还提供了对Python版本管理的支持,本文主要介绍了pythonuv包管理小结,具有一... 目录安装 uv使用 uv 管理 python 版本安装指定版本的 Python查看已安装的 Python

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t