个人知乎 ##基础九——爬虫入门PySpider

2023-12-21 18:18

本文主要是介绍个人知乎 ##基础九——爬虫入门PySpider,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

个人知乎

基础九——爬虫入门PySpider

爬虫基础框架

安装:pip install pyspider
scheduler:调度器,调度一个url处理
fetcher:下载网页器
processor:处理网页器,并解析出新的url
class Handler(BaseHandler):crawl_config = {}@every(minutes=24 * 60)def on_start(self):self.crawl( 'http://scrapy.org/', callback=self.index_page)@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each  in response.doc( 'a[href^="http"]').items():self.crawl(each.attr.href, callback=self.detail_page)@config(priority=2)def detail_page(self, response):return {"url": response.url,"title": response.doc( 'title').text(),}

Response/PyQuery

<参考资料: http://docs.pyspider.org/en/latest/apis/Response/>
< PyQuery:https://pythonhosted.org/pyquery/api.html >
< css选择器参考资料:http://www.w3school.com.cn/cssref/css_selectors.asp>

一个网页的框架docurltextheadercookies
css选择器:标签解析自定义选中html标签.class:class='class'#id:id='id'div.inner:<div class='inner'>a[href^="http://"] :带http开头的a标签p>div>span:p标签下的div下的span,一层的p div:在内层即可,不要求父子[target=_blank]:Target=_blank
#例子
q=PyQuery(open('v2ex.html').read())
print q('title').text()
for each in q('div.inner>a').items():
#获取属性print 1,each.attr.href
#获取文本print 2,each.html()

Python和MySQL:MySQLdb

python的内嵌sql
#连接数据库
db = MySQLdb.connect( 'localhost',  'root',  'nowcoder',  'wenda',
charset= 'utf8')
try:
#游标处理多条结果cursor = db.cursor()#插入sql =  'insert into question(title, content, user_id, created_date,comment_count) values ("%s","%s",%d, %s, %d)' % ('title',  'content', random.randint(1, 10),  'now()', 0);# print sqlcursor.execute(sql)#最后新条目的idqid = cursor.lastrowid#所有事务需要提交到数据库db.commit()print qid
#异常处理
except Exception, e:print e#事物回滚db.rollback()
#断开连接
db.close()#查取
db = MySQLdb.connect( 'localhost',  'root',  'nowcoder',  'wenda',
charset= 'utf8')
try:cursor = db.cursor()sql =  'select * from question order by id desc limit 2'cursor.execute(sql)#fetchall获取条目列表for each  in cursor.fetchall():#每个each都是一个属性列表for row  in each:print row#db.commit()
except Exception, e:print edb.rollback()
db.close()

爬虫实践

#v2ex
#知乎

这篇关于个人知乎 ##基础九——爬虫入门PySpider的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/521014

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

poj 2104 and hdu 2665 划分树模板入门题

题意: 给一个数组n(1e5)个数,给一个范围(fr, to, k),求这个范围中第k大的数。 解析: 划分树入门。 bing神的模板。 坑爹的地方是把-l 看成了-1........ 一直re。 代码: poj 2104: #include <iostream>#include <cstdio>#include <cstdlib>#include <al

MySQL-CRUD入门1

文章目录 认识配置文件client节点mysql节点mysqld节点 数据的添加(Create)添加一行数据添加多行数据两种添加数据的效率对比 数据的查询(Retrieve)全列查询指定列查询查询中带有表达式关于字面量关于as重命名 临时表引入distinct去重order by 排序关于NULL 认识配置文件 在我们的MySQL服务安装好了之后, 会有一个配置文件, 也就

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de