python爬虫和信息处理

2024-02-04 05:08
文章标签 python 爬虫 信息处理

本文主要是介绍python爬虫和信息处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

rquests模块
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
get 方法 获得网页资源
head方法,获取网页的头部信息,节省带宽;分析大概内容
put方法,向URL上存放资源,URL上原来的资源会全部被覆盖掉
patch方法,也是想url上存放资源,只是改变部分数据,其他数据不受影响
在这里插入图片描述
在这里插入图片描述

如果服务器知道我们是爬虫,可以通过伪装头部信息,来获取数据
在这里插入图片描述

向百度360提交关键词获得搜索结果的方法
1,百度 360都提供了关键词搜索接口
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

图片爬取代码
在这里插入图片描述

beautifulsoup 介绍
在这里插入图片描述
在cmd命令行 输入 pip install beautifulsoup4来安装bs4
然后如下图一样,在模块里面进行引用
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

让我们的html显示易读的格式
在这里插入图片描述
prettify()函数,给html文件标签后面添加换行,当使用print()函数打印时候,显示出来的是标准格式,容易阅读

查找html文件中想要查找的内容,使用bs4的 find_all()函数,返回查找的标签列表
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
获得标签后,提取里面属性值的方法,使用get() 比如get('href')可以获得对于的url字符串

find_all()函数非常常用,所以出现了简写方式就是比如 soup.find_all()可以简写成 soup()就可以了
select()函数,可以通过选择器进行选择一段标签,css的选择器一般都可以放入里面使用,可以返回一个选中的标签列表

正则表达式

import  re

注意:在正则表达式中,出现反斜杠的一般使用原始字符串,比如在字符串前面加r 表示字符串里面的所有字符都是原意

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

爬取淘宝产品的价格和标题
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

scrapy框架介绍
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
使用scrapy先创建一个工程
在这里插入图片描述
会在指定的目录下面生成文件

开发scrap爬虫的步骤
在这里插入图片描述
在这里插入图片描述
并在stocks.py里面对spiders模块进行编程处理

在这里插入图片描述
在这里插入图片描述

顺便说一下 生成器
通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。
如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器:generator。
就是一个列表,长度只有运行时候才生成
generator和函数的执行流程不一样。函数是顺序执行,遇到return语句或者最后一行函数语句就返回。而变成generator的函数,在每次调用next()的时候执行(或者循环过程中的一次),遇到yield语句返回,再次执行时从上次返回的yield语句处继续执行。
在这里插入图片描述
在这里插入图片描述
其实是遍历一个列表,但是这个列表是动态生成的,只有执行时,才往里面一个一个的放元素,迭代函数,一般和循环连用

在这里插入图片描述
上面的迭代函数,就可以写成这种普通写法

这篇关于python爬虫和信息处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/676428

相关文章

Python批量调整Word文档中的字体、段落间距及格式

《Python批量调整Word文档中的字体、段落间距及格式》这篇文章主要为大家详细介绍了如何使用Python的docx库来批量处理Word文档,包括设置首行缩进、字体、字号、行间距、段落对齐方式等,需... 目录关键代码一级标题设置  正文设置完整代码运行结果最近关于批处理格式的问题我查了很多资料,但是都没

Python依赖库的几种离线安装方法总结

《Python依赖库的几种离线安装方法总结》:本文主要介绍如何在Python中使用pip工具进行依赖库的安装和管理,包括如何导出和导入依赖包列表、如何下载和安装单个或多个库包及其依赖,以及如何指定... 目录前言一、如何copy一个python环境二、如何下载一个包及其依赖并安装三、如何导出requirem

python中列表list切分的实现

《python中列表list切分的实现》列表是Python中最常用的数据结构之一,经常需要对列表进行切分操作,本文主要介绍了python中列表list切分的实现,文中通过示例代码介绍的非常详细,对大家... 目录一、列表切片的基本用法1.1 基本切片操作1.2 切片的负索引1.3 切片的省略二、列表切分的高

基于Python实现一个PDF特殊字体提取工具

《基于Python实现一个PDF特殊字体提取工具》在PDF文档处理场景中,我们常常需要针对特定格式的文本内容进行提取分析,本文介绍的PDF特殊字体提取器是一款基于Python开发的桌面应用程序感兴趣的... 目录一、应用背景与功能概述二、技术架构与核心组件2.1 技术选型2.2 系统架构三、核心功能实现解析

通过Python脚本批量复制并规范命名视频文件

《通过Python脚本批量复制并规范命名视频文件》本文介绍了如何通过Python脚本批量复制并规范命名视频文件,实现自动补齐数字编号、保留原始文件、智能识别有效文件等功能,听过代码示例介绍的非常详细,... 目录一、问题场景:杂乱的视频文件名二、完整解决方案三、关键技术解析1. 智能路径处理2. 精准文件名

基于Python开发PDF转Doc格式小程序

《基于Python开发PDF转Doc格式小程序》这篇文章主要为大家详细介绍了如何基于Python开发PDF转Doc格式小程序,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 用python实现PDF转Doc格式小程序以下是一个使用Python实现PDF转DOC格式的GUI程序,采用T

Python使用PIL库将PNG图片转换为ICO图标的示例代码

《Python使用PIL库将PNG图片转换为ICO图标的示例代码》在软件开发和网站设计中,ICO图标是一种常用的图像格式,特别适用于应用程序图标、网页收藏夹图标等场景,本文将介绍如何使用Python的... 目录引言准备工作代码解析实践操作结果展示结语引言在软件开发和网站设计中,ICO图标是一种常用的图像

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

Python中如何控制小数点精度与对齐方式

《Python中如何控制小数点精度与对齐方式》在Python编程中,数据输出格式化是一个常见的需求,尤其是在涉及到小数点精度和对齐方式时,下面小编就来为大家介绍一下如何在Python中实现这些功能吧... 目录一、控制小数点精度1. 使用 round() 函数2. 使用字符串格式化二、控制对齐方式1. 使用