【酱浦菌-爬虫项目】四种方法爬取百度首页信息

2024-04-30 17:44

本文主要是介绍【酱浦菌-爬虫项目】四种方法爬取百度首页信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

项目原理:

  1. 首先,定义了四个函数,每个函数都有不同的功能:

    • func1():发送一个GET请求到百度网站,并获取响应内容,演示如何使用`requests`库来获取网页内容。

    • func2():发送一个GET请求到百度网站,并获取响应内容。然后将响应内容保存为名为“baidu.png”的图片文件。

    • func3():使用Splash执行Lua脚本,加载百度网站并等待2秒,然后返回HTML内容。演示如何使用Splash来渲染JavaScript并获取渲染后的网页内容。

    • func4():使用Splash执行Lua脚本,加载百度网站,输入搜索关键词“SXT”,点击搜索按钮,等待2秒,然后返回HTML内容。演示如何使用Splash来模拟用户在网页上的交互操作。

  2. 每个函数的具体步骤如下:

    • 构建请求URL,包含了百度网站的地址。

    • 设置HTTP请求的头部信息,模拟了一个Chrome浏览器的请求。

    • 发送GET请求到指定的URL,获取响应内容。

    • 对于func2func4,将响应内容保存为图片文件。

    • 打印响应内容或其他信息。

  3. 最后,通过调用这四个函数,可以实现不同的操作,例如获取网页内容、下载图片等。

完整代码: 

import requests#三个接口
def func1():url = 'https://www.baidu.com/'base_url = f'http://localhost:8050/render.html?url={url}&wait=1'resp = requests.get(base_url)print(resp.text)def func2():url = 'https://www.baidu.com/'base_url = f'http://localhost:8050/render.html?url={url}&wait=1'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)def func3():url = 'https://www.baidu.com/'lua = f'''function main(splash, args)splash:go(""{url})splash:wait(2)return splash:html()'''base_url = f'http://localhost:8050/execute?lua_source={lua}'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)def func4():url = 'https://www.baidu.com/'lua = f'''function main(splash, args)splash:go("{url}")input = splash:select("#kw")input:send_text("SXT")button = splash:select('#su)button:mouse_click()splash:wait(2)return splash:html()'''base_url = f'http://localhost:8050/execute?lua_source={lua}'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)if __name__ == '__main__':func1()func2()func3()func4()

这篇关于【酱浦菌-爬虫项目】四种方法爬取百度首页信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/949503

相关文章

在Android中使用WebView在线查看PDF文件的方法示例

《在Android中使用WebView在线查看PDF文件的方法示例》在Android应用开发中,有时我们需要在客户端展示PDF文件,以便用户可以阅读或交互,:本文主要介绍在Android中使用We... 目录简介:1. WebView组件介绍2. 在androidManifest.XML中添加Interne

Java中字符编码问题的解决方法详解

《Java中字符编码问题的解决方法详解》在日常Java开发中,字符编码问题是一个非常常见却又特别容易踩坑的地方,这篇文章就带你一步一步看清楚字符编码的来龙去脉,并结合可运行的代码,看看如何在Java项... 目录前言背景:为什么会出现编码问题常见场景分析控制台输出乱码文件读写乱码数据库存取乱码解决方案统一使

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

JavaScript中的高级调试方法全攻略指南

《JavaScript中的高级调试方法全攻略指南》什么是高级JavaScript调试技巧,它比console.log有何优势,如何使用断点调试定位问题,通过本文,我们将深入解答这些问题,带您从理论到实... 目录观点与案例结合观点1观点2观点3观点4观点5高级调试技巧详解实战案例断点调试:定位变量错误性能分

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法

《JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法》:本文主要介绍JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法,每种方法结合实例代码给大家介绍的非常... 目录引言:为什么"相等"判断如此重要?方法1:使用some()+includes()(适合小数组)方法2

Three.js构建一个 3D 商品展示空间完整实战项目

《Three.js构建一个3D商品展示空间完整实战项目》Three.js是一个强大的JavaScript库,专用于在Web浏览器中创建3D图形,:本文主要介绍Three.js构建一个3D商品展... 目录引言项目核心技术1. 项目架构与资源组织2. 多模型切换、交互热点绑定3. 移动端适配与帧率优化4. 可

sky-take-out项目中Redis的使用示例详解

《sky-take-out项目中Redis的使用示例详解》SpringCache是Spring的缓存抽象层,通过注解简化缓存管理,支持Redis等提供者,适用于方法结果缓存、更新和删除操作,但无法实现... 目录Spring Cache主要特性核心注解1.@Cacheable2.@CachePut3.@Ca