【酱浦菌-爬虫项目】四种方法爬取百度首页信息

2024-04-30 17:44

本文主要是介绍【酱浦菌-爬虫项目】四种方法爬取百度首页信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

项目原理:

  1. 首先,定义了四个函数,每个函数都有不同的功能:

    • func1():发送一个GET请求到百度网站,并获取响应内容,演示如何使用`requests`库来获取网页内容。

    • func2():发送一个GET请求到百度网站,并获取响应内容。然后将响应内容保存为名为“baidu.png”的图片文件。

    • func3():使用Splash执行Lua脚本,加载百度网站并等待2秒,然后返回HTML内容。演示如何使用Splash来渲染JavaScript并获取渲染后的网页内容。

    • func4():使用Splash执行Lua脚本,加载百度网站,输入搜索关键词“SXT”,点击搜索按钮,等待2秒,然后返回HTML内容。演示如何使用Splash来模拟用户在网页上的交互操作。

  2. 每个函数的具体步骤如下:

    • 构建请求URL,包含了百度网站的地址。

    • 设置HTTP请求的头部信息,模拟了一个Chrome浏览器的请求。

    • 发送GET请求到指定的URL,获取响应内容。

    • 对于func2func4,将响应内容保存为图片文件。

    • 打印响应内容或其他信息。

  3. 最后,通过调用这四个函数,可以实现不同的操作,例如获取网页内容、下载图片等。

完整代码: 

import requests#三个接口
def func1():url = 'https://www.baidu.com/'base_url = f'http://localhost:8050/render.html?url={url}&wait=1'resp = requests.get(base_url)print(resp.text)def func2():url = 'https://www.baidu.com/'base_url = f'http://localhost:8050/render.html?url={url}&wait=1'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)def func3():url = 'https://www.baidu.com/'lua = f'''function main(splash, args)splash:go(""{url})splash:wait(2)return splash:html()'''base_url = f'http://localhost:8050/execute?lua_source={lua}'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)def func4():url = 'https://www.baidu.com/'lua = f'''function main(splash, args)splash:go("{url}")input = splash:select("#kw")input:send_text("SXT")button = splash:select('#su)button:mouse_click()splash:wait(2)return splash:html()'''base_url = f'http://localhost:8050/execute?lua_source={lua}'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)if __name__ == '__main__':func1()func2()func3()func4()

这篇关于【酱浦菌-爬虫项目】四种方法爬取百度首页信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/949503

相关文章

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain

macOS无效Launchpad图标轻松删除的4 种实用方法

《macOS无效Launchpad图标轻松删除的4种实用方法》mac中不在appstore上下载的应用经常在删除后它的图标还残留在launchpad中,并且长按图标也不会出现删除符号,下面解决这个问... 在 MACOS 上,Launchpad(也就是「启动台」)是一个便捷的 App 启动工具。但有时候,应

SpringBoot日志配置SLF4J和Logback的方法实现

《SpringBoot日志配置SLF4J和Logback的方法实现》日志记录是不可或缺的一部分,本文主要介绍了SpringBoot日志配置SLF4J和Logback的方法实现,文中通过示例代码介绍的非... 目录一、前言二、案例一:初识日志三、案例二:使用Lombok输出日志四、案例三:配置Logback一

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

一文教你如何将maven项目转成web项目

《一文教你如何将maven项目转成web项目》在软件开发过程中,有时我们需要将一个普通的Maven项目转换为Web项目,以便能够部署到Web容器中运行,本文将详细介绍如何通过简单的步骤完成这一转换过程... 目录准备工作步骤一:修改​​pom.XML​​1.1 添加​​packaging​​标签1.2 添加

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T