Datawhale-爬虫-Task7(实战大项目)

2024-04-14 11:08

本文主要是介绍Datawhale-爬虫-Task7(实战大项目),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实战大项目

模拟登录丁香园,并抓取论坛所有的人员的基本信息与回复帖子的内容。
丁香园论坛:论坛登录链接

  • 首先使用Selenium模拟登录丁香园论坛。这里模拟点击登录后若要使用账号密码登录还需要模拟点击返回电脑登录
    在这里插入图片描述
    登录代码如下:
def login_zhihu(browser):try:#点击登录browser.find_element_by_xpath('//div[@class="nav_account"]/a[1]').click()#点击返回电脑登录browser.find_element_by_xpath('//div[@class="login__tab_wp"]/a[2]/i').click()elem = browser.find_element_by_name("username")elem.clear()  # 清空elem.send_keys("*******")  # 自动填值#获取登录密码elem = browser.find_element_by_name("password")elem.clear()elem.send_keys("****")print("开始登陆...")browser.find_element_by_xpath("//button").click() #点击登录按钮登录except TimeoutException:print("Time Out")except NoSuchElementException:print("No Element")
  • 获取登陆后的论坛信息,这边我使用CSS选择器爬取相应的信息,很方便,但是爬取后暂时不知道该怎么将论坛发言人和他们的发帖内容对应输出,所以暂时先分开写了

爬取信息代码:

def get_information(browser):print("登录成功")time.sleep(10)print("开始获取信息。。。")elems = browser.find_elements_by_css_selector(".auth")  #发帖人姓名
#     conts = browser.find_elements_by_css_selector(".con")  发帖的信息for elem in elems:auth = elem.find_element_by_tag_name("a")print(auth.text)
#     for con in conts:
#         content = con.find_element_by_tag_name("td")
#         print(content.text)
  • 今天在学习的时候还学到了如何加载动态页面,即使用Selenium让进度条自动下拉到最底部实现JS的加载,代码如下:
 def scroll_load(browser):#利用 execute_script() 方法将进度条下拉到最底部browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")browser.implicitly_wait(2)  # 隐式等待

作业完整代码:

from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException# 声明浏览器对象
browser = webdriver.Chrome()
browser.get("http://www.dxy.cn/bbs/thread/626626#626626")def login_zhihu(browser):try:#点击登录browser.find_element_by_xpath('//div[@class="nav_account"]/a[1]').click()#点击返回电脑登录browser.find_element_by_xpath('//div[@class="login__tab_wp"]/a[2]/i').click()elem = browser.find_element_by_name("username")elem.clear()  # 清空elem.send_keys("*****")  # 填入你的账号#获取登录密码elem = browser.find_element_by_name("password")elem.clear()elem.send_keys("********") #填上你的密码print("开始登陆...")browser.find_element_by_xpath("//button").click() #点击登录按钮登录except TimeoutException:print("Time Out")except NoSuchElementException:print("No Element")def get_information(browser):print("登录成功")time.sleep(10)print("开始获取信息。。。")elems = browser.find_elements_by_css_selector(".auth")  #发帖人姓名
#     conts = browser.find_elements_by_css_selector(".con")  发帖的信息for elem in elems:auth = elem.find_element_by_tag_name("a")print(auth.text)
#     for con in conts:
#         content = con.find_element_by_tag_name("td")
#         print(content.text)# 滚动加载
# def scroll_load(browser):
#     #利用 execute_script() 方法将进度条下拉到最底部
#     browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
#     browser.implicitly_wait(2)  # 隐式等待# 主函数
def main():login_zhihu(browser)  # 登录函数#for i in range(2):  #定义滚动次数get_information(browser)  # 获取标题与链接#scroll_load(browser)  # 滚动time.sleep(1)  # 休眠# 函数入口调用
if __name__ == '__main__':main()input("按任意键退出-> ")browser.quit()

运行结果(发帖人姓名部分):
在这里插入图片描述

这篇关于Datawhale-爬虫-Task7(实战大项目)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/902855

相关文章

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

在Spring Boot中浅尝内存泄漏的实战记录

《在SpringBoot中浅尝内存泄漏的实战记录》本文给大家分享在SpringBoot中浅尝内存泄漏的实战记录,结合实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录使用静态集合持有对象引用,阻止GC回收关键点:可执行代码:验证:1,运行程序(启动时添加JVM参数限制堆大小):2,访问 htt

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

《Node.js数据库CRUD项目示例详解(完美解决方案)》:本文主要介绍Node.js数据库CRUD项目示例详解(完美解决方案),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考... 目录项目结构1. 初始化项目2. 配置数据库连接 (config/db.js)3. 创建模型 (models/

springboot项目中常用的工具类和api详解

《springboot项目中常用的工具类和api详解》在SpringBoot项目中,开发者通常会依赖一些工具类和API来简化开发、提高效率,以下是一些常用的工具类及其典型应用场景,涵盖Spring原生... 目录1. Spring Framework 自带工具类(1) StringUtils(2) Coll

Spring Boot项目部署命令java -jar的各种参数及作用详解

《SpringBoot项目部署命令java-jar的各种参数及作用详解》:本文主要介绍SpringBoot项目部署命令java-jar的各种参数及作用的相关资料,包括设置内存大小、垃圾回收... 目录前言一、基础命令结构二、常见的 Java 命令参数1. 设置内存大小2. 配置垃圾回收器3. 配置线程栈大小

Spring Boot项目中结合MyBatis实现MySQL的自动主从切换功能

《SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能》:本文主要介绍SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能,本文分步骤给大家介绍的... 目录原理解析1. mysql主从复制(Master-Slave Replication)2. 读写分离3.

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读