Datawhale-爬虫-Task7(实战大项目)

2024-04-14 11:08

本文主要是介绍Datawhale-爬虫-Task7(实战大项目),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实战大项目

模拟登录丁香园,并抓取论坛所有的人员的基本信息与回复帖子的内容。
丁香园论坛:论坛登录链接

  • 首先使用Selenium模拟登录丁香园论坛。这里模拟点击登录后若要使用账号密码登录还需要模拟点击返回电脑登录
    在这里插入图片描述
    登录代码如下:
def login_zhihu(browser):try:#点击登录browser.find_element_by_xpath('//div[@class="nav_account"]/a[1]').click()#点击返回电脑登录browser.find_element_by_xpath('//div[@class="login__tab_wp"]/a[2]/i').click()elem = browser.find_element_by_name("username")elem.clear()  # 清空elem.send_keys("*******")  # 自动填值#获取登录密码elem = browser.find_element_by_name("password")elem.clear()elem.send_keys("****")print("开始登陆...")browser.find_element_by_xpath("//button").click() #点击登录按钮登录except TimeoutException:print("Time Out")except NoSuchElementException:print("No Element")
  • 获取登陆后的论坛信息,这边我使用CSS选择器爬取相应的信息,很方便,但是爬取后暂时不知道该怎么将论坛发言人和他们的发帖内容对应输出,所以暂时先分开写了

爬取信息代码:

def get_information(browser):print("登录成功")time.sleep(10)print("开始获取信息。。。")elems = browser.find_elements_by_css_selector(".auth")  #发帖人姓名
#     conts = browser.find_elements_by_css_selector(".con")  发帖的信息for elem in elems:auth = elem.find_element_by_tag_name("a")print(auth.text)
#     for con in conts:
#         content = con.find_element_by_tag_name("td")
#         print(content.text)
  • 今天在学习的时候还学到了如何加载动态页面,即使用Selenium让进度条自动下拉到最底部实现JS的加载,代码如下:
 def scroll_load(browser):#利用 execute_script() 方法将进度条下拉到最底部browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")browser.implicitly_wait(2)  # 隐式等待

作业完整代码:

from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException# 声明浏览器对象
browser = webdriver.Chrome()
browser.get("http://www.dxy.cn/bbs/thread/626626#626626")def login_zhihu(browser):try:#点击登录browser.find_element_by_xpath('//div[@class="nav_account"]/a[1]').click()#点击返回电脑登录browser.find_element_by_xpath('//div[@class="login__tab_wp"]/a[2]/i').click()elem = browser.find_element_by_name("username")elem.clear()  # 清空elem.send_keys("*****")  # 填入你的账号#获取登录密码elem = browser.find_element_by_name("password")elem.clear()elem.send_keys("********") #填上你的密码print("开始登陆...")browser.find_element_by_xpath("//button").click() #点击登录按钮登录except TimeoutException:print("Time Out")except NoSuchElementException:print("No Element")def get_information(browser):print("登录成功")time.sleep(10)print("开始获取信息。。。")elems = browser.find_elements_by_css_selector(".auth")  #发帖人姓名
#     conts = browser.find_elements_by_css_selector(".con")  发帖的信息for elem in elems:auth = elem.find_element_by_tag_name("a")print(auth.text)
#     for con in conts:
#         content = con.find_element_by_tag_name("td")
#         print(content.text)# 滚动加载
# def scroll_load(browser):
#     #利用 execute_script() 方法将进度条下拉到最底部
#     browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
#     browser.implicitly_wait(2)  # 隐式等待# 主函数
def main():login_zhihu(browser)  # 登录函数#for i in range(2):  #定义滚动次数get_information(browser)  # 获取标题与链接#scroll_load(browser)  # 滚动time.sleep(1)  # 休眠# 函数入口调用
if __name__ == '__main__':main()input("按任意键退出-> ")browser.quit()

运行结果(发帖人姓名部分):
在这里插入图片描述

这篇关于Datawhale-爬虫-Task7(实战大项目)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/902855

相关文章

部署Vue项目到服务器后404错误的原因及解决方案

《部署Vue项目到服务器后404错误的原因及解决方案》文章介绍了Vue项目部署步骤以及404错误的解决方案,部署步骤包括构建项目、上传文件、配置Web服务器、重启Nginx和访问域名,404错误通常是... 目录一、vue项目部署步骤二、404错误原因及解决方案错误场景原因分析解决方案一、Vue项目部署步骤

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

golang内存对齐的项目实践

《golang内存对齐的项目实践》本文主要介绍了golang内存对齐的项目实践,内存对齐不仅有助于提高内存访问效率,还确保了与硬件接口的兼容性,是Go语言编程中不可忽视的重要优化手段,下面就来介绍一下... 目录一、结构体中的字段顺序与内存对齐二、内存对齐的原理与规则三、调整结构体字段顺序优化内存对齐四、内

配置springboot项目动静分离打包分离lib方式

《配置springboot项目动静分离打包分离lib方式》本文介绍了如何将SpringBoot工程中的静态资源和配置文件分离出来,以减少jar包大小,方便修改配置文件,通过在jar包同级目录创建co... 目录前言1、分离配置文件原理2、pom文件配置3、使用package命令打包4、总结前言默认情况下,

在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程

《在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程》本文介绍了在Java中使用ModelMapper库简化Shapefile属性转JavaBean的过程,对比... 目录前言一、原始的处理办法1、使用Set方法来转换2、使用构造方法转换二、基于ModelMapper

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前

python实现简易SSL的项目实践

《python实现简易SSL的项目实践》本文主要介绍了python实现简易SSL的项目实践,包括CA.py、server.py和client.py三个模块,文中通过示例代码介绍的非常详细,对大家的学习... 目录运行环境运行前准备程序实现与流程说明运行截图代码CA.pyclient.pyserver.py参

nginx-rtmp-module构建流媒体直播服务器实战指南

《nginx-rtmp-module构建流媒体直播服务器实战指南》本文主要介绍了nginx-rtmp-module构建流媒体直播服务器实战指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. RTMP协议介绍与应用RTMP协议的原理RTMP协议的应用RTMP与现代流媒体技术的关系2

IDEA运行spring项目时,控制台未出现的解决方案

《IDEA运行spring项目时,控制台未出现的解决方案》文章总结了在使用IDEA运行代码时,控制台未出现的问题和解决方案,问题可能是由于点击图标或重启IDEA后控制台仍未显示,解决方案提供了解决方法... 目录问题分析解决方案总结问题js使用IDEA,点击运行按钮,运行结束,但控制台未出现http://

解决IDEA使用springBoot创建项目,lombok标注实体类后编译无报错,但是运行时报错问题

《解决IDEA使用springBoot创建项目,lombok标注实体类后编译无报错,但是运行时报错问题》文章详细描述了在使用lombok的@Data注解标注实体类时遇到编译无误但运行时报错的问题,分析... 目录问题分析问题解决方案步骤一步骤二步骤三总结问题使用lombok注解@Data标注实体类,编译时