Python爬虫 使用Selenium爬取京东第一页商品的差评

2023-11-30 02:40

本文主要是介绍Python爬虫 使用Selenium爬取京东第一页商品的差评,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用Python中的Selenium库爬取京东口罩第一页的差评

  • 实验目的
  • Selenium库
  • 谷歌浏览器驱动
  • 参考代码
  • 实验结果
  • 写在最后

实验目的

使用Python中的Selenium库爬取京东口罩第一页的差评,以商品名称保存为txt文件

Selenium库

需要使用Selenium库,如无这个库的话请使用pip命令自行安装

pip install selenium

谷歌浏览器驱动

还需要用到谷歌浏览器驱动,请自行下载对应版本驱动后填入下方代码需要处

http://npm.taobao.org/mirrors/chromedriver/

参考代码

from selenium import  webdriver
import  time
import csv
import re
from selenium.webdriver.support.wait import WebDriverWait
goodslinks=[]
def get_goodslink():#填入自己的浏览器驱动位置wd=webdriver.Chrome("")#打开京东口罩搜索页面wd.get("https://search.jd.com/Search?keyword=口罩") time.sleep(4)#商品链接获取links=wd.find_elements_by_css_selector(".gl-item .gl-i-wrap .p-img a")for link in links:href=link.get_attribute('href')goodslinks.append(href)wd.close()def get_goodscomments(urls):#填入你的浏览器驱动位置wd=webdriver.Chrome("")for url in urls:wd.get(url)time.sleep(3)#获取商品名称goodsName=wd.find_element_by_css_selector(".itemInfo-wrap .sku-name").text #去除商品名的非法字符rightName=re.sub(r"[\/\\\:\*\?\"\<\>\|]", "_", goodsName)  # 控制鼠标从上往下滑动到底部wd.execute_script("window.scrollTo(0,document.body.scrollHeight);") time.sleep(3)#设置显式等待,点击差评按钮WebDriverWait(wd,3,0.2).until(lambda x:x.find_element_by_css_selector("#comment ul li:nth-child(7) a")).click()time.sleep(3)#获取差评goodsComment=wd.find_elements_by_xpath('//div[@class = "tab-con"]/div[@id = "comment-6"]//p')#写入文件名with open("E:\\python文件\\badcomments\\"+ rightName +'.txt','a+', encoding='utf-8-sig') as f: #badcomments为文件夹名字for comment in goodsComment:f.writelines(comment.text +'\n')wd.close()if __name__=="__main__":get_goodslink()get_goodscomments(goodslinks)

最开始让程序自行爬取商品名称创建txt文件时报错,搜索之后发现创建文件不能有非法字符,此时需要用re.sub()处理非法字符

rightName=re.sub(r"[\/\\\:\*\?\"\<\>\|]", "_", goodsName)

实验结果

在这里插入图片描述

ShiYu Liu

写在最后

博主仅为python新手,本篇博文仅供交流分享,如有不足之处欢迎各位大佬指点!

这篇关于Python爬虫 使用Selenium爬取京东第一页商品的差评的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/435294

相关文章

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Spring Boot中WebSocket常用使用方法详解

《SpringBoot中WebSocket常用使用方法详解》本文从WebSocket的基础概念出发,详细介绍了SpringBoot集成WebSocket的步骤,并重点讲解了常用的使用方法,包括简单消... 目录一、WebSocket基础概念1.1 什么是WebSocket1.2 WebSocket与HTTP

C#中Guid类使用小结

《C#中Guid类使用小结》本文主要介绍了C#中Guid类用于生成和操作128位的唯一标识符,用于数据库主键及分布式系统,支持通过NewGuid、Parse等方法生成,感兴趣的可以了解一下... 目录前言一、什么是 Guid二、生成 Guid1. 使用 Guid.NewGuid() 方法2. 从字符串创建

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos