真实难过，当python爬虫对上淘宝和天猫，我又失败了！

本文主要是介绍真实难过，当python爬虫对上淘宝和天猫，我又失败了！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

我从来没想过淘宝天猫的反扒机制这么强，随着学习的推进，我用上了selenium，开始爬取这些网站，然后我输很彻底，下面我讲一下我失败的最后倔强！

在这里插入图片描述

果然学习不会顺水成舟，该碰壁还是得碰壁，我拿着18年的书籍来学习，哪个时候他们可以随意爬取这些网站，而现在反扒机制真的强哎。搞了整整四天，尝试各种方法，很多说可以改chromeDriver.exe这个的，还有的绕开方式，微博登入啥的，其实我都试过了。。。或许哪个时候有用，但是现在真的没用了，我真的不知道用啥方法来搞了，一脸委屈，然后经过我的最后顽强，我还是抓到了仅仅一页的数据，心中有一点点的欣慰。

天猫失败日记：

- 前言
- 一页成果:
- 实战技术：
- - 函数库:
  - 获得一页的真实源代码：
  - 获得该页的需求数据:
  - 保存该页数据:
  - 主函数:
- 后记：

前言

本次测试最开始从淘宝，然后到天猫，然后到拼多多，权衡最终还是选择了天猫 --------->(淘宝第一页就得登入，拼多多没有网页版，别说出去哈)
使用了我最近才学的selenium自动化技术，能达到可见就可爬的效果，非常的震惊啊！有解释的不好地方的话，见谅见谅哈。

一页成果:

最后的一点点倔强！

在这里插入图片描述

实战技术：

函数库:

表示从来没见过这么多函数库的我，一下子也是蒙蔽了。对着书本一个个的敲出来，生怕打错了一个 =。 =

在这里插入图片描述

获得一页的真实源代码：

网址如下： https://list.tmall.com/search_product.htm?q=iphoneXR

这里的关键词 iphoneXR 待会得用函数表示，不然可能乱码，网页识别不了

函数功能： 获得源代码，然后判断页码，如果是第二页或者其他页数，那我们就进行翻页操作，然后继续获得该页源代码，将源代码传给其他函数，

函数实现： 使用selenium根据xpath进行定位，这里使用到了显性等待unit的使用方法，这也是我在书上看到的一种，刚接触把我蒙了，不过，我代码中解释的很清楚。

图示: 定位这几处，我是通过xpath定位的，不会书上的css定位。

在这里插入图片描述

代码如下：

def index_page(page):"""抓取索取页源代码param: page 页码如果page大于1 那么就进行翻页操作"""print(f'正在抓取关键词为{KEYWORD} 的 {page} 页')try:

这篇关于真实难过，当python爬虫对上淘宝和天猫，我又失败了！的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

真实难过，当python爬虫对上淘宝和天猫，我又失败了！

天猫失败日记：

前言

一页成果:

实战技术：

函数库:

获得一页的真实源代码：

相关文章

Python中的魔术方法new详解

Python虚拟环境终极(含PyCharm的使用教程)

Python Transformer 库安装配置及使用方法

Python 中的 with open文件操作的最佳实践

Python中使用正则表达式精准匹配IP地址的案例

使用Python实现全能手机虚拟键盘的示例代码

Python 迭代器和生成器概念及场景分析

使用Python将JSON,XML和YAML数据写入Excel文件

Pyserial设置缓冲区大小失败的问题解决

Python基础语法中defaultdict的使用小结