《Python网络爬虫从入门到实践第2版》第17章爬虫实践四：畅销书籍

本文主要是介绍《Python网络爬虫从入门到实践第2版》第17章爬虫实践四：畅销书籍，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第17章　爬虫实践四：畅销书籍

我们平时去在购买书籍之前，总喜欢看看畅销的书籍有哪些，别人的评价怎么样，再决定是否购买。亚马逊电商网站最早就是从卖书做起的，所以本章选择亚马逊作为案例来获取畅销书榜单的数据，以及相应的评论数据。

本章为爬取亚马逊数据的实践项目，所采用的技术包括：

·使用Selenium爬取网站

·使用BeautifulSoup解析网页

·数据存储至CSV文件

本项目的目标是爬取亚马逊中国网站的书籍信息。首先使用Selenium获取网页的信息，然后使用BeautifulSoup解析网页中的数据，最终将数据存储至CSV文件中。

本项目的数据获取分为三步：

（1）获取亚马逊的总体图书销售榜。

（2）获取亚马逊图书各个分类的销售榜。

（3）进入每本书的网页，获取书籍的评论。

亚马逊中国图书销售榜的地址为https://www.amazon.cn/gp/bestsellers/books/ref=sv_b_3，如图17-1所示。

图17-1　亚马逊图书销售榜

首先打开亚马逊图书销售榜，发现第一页只加载了50本图书。如果需要爬取后面排名的图书，要单击“下一页”换页，最多只有两页。从第一页翻页到第二页，第二页的网址是https://www.amazon.cn/gp/bestsellers/books/ref=zg_bs_pg_2?i

这篇关于《Python网络爬虫从入门到实践第2版》第17章爬虫实践四：畅销书籍的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！