【从零开始学爬虫】采集亚马逊商品信息

2024-06-02 01:18

本文主要是介绍【从零开始学爬虫】采集亚马逊商品信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

l 采集网站

【场景描述】采集亚马逊搜索关键词出来的商品信息。

【入口网址】https://www.amazon.com/-/zh/ref=nav_logo

图片

【采集内容】采集亚马逊搜索关键词搜索出来的商品信息,包括商品名称、价格、型号、星级和商品链接。

图片

图片

l 思路分析

图片

l 配置步骤

一.新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

图片

 

二.关键词配置及翻页链接

1.查找规律

在亚马逊首页页搜索不同关键词,发现不同关键词搜索结果的链接,只更换了图中红框部分,而红框部分正是经过转码后的关键词。

关键词为:女装第一页链接

https://www.amazon.com/-/zh/s?k=%E5%A5%B3%E8%A3%85&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1624952544&ref=sr_pg_1

图片

关键词为:女装第二页链接

https://www.amazon.com/s?k=%E5%A5%B3%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2

图片

关键词为:男装第一页链接

https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_1

图片

关键词为:男装第二页链接

https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2

图片

说明不同关键词和页数搜索出来的链接规律为

https://www.amazon.com/s?k=【关键词转码】&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_【页数】

2.高级配置

得到关键词链接拼接规则后,开始配置关键词搜索:

点击屏幕右下角【高级配置】,将采集地址填写到【请求地址】中,点击【+】添加一个参数,名称可以自定义。

此项配置是用于后期脚本能将关键词从关键词列表中取出,配置完成点击【确定】即可。

图片

3.设置搜索关键词

在关键词列表添加多个关键词用英文分号或换行隔开。

图片

4.新建脚本

关键词需要写脚本,新建一个脚本,如下所示:

图片

5.脚本配置

根据刚才的链接规律,具体配置脚本如下:

图片

脚本文本如下:

var ks = EXTRACT.GetSearch(this);var k = ks.Search();while(k)//while循环将所有关键词拼一遍{  url u;  var kw = k.wd;    var wd= u.UnEscape( kw);    for(var i=1;i<=10;i++)//for循环采集前10页数据   {     var ur = "https://www.amazon.com/s?k="+u.Escape(wd)+"&language=zh&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99"+"&qid=1624946018&ref=sr_pg_"+i;//根据链接规律拼链接  u.title = wd+"第"+i+"页"; //返回链接title    u.urlname = ur;//返回链接    u.entryid = this.id;//返回id    u.tmplid = 1;//关联模板01    RESULT.AddLink(u);    }    k = ks.Search();}ks.End();

6.效果预览:

点击【采集预览】,即可看到配置效果。

图片

三.商品链接抽取

1.从采集预览中任意复制一条链接。

图片

2.将链接复制到默认模板01的示例地址中。

图片

3.右击采集预览,可以看到爬虫抓取出来的所有链接。

图片图片

4.观察发现,这些链接就是关键词搜索出来的商品链接。并且链接中都含有【/zh/dp/】。

图片

5.选择地址过滤,选择【包含】,填入【/zh/dp/】,点击保存。则筛选出所有商品链接,商品链接就抽取出来了。

图片

6.关联模板,将模板01链接抽取关联至模板02,具体操作如下图所示:

图片

四.商品数据抽取

1.新建数据抽取

新建模板02,在模板02下建一个数据抽取,具体操作如下图所示。

图片

2.数据建表

点击图中加号,新建一个数据表,然后添加字段,各字段属性如下图所示:

图片

3.关联表单

将新建好的数据表,关联到模板中去,如下图所示:

图片

4.填写示例地址

从采集预览中任意复制一条商品的链接,填写到模板02的示例地址中。

图片

图片

5.字段抽取

字段抽取使用定位抽取的方法,选中选区后,点击【确认选区】按钮即可。

图片

图片

图片

 

6.采集预览

如下图所示,一层一层双击,进入最后数据页,即取到了数据。

图片

l 采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

1.建立采集数据表

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为amazon(注意命名不能用数字和特殊符号),点击【确定】。

图片

2.关联数据表

创建完成,勾选数据表并保存。

图片

3.开始采集

选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

图片

4.导出数据

可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

图片

 图片

导出的文件打开如下图所示:

图片

这篇关于【从零开始学爬虫】采集亚马逊商品信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022633

相关文章

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

生信代码入门:从零开始掌握生物信息学编程技能

少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 介绍 生物信息学是一个高度跨学科的领域,结合了生物学、计算机科学和统计学。随着高通量测序技术的发展,海量的生物数据需要通过编程来进行处理和分析。因此,掌握生信编程技能,成为每一个生物信息学研究者的必备能力。 生信代码入门,旨在帮助初学者从零开始学习生物信息学中的编程基础。通过学习常用

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

Verybot之OpenCV应用一:安装与图像采集测试

在Verybot上安装OpenCV是很简单的,只需要执行:         sudo apt-get update         sudo apt-get install libopencv-dev         sudo apt-get install python-opencv         下面就对安装好的OpenCV进行一下测试,编写一个通过USB摄像头采

Golang 网络爬虫框架gocolly/colly(五)

gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种: 一,最笨拙但有效的方法是字符串处理,go语言string底层对应字节数组,复制任何长度的字符串的开销都很低廉,搜索性能比较高; 二,利用正则表达式,要提取的数据往往有明显的特征,所以正则表达式写起来比较简单,不必非常严谨; 三,使

Golang网络爬虫框架gocolly/colly(四)

爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、

Golang网络爬虫框架gocolly/colly(三)

熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。(http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio) 定义数据结构体: type Zhj

014.Python爬虫系列_解析练习

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈 PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈 Oracle数据库教程:👉👉 Oracle数据库文章合集 👈👈 优

BIRT--商业智能和报表工具,从零开始

1.简介 BIRT (Business Intelligence and Reporting Tools), 是为 Web 应用程序开发的基于 Eclipse 的开源报表系统,特别之处在于它是以 Java 和 JavaEE 为基础。BIRT 有两个主要组件:基于 Eclipse 的报表设计器,以及部署到应用服务器上的运行时组件。 2.下载 官网下载网址:http://download.ec

urllib与requests爬虫简介

urllib与requests爬虫简介 – 潘登同学的爬虫笔记 文章目录 urllib与requests爬虫简介 -- 潘登同学的爬虫笔记第一个爬虫程序 urllib的基本使用Request对象的使用urllib发送get请求实战-喜马拉雅网站 urllib发送post请求 动态页面获取数据请求 SSL证书验证伪装自己的爬虫-请求头 urllib的底层原理伪装自己的爬虫-设置代理爬虫coo