前嗅教程：采集表格/列表页中的数据（翻页）

2024-06-02 01:38

文章标签 数据教程表格采集列表翻页

本文主要是介绍前嗅教程：采集表格/列表页中的数据（翻页），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

以孔夫子旧书网的最近出版板块为例（http://www.kongfz.com/1004/）为例，采集列表页的所有数据：

第一步：新建任务

①击左上角“加号”新建任务，如图1：

【图1】

②在弹窗里填写采集地址，任务名称如图2：

【图2】

③点击下一步，选择进行数据抽取还是链接抽取，本次采集需要采集当前板块的列表页所有内容，所以只需要在同一个模板中进行翻页链接抽取以及数据抽取即可。此处需要勾选“抽取链接”-“普通翻页”以及“抽取数据”，如图3：

【图3】

第二步：创建/选择表单

在ForeSpider爬虫中，表单是可以复用的，所以可以在数据表单出直接选择之前建过的表单，也可以通过表单ID来进行查找并关联数据表单。此处使用的是的旧书网的表单，如图4

方法一：通过下拉菜单或表单ID选择已有表单

方法二：点击创建表单进入快速建表页面，新建表单

【图4】

方法三：点击“采集配置”-“数据建表”，点击采“采集表单”后面的如图5

【图5】

第三步：配置表单

根据所需内容，配置表单字段（即表头），此处配置了包括标题、作者、价格三个字段，表单如图6

【图6】

第四步：字段取值

取值方法：由于此处活取的是列表页的数据，所以可以应用“识别列表”功能，直接取到列表数据，操作方法如下：

①点击“数据抽取-旧书网”，按住ctrl+鼠标左键点击任意一部分内容，如图7，选中标题

【图7】

②按住Shift+鼠标左键继续点击，直到点击到选中整个第一条数据，如图8

【图8】

③在软件的右下角可以看到“识别列表”按钮，此时点击“识别列表”，如图9，此时列表中的内容都已经选中。

【图9】

③对每个字段进行取值,方法依然是：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

如：price-cover字段

首先在左侧点到price-cover字段上,在浏览器中对该字段进行取值.

<1>按住ctrl+鼠标左键，点击“新书”

<2>按住shift+鼠标左键继续点击，直到选中图10中的全部内容

<3>点击右下角“确认选区”

【图10】

第五步：模板预览

①标右键点击“数据抽取”，然后点击“模板预览”，如图11

【图11】

②预览结果如图12

【图12】

第六步：应用定位过滤，过滤翻页链接

①标点击“链接抽取-普通翻页”，内置浏览器拉到最底端找到翻页，如图13

【图13】

②按住Ctrl+鼠标左键点击第一页，按住shift+鼠标左键，扩大选区，直到选中整行，如图14

【图14】

③点击“确认选区”

④点击“采集预览”查看链接过滤是否完全，此处由于只有一个模板，所以链接和数据在同一个预览框里，直接点击预览的结果如图15

【图15】

⑤点击“链接信息数目”，查看对应的链接，如图16，由于第9页之后直接就是第15页，如果怕中间页数取不到，可以双击第9页试试看

【图16】

第七步：采集预览

双击任意一页链接,点击“旧书网”均可得到对应的列表数据如图17

【图17】

这篇关于前嗅教程：采集表格/列表页中的数据（翻页）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1022684。 23002807@qq.com

相关文章

Python获取中国节假日数据记录入JSON文件

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢？我尝试一种更为智能的方法：P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验，

阅读更多...

Elasticsearch 在 Java 中的使用教程

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

阅读更多...

Linux系统中卸载与安装JDK的详细教程

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

阅读更多...

Linux卸载自带jdk并安装新jdk版本的图文教程

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa

阅读更多...

Java使用Curator进行ZooKeeper操作的详细教程

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3

阅读更多...

Java利用JSONPath操作JSON数据的技术指南

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath？3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

阅读更多...

springboot简单集成Security配置的教程

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》：本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig（自定义资源权限规则

阅读更多...

MySQL大表数据的分区与分库分表的实现

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区？1.2 分区的类型1.3 分区的优点1.4 分

阅读更多...

Mysql删除几亿条数据表中的部分数据的方法实现

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

阅读更多...

MySQL Workbench 安装教程(保姆级)

MySQL Workbench 安装教程(保姆级)

《MySQLWorkbench安装教程(保姆级)》MySQLWorkbench是一款强大的数据库设计和管理工具,本文主要介绍了MySQLWorkbench安装教程,文中通过图文介绍的非常详细,对大... 目录前言：详细步骤：一、检查安装的数据库版本二、在官网下载对应的mysql Workbench版本，要是

阅读更多...