使用前嗅ForeSpider在同一个网站中从另一页面采集数据

2024-06-02 01:38

文章标签 数据网站使用采集同一个一页 forespider

本文主要是介绍使用前嗅ForeSpider在同一个网站中从另一页面采集数据，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第一步：新建任务

①点击左上角“加号”新建任务，如图1：

【图1】

②在弹窗里填写采集地址，任务名称，如图2：

【图2】

③点击下一步，选择进行数据抽取还是链接抽取，本次采集企业最新动态链接列表，所以点击抽取链接，选择链接列表，如图3：

【图3】

④完成之后，在模板抽取配置下生成两个模板，默认模板：01和链接列表：02。模板1中的“链接列表”链接抽取已与模板2关联，如图4。如果配置的时候发现关联有问题，可以自己进行更改。

【图4】

第二步：使用定位过滤，得到列表链接

①按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

②点击确认选区，如图5：

【图5】

③点击采集预览，确认链接抽取是否正确，如图6：

【图6】

第三步：在模板2添加示例地址，并添加链接抽取

①将模板1过滤得到的任意一条链接，作为模板2的示例地址。如：http://blog.11467.com/b427516.htm，如图7：

【图7】

②新建链接抽取。直接点击模板2，点击上面“新建链接抽取”按钮，得到链接抽取，如图8。

【图8】

③关联模板

在软件中模板的关联关系，与网页中链接跳转的关系相同。

根据网页跳转规律，模板1中的“链接列表”链接抽取已与模板2关联。如果配置的时候发现关联有问题，可以自己进行更改。

第四步：使用定位过滤，得到列表链接

①按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

②点击确认选区，如图9：

【图9】

③右击模板预览，查看链接抽取结果，如图10所示：

【图10】

④确认链接抽取是否正确，如图11：

【图11】

第五步：新建模板3添加示例地址，并添加链接抽取

①新建模板3，将模板2过滤得到的链接，作为模板3的示例地址。如：http://93358999.b2b.11467.com，如图12：

【图12】

②新建链接抽取。直接点击模板3，点击上面“新建链接抽取”按钮，得到链接抽取，如图13。

【图13】

③关联链接列表的“新建链接抽取”。

根据网页跳转规律，将模板2链接列表的“新建链接抽取”关联模板3。如果配置的时候发现关联有问题，可以自己进行更改，如图14：

【图14】

第六步：使用定位过滤，得到导航列表的链接

①按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

②点击确认选区，如图15：

【图15】

③右击模板预览，查看链接抽取结果，如图16所示：

【图16】

④确认链接抽取是否正确，如图17：

【图17】

⑤使用标题过滤，得到“联系我们”的链接，如图18所示：

【图18】

第七步：新建模板4添加示例地址，并添加链接抽取

①新建模板4，将模板3过滤得到的“联系我们”链接，作为模板4的示例地址。如：http://tianjin0311065.11467.com/contact.asp，如图19：

【图19】

②新建数据抽取。直接点击模板3，点击上面“新建数据抽取”按钮，得到数据抽取，如图20。

【图20】

③关联模板3的“新建链接抽取”。

根据网页跳转规律，将模板3的“新建链接抽取”关联模板4。如果配置的时候发现关联有问题，可以自己进行更改，如图21：

【图21】

第八步：创建/选择表单

在ForeSpider爬虫中，表单是可以复用的，所以可以在数据表单出直接选择之前建过的表单，也可以通过表单ID来进行查找并关联数据表单。此处使用的是方法三。

方法一：通过下拉菜单或表单ID选择已有表单

方法二：点击创建表单进入快速建表页面，新建表单，如图22所示。

【图22】

方法三：点击“采集配置”-“数据建表”，点击采“采集表单”后面的，如图23：

【图23】

第九步：配置表单

根据所需内容，配置表单字段（即表头），此处配置了包括网页主键、联系人、电话、地址以及公司介绍五个字段。其中，公司介绍字段intro_text的取值在同一网站的不同页面，需要用到脚本取值，配置类型时需要选择高级取值>模板取值，表单如图24：

【图24】

第十步：字段取值

①关联表单，如图25所示：

【图25】

②取值方法：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

person、tel、addr字段，如图26：

【图26】

③intro_text字段需要进行模板取值。

第十一步：创建新的模板，添加示例地址

①表单intro_text字段来自公司介绍，如图27所示。

【图27】

图中红框部分为取值内容，如图28所示：

【图28】

②新建模板，添加“公司介绍”链接为示例地址，如：http://93358999.b2b.11467.com/about.asp（模板3右击模板预览，选择全部链接），如图29所示：

【图29】

③直接点击模板5，点击上面“新建数据抽取”按钮，得到数据抽取，如图30：

【图30】

第十二步：创建/选择表单

点击“采集配置”-“数据建表”，点击采“采集表单”后面的，如图31：

【图31】

第十三步：配置表单

根据所需内容，配置表单字段（即表头），此处配置了“公司介绍”字段intro_text表单如图32：

【图32】

第十四步：关联表单，完成“公司介绍”字段抽取

①点击模板5，关联表单，如图33所示：

【图33】

②使用字段定位取值方法。

按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域，确认选区，如图34所示。

【图34】

③右击模板预览，如图35所示：

【图35】

④模板预览结果，如图36所示：

【图36】

第十五步：模板取值关联

①点击模板4，点击intro_text字段，在红框中填入“href=[5]”，并按住Ctrl+鼠标左键，进行区域选择，如图37所示。

“[ ]”中填写模板ID。

【图37】

②点击模板4，右击模板预览，如图38所示：

【图38】

③预览结果如图39所示：

【图39】

第十六步：采集预览

①点击右上角采集预览,如图40：

【图40】

②双击任意一条链接，看看是否可以得到和网页对应的规整的数据，如图41、42、43所示。

【图41】

【图42】

【图43】

这篇关于使用前嗅ForeSpider在同一个网站中从另一页面采集数据的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1022687。 23002807@qq.com

相关文章

如何使用 Python 读取 Excel 数据

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》：本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

阅读更多...

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》：本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

阅读更多...

Spring 请求之传递 JSON 数据的操作方法

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

阅读更多...

Python使用getopt处理命令行参数示例解析(最佳实践)

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数？getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

阅读更多...

C 语言中enum枚举的定义和使用小结

C 语言中enum枚举的定义和使用小结

《C语言中enum枚举的定义和使用小结》在C语言里,enum（枚举）是一种用户自定义的数据类型,它能够让你创建一组具名的整数常量,下面我会从定义、使用、特性等方面详细介绍enum,感兴趣的朋友一起看... 目录1、引言2、基本定义3、定义枚举变量4、自定义枚举常量的值5、枚举与switch语句结合使用6、枚

阅读更多...

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

阅读更多...

C++如何通过Qt反射机制实现数据类序列化

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类，并对数据类进行存储、打印、调试等操作。由于数据类

阅读更多...

使用Python实现图像LBP特征提取的操作方法

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

阅读更多...

Maven的使用和配置国内源的保姆级教程

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

阅读更多...

Python中__init__方法使用的深度解析

Python中init方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程（OOP）体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

阅读更多...