使用前嗅ForeSpider采集网页链接/源码/时间/重定向地址等

本文主要是介绍使用前嗅ForeSpider采集网页链接/源码/时间/重定向地址等,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

【图1】

②弹窗里填写采集地址,任务名称,如图2:

【图2】

③ 点击下一步,勾选抽取链接,选择网页内所有链接,如图3:

【图3】

④完成后模板抽取配置列表有一个模板,默认模板。默认模板下自动生成一个链接抽取,名称为网页全部链接,如4:

【图4】

第二步:创建新的模板,并新建数据抽取

①模板配置,点击“新建模板”按钮,得到新建模板,如图5。

【图5】

②新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图6。

 

【图6】

③关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

根据网页跳转规律,将“网页全部链接”关联模板“新建模板02”,如图7:

 

【图7】

第三步:创建/选择表单

①在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的方法三,如图8。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图8。

【图8】

②配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、网页创建时间、网页获取时间、网页地址、全区内网页源码(包含当前标签)、选取内全部文本、选取内网页源码以及网页标题八个字段,表单如图9。

【图9】

以下字段为软件自带字段类型,无需确定选取取值。

网页主键:网页唯一标识。

网页创建时间:文档创建或网页发布的时间。

网页获取时间:ForeSpider采集该网页的时间。

网页地址:自动采集网页的URL地址。

选区内网页源码(包含当前标签):采集选区内全部源代码,包含当前节点标签等,即整个选区的源代码。

选区内全部文本:最常用的类型。点击Ctrl选择绿框后,采集选区里的全部内容

选区内网页源码:采集选区内全部源代码,不包含当前节点标签等。

网页标题:采集网页的标题。即网页<title>中的内容。

③ 数据抽取链接处关联表单,如图10。

【图10】

第四步:采集预览

①点击击右上角采集预览,如图11。

【图11】

②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图12、图13。

【图12】

 

【图13】

这篇关于使用前嗅ForeSpider采集网页链接/源码/时间/重定向地址等的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022686

相关文章

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

oracle DBMS_SQL.PARSE的使用方法和示例

《oracleDBMS_SQL.PARSE的使用方法和示例》DBMS_SQL是Oracle数据库中的一个强大包,用于动态构建和执行SQL语句,DBMS_SQL.PARSE过程解析SQL语句或PL/S... 目录语法示例注意事项DBMS_SQL 是 oracle 数据库中的一个强大包,它允许动态地构建和执行

Ubuntu固定虚拟机ip地址的方法教程

《Ubuntu固定虚拟机ip地址的方法教程》本文详细介绍了如何在Ubuntu虚拟机中固定IP地址,包括检查和编辑`/etc/apt/sources.list`文件、更新网络配置文件以及使用Networ... 1、由于虚拟机网络是桥接,所以ip地址会不停地变化,接下来我们就讲述ip如何固定 2、如果apt安

SpringBoot中使用 ThreadLocal 进行多线程上下文管理及注意事项小结

《SpringBoot中使用ThreadLocal进行多线程上下文管理及注意事项小结》本文详细介绍了ThreadLocal的原理、使用场景和示例代码,并在SpringBoot中使用ThreadLo... 目录前言技术积累1.什么是 ThreadLocal2. ThreadLocal 的原理2.1 线程隔离2