前嗅ForeSpider脚本教程:脚本概述

2024-06-02 01:32

本文主要是介绍前嗅ForeSpider脚本教程:脚本概述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:

 

一.ForeSpider脚本结构

 

ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格类似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操作,函数,数组及对象定义,借助内置的采集及系统对象几乎能够完成所有的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。

 

1.频道

 

包括“频道脚本”。

 

2.模板

(1)模板配置

包括“模板脚本”。

(2)链接部分

包括“链接抽取脚本”、“链接过滤脚本”。

(3)数据部分

包括“数据抽取脚本”。

(4)字段部分

包括“字段取值脚本”、“字段处理脚本”。

 

二.脚本与可视化配置的关系

 

1.各部分配置可以完全使用脚本编写,不进行可视化操作;

2.同一步骤既进行了可视化操作的配置,又编写了脚本,则由脚本接管,可视化配置失效;

3.各步骤可以一部分使用脚本编写,一部分使用可视化操作,不重复的配置都有效,重复的配置以脚本优先接管。

 

三.各节点脚本之间的关系

 

1.上一操作层级的脚本配置区域可以编写涵盖其下面所有操作层级功能的脚本;

2.如果各层级之间的脚本有重复,以其中高层级步骤的脚本优先生效;

3.可以将脚本分散于各操作层级编写,也可以直接在最高操作层级(频道脚本)编写。

 

四.脚本编辑区介绍

 

第一级:频道配置-脚本配置

在“频道配置”时,通过使用系统内置的脚本语言对频道进行配置。

①选中该频道;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建频道脚本。

​【频道脚本】

 

第二级:模板脚本

 

模板脚本可以编写整个模板配置的脚本。

①选中该模板;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建模板脚本。

【模板脚本】

 

第三级:链接/数据抽取脚本

 

1.链接文本

链接脚本可以编写整个链接抽取的脚本。

①选中该链接抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”; 

③点击“新建”图标,即可创建链接脚本。

​【链接脚本】

2.数据抽取脚本

数据抽取脚本可以编写整个数据抽取的脚本。

①选中该数据抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,选择“数据抽取脚本/数据过滤脚本”按钮,即可生成相应的代码区。

​【选择数据抽取脚本】

​【数据抽取脚本】

 

第四级:链接过滤、字段取值/清洗脚本

 

1.链接过滤脚本

链接过滤脚本可以编写链接地址或链接标题过滤的脚本。

①选中该链接抽取;

②勾选“地址过滤/标题过滤”复选框,并选择“脚本过滤”;

③可自动生成相应的“地址过滤/标题脚本"区。

​【地址过滤脚本】

​【标题过滤脚本】

2.字段取值脚本

字段取值脚本可以编写该字段取值的脚本。

①选中该字段;

②在“采集内容”处,勾选“高级取值->脚本过滤”;

③可自动生成相应的字段取值脚本区。

​【字段取值脚本】

 

3.字段处理脚本

字段处理脚本可以编写该字段数据处理的脚本。

①选中该字段;

②在“数据清洗”处,勾选“脚本处理”;

③可自动生成相应的字段处理脚本区。

​【选择字段处理脚本】

​【字段处理脚本】

这篇关于前嗅ForeSpider脚本教程:脚本概述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022662

相关文章

springboot使用Scheduling实现动态增删启停定时任务教程

《springboot使用Scheduling实现动态增删启停定时任务教程》:本文主要介绍springboot使用Scheduling实现动态增删启停定时任务教程,具有很好的参考价值,希望对大家有... 目录1、配置定时任务需要的线程池2、创建ScheduledFuture的包装类3、注册定时任务,增加、删

如何为Yarn配置国内源的详细教程

《如何为Yarn配置国内源的详细教程》在使用Yarn进行项目开发时,由于网络原因,直接使用官方源可能会导致下载速度慢或连接失败,配置国内源可以显著提高包的下载速度和稳定性,本文将详细介绍如何为Yarn... 目录一、查询当前使用的镜像源二、设置国内源1. 设置为淘宝镜像源2. 设置为其他国内源三、还原为官方

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

Java使用ANTLR4对Lua脚本语法校验详解

《Java使用ANTLR4对Lua脚本语法校验详解》ANTLR是一个强大的解析器生成器,用于读取、处理、执行或翻译结构化文本或二进制文件,下面就跟随小编一起看看Java如何使用ANTLR4对Lua脚本... 目录什么是ANTLR?第一个例子ANTLR4 的工作流程Lua脚本语法校验准备一个Lua Gramm

IDEA自动生成注释模板的配置教程

《IDEA自动生成注释模板的配置教程》本文介绍了如何在IntelliJIDEA中配置类和方法的注释模板,包括自动生成项目名称、包名、日期和时间等内容,以及如何定制参数和返回值的注释格式,需要的朋友可以... 目录项目场景配置方法类注释模板定义类开头的注释步骤类注释效果方法注释模板定义方法开头的注释步骤方法注

Python虚拟环境终极(含PyCharm的使用教程)

《Python虚拟环境终极(含PyCharm的使用教程)》:本文主要介绍Python虚拟环境终极(含PyCharm的使用教程),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录一、为什么需要虚拟环境?二、虚拟环境创建方式对比三、命令行创建虚拟环境(venv)3.1 基础命令3

使用Node.js制作图片上传服务的详细教程

《使用Node.js制作图片上传服务的详细教程》在现代Web应用开发中,图片上传是一项常见且重要的功能,借助Node.js强大的生态系统,我们可以轻松搭建高效的图片上传服务,本文将深入探讨如何使用No... 目录准备工作搭建 Express 服务器配置 multer 进行图片上传处理图片上传请求完整代码示例

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.

Python 安装和配置flask, flask_cors的图文教程

《Python安装和配置flask,flask_cors的图文教程》:本文主要介绍Python安装和配置flask,flask_cors的图文教程,本文通过图文并茂的形式给大家介绍的非常详细,... 目录一.python安装:二,配置环境变量,三:检查Python安装和环境变量,四:安装flask和flas

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA