前嗅ForeSpider脚本教程:脚本概述

2024-06-02 01:32

本文主要是介绍前嗅ForeSpider脚本教程:脚本概述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:

 

一.ForeSpider脚本结构

 

ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格类似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操作,函数,数组及对象定义,借助内置的采集及系统对象几乎能够完成所有的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。

 

1.频道

 

包括“频道脚本”。

 

2.模板

(1)模板配置

包括“模板脚本”。

(2)链接部分

包括“链接抽取脚本”、“链接过滤脚本”。

(3)数据部分

包括“数据抽取脚本”。

(4)字段部分

包括“字段取值脚本”、“字段处理脚本”。

 

二.脚本与可视化配置的关系

 

1.各部分配置可以完全使用脚本编写,不进行可视化操作;

2.同一步骤既进行了可视化操作的配置,又编写了脚本,则由脚本接管,可视化配置失效;

3.各步骤可以一部分使用脚本编写,一部分使用可视化操作,不重复的配置都有效,重复的配置以脚本优先接管。

 

三.各节点脚本之间的关系

 

1.上一操作层级的脚本配置区域可以编写涵盖其下面所有操作层级功能的脚本;

2.如果各层级之间的脚本有重复,以其中高层级步骤的脚本优先生效;

3.可以将脚本分散于各操作层级编写,也可以直接在最高操作层级(频道脚本)编写。

 

四.脚本编辑区介绍

 

第一级:频道配置-脚本配置

在“频道配置”时,通过使用系统内置的脚本语言对频道进行配置。

①选中该频道;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建频道脚本。

​【频道脚本】

 

第二级:模板脚本

 

模板脚本可以编写整个模板配置的脚本。

①选中该模板;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建模板脚本。

【模板脚本】

 

第三级:链接/数据抽取脚本

 

1.链接文本

链接脚本可以编写整个链接抽取的脚本。

①选中该链接抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”; 

③点击“新建”图标,即可创建链接脚本。

​【链接脚本】

2.数据抽取脚本

数据抽取脚本可以编写整个数据抽取的脚本。

①选中该数据抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,选择“数据抽取脚本/数据过滤脚本”按钮,即可生成相应的代码区。

​【选择数据抽取脚本】

​【数据抽取脚本】

 

第四级:链接过滤、字段取值/清洗脚本

 

1.链接过滤脚本

链接过滤脚本可以编写链接地址或链接标题过滤的脚本。

①选中该链接抽取;

②勾选“地址过滤/标题过滤”复选框,并选择“脚本过滤”;

③可自动生成相应的“地址过滤/标题脚本"区。

​【地址过滤脚本】

​【标题过滤脚本】

2.字段取值脚本

字段取值脚本可以编写该字段取值的脚本。

①选中该字段;

②在“采集内容”处,勾选“高级取值->脚本过滤”;

③可自动生成相应的字段取值脚本区。

​【字段取值脚本】

 

3.字段处理脚本

字段处理脚本可以编写该字段数据处理的脚本。

①选中该字段;

②在“数据清洗”处,勾选“脚本处理”;

③可自动生成相应的字段处理脚本区。

​【选择字段处理脚本】

​【字段处理脚本】

这篇关于前嗅ForeSpider脚本教程:脚本概述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022662

相关文章

Ubuntu固定虚拟机ip地址的方法教程

《Ubuntu固定虚拟机ip地址的方法教程》本文详细介绍了如何在Ubuntu虚拟机中固定IP地址,包括检查和编辑`/etc/apt/sources.list`文件、更新网络配置文件以及使用Networ... 1、由于虚拟机网络是桥接,所以ip地址会不停地变化,接下来我们就讲述ip如何固定 2、如果apt安

PyCharm 接入 DeepSeek最新完整教程

《PyCharm接入DeepSeek最新完整教程》文章介绍了DeepSeek-V3模型的性能提升以及如何在PyCharm中接入和使用DeepSeek进行代码开发,本文通过图文并茂的形式给大家介绍的... 目录DeepSeek-V3效果演示创建API Key在PyCharm中下载Continue插件配置Con

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

在不同系统间迁移Python程序的方法与教程

《在不同系统间迁移Python程序的方法与教程》本文介绍了几种将Windows上编写的Python程序迁移到Linux服务器上的方法,包括使用虚拟环境和依赖冻结、容器化技术(如Docker)、使用An... 目录使用虚拟环境和依赖冻结1. 创建虚拟环境2. 冻结依赖使用容器化技术(如 docker)1. 创

关于最长递增子序列问题概述

《关于最长递增子序列问题概述》本文详细介绍了最长递增子序列问题的定义及两种优化解法:贪心+二分查找和动态规划+状态压缩,贪心+二分查找时间复杂度为O(nlogn),通过维护一个有序的“尾巴”数组来高效... 一、最长递增子序列问题概述1. 问题定义给定一个整数序列,例如 nums = [10, 9, 2

Spring Boot整合log4j2日志配置的详细教程

《SpringBoot整合log4j2日志配置的详细教程》:本文主要介绍SpringBoot项目中整合Log4j2日志框架的步骤和配置,包括常用日志框架的比较、配置参数介绍、Log4j2配置详解... 目录前言一、常用日志框架二、配置参数介绍1. 日志级别2. 输出形式3. 日志格式3.1 PatternL

MySQL8.2.0安装教程分享

《MySQL8.2.0安装教程分享》这篇文章详细介绍了如何在Windows系统上安装MySQL数据库软件,包括下载、安装、配置和设置环境变量的步骤... 目录mysql的安装图文1.python访问网址2javascript.点击3.进入Downloads向下滑动4.选择Community Server5.

CentOS系统Maven安装教程分享

《CentOS系统Maven安装教程分享》本文介绍了如何在CentOS系统中安装Maven,并提供了一个简单的实际应用案例,安装Maven需要先安装Java和设置环境变量,Maven可以自动管理项目的... 目录准备工作下载并安装Maven常见问题及解决方法实际应用案例总结Maven是一个流行的项目管理工具

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

10个Python自动化办公的脚本分享

《10个Python自动化办公的脚本分享》在日常办公中,我们常常会被繁琐、重复的任务占据大量时间,本文为大家分享了10个实用的Python自动化办公案例及源码,希望对大家有所帮助... 目录1. 批量处理 Excel 文件2. 自动发送邮件3. 批量重命名文件4. 数据清洗5. 生成 PPT6. 自动化测试