前嗅forespider---关键词采集【检索结果】

2023-12-09 05:40

文章标签 检索采集关键词 forespider

本文主要是介绍前嗅forespider---关键词采集【检索结果】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

如何采集关键词检索结果，今天前嗅大数据就以古诗文网为例为大家演示，话不多说一起看看吧。

一. 网站内容

1. 网站截图说明

本教程通过“古诗文网”官网来采集所需“关键词”的正文数据，本教程以关键词“鹅鹅鹅”为例，故链接入口为：https://so.gushiwen.org/search.aspx?value=%E9%B9%85%E9%B9%85%E9%B9%85

Step1：在官网输入关键词“鹅鹅鹅”，如图所示：

Step2：复制该页面的链接，作为本次采集地址。

一. 操作方法

1. 新建任务

按图片数字所示，1-2-3完成新建任务的步骤

Step1：点击“采集配置”，点击【任务列表】中的“+”，新建采集任务。

Step2：在图示2位置中输入，对应“鹅鹅鹅”关键词下的网页地址。

Step3：勾选“关键词采集”，此步骤不可省略否则无法获取我们所需的数据，完成后点击“下一步”。

需要采集正文数据，所以此处需要勾选【抽取链接】和“网页内所有链接”、【抽取数据】，点击完成即可。

【新建采集任务】

2. 关键词配置

按图片数字所示，1-2-3完成新建任务的步骤

Step1：点击图1所示左侧点击“新建任务”。

Step2：按照图2所示，点击右下角的“关键词”。

Step3：按照图3所示，在关键词列表中输入“鹅鹅鹅”。

注：在操作过程中要记得随时点击“保存”，随时保存进度。

Step1：点击图1所示左侧点击“链接抽取：网页全部链接”。

Step2：按照图2所示，Ctrl+左键点击搜索框，目的是建立搜索选区，方便关键词的采集。

Step3：按照图3所示，点击“确认选区”。

3. 数据建表

按图片数字所示，1-2-3完成数据建表的操作

如图示点击【数据建表】：

Step1：点击“采集配置”

Step2：选择“数据建表”

Step2：点击“+”，新建表单并自定义名称，这里取“李白”

根据所需内容，配置表单字段，此处配置了包括主键、诗词标题、诗句、作者。表单建立如下：

【创建主键】

字段名称：id

采集内容选择“主键”，此处选“网页主键”。

数据类型选择“长数字”

字段属性选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

【创建字段1-标题】

字段名称：tittle

采集内容选择“选区内可见文本”

数据类型选择“长数字”

备注可随意写，比如：标题

【创建字段2-作者】

字段名称：author

采集内容选择“选区内可见文本”

数据类型选择“长数字”

备注可随意写，比如：作者

【创建字段3-诗句内容】

字段名称：content

采集内容选择“选区内可见文本”

数据类型选择“长数字”

备注可随意写，比如：诗句

最终数据表配置如下图即可：

4. 创建关联数据表

表单配置完毕后，需要进行数据关联，操作如下：

选择刚才建立的“人上人数据”，点击【创建】按钮，即可生成对应的“关联数据表”。

创建表名称可随意填写，需注意仅可使用“全英文”，最后点击确定即可完成。

注意：创建完成后，记得“勾选”

5. 数据建表确认选区

Step1：点击图1所示左侧点击“数据抽取：李白”。

Step2：按照图2所示，在“数据表单”下滑列表中选择刚才创建的表单“李白”进行匹配。

Tittle选区选取：

Step1：点击左侧“tittle”

Step2：Ctrl+左键选择图示2位置的标题

Step3：点击图示3位置的“确认选区”即可完成

author选区选取：

Step1：点击左侧“author”

Step2：Ctrl+左键选择图示2位置的作者

Step3：点击图示3位置的“确认选区”即可完成

一. 关键词检索结果预览

右键图示红框位置（页面左侧）的“默认模板：01”，选择“模板预览”，即可进行检索结果查询，如下图所示：

这篇关于前嗅forespider---关键词采集【检索结果】的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/472659。 23002807@qq.com

相关文章

Redis存储的列表分页和检索的实现方法

Redis存储的列表分页和检索的实现方法

《Redis存储的列表分页和检索的实现方法》在Redis中,列表（List）是一种有序的数据结构,通常用于存储一系列元素,由于列表是有序的,可以通过索引来访问元素,因此可以很方便地实现分页和检索功能,... 目录一、Redis 列表的基本操作二、分页实现三、检索实现3.1 方法 1：客户端过滤3.2 方法

阅读更多...

Verybot之OpenCV应用一：安装与图像采集测试

Verybot之OpenCV应用一：安装与图像采集测试

在Verybot上安装OpenCV是很简单的，只需要执行： sudo apt-get update sudo apt-get install libopencv-dev sudo apt-get install python-opencv 下面就对安装好的OpenCV进行一下测试，编写一个通过USB摄像头采

阅读更多...

zblog自定义关键词和描述，zblog做seo优化必备插件

zblog自定义关键词和描述，zblog做seo优化必备插件

zblog自定义关键词和描述，zblog做seo优化必备插件首先说下用到的一款插件：CustomMeta自定义数据字段，我们这里用到的版本是1.1，1.1+版增加了列表页标签支持！插件介绍：文章,分类等添加自定义数据字段。1.1+版适用于 Z-Blog 2.0 B2以上版本。在zblog2.0beta1里面，这个插件是集成到了程序里面，beta2里面默认没有了

阅读更多...

一个统计文件中关键词数量的小程序-优化版本

一个统计文件中关键词数量的小程序-优化版本

public class computeWxxFileNum{public static void main(String[] args) throws IOException {//读文件File sourceFile = new File("e:\\55-tmp\\xxx.log");FileReader in = new FileReader(sourceFile); LineNumber

阅读更多...

一个统计文件中关键词数量的小程序

一个统计文件中关键词数量的小程序

public class computeFileNum{public static void main(String[] args) throws IOException {File sourceFile = new File("e:\\55-tmp\\xxx.log"); FileReader in = new FileReader(sourceFile); LineNumberReader

阅读更多...

利用PL/SQL工具连接Oracle数据库的时候，报错：ORA-12638: 身份证明检索失败的解决办法

利用PL/SQL工具连接Oracle数据库的时候，报错：ORA-12638: 身份证明检索失败的解决办法

找到相对应的安装目录：比如：E:\oracle\product\10.2.0\client_1\NETWORK\ADMIN 在里面找到：SQLNET.AUTHENTICATION_SERVICES= (NTS) 将其更改为：SQLNET.AUTHENTICATION_SERVICES= (BEQ,NONE) 或者注释掉：#SQLNET.AUTHENTICATION_SERVICES= (N

阅读更多...

Python 爬虫入门 - 基础数据采集

Python 爬虫入门 - 基础数据采集

Python网络爬虫是一种强大且灵活的工具，用于从互联网上自动化地获取和处理数据。无论你是数据科学家、市场分析师，还是一个想要深入了解互联网数据的开发者，掌握网络爬虫技术都将为你打开一扇通向丰富数据资源的大门。在本教程中，我们将从基本概念入手，逐步深入了解如何构建和优化网络爬虫，涵盖从发送请求、解析网页结构到保存数据的全过程，并讨论如何应对常见的反爬虫机制。通过本教程，你将能够构建有效的网络爬

阅读更多...

【网络安全 | 甲方建设】开发、测试、部署关键词详解

【网络安全 | 甲方建设】开发、测试、部署关键词详解

原创文章，不得转载。文章目录需求与开发原生需求重构新增服务调用测试与覆盖率单元测试增量代码单测UT覆盖率CR前覆盖率APP回归测试回归测试自动化冒烟部署与环境Stable环境部署待部署服务名称代码分支待部署代码分支PR链接灰度发布蓝绿发布Canary发布热修复（Hotfix）Mock环境Redis非Cluster模式Nacos变更持续集成与交付持续集成（CI）持续交付（C

阅读更多...

Python高效实现支持最小元素检索的栈

Python高效实现支持最小元素检索的栈

Python高效实现支持最小元素检索的栈在Python面试中，考官通常会关注候选人的编程能力、问题解决能力以及对Python语言特性的理解。一个常见的面试题目是实现一个栈，支持 push、pop、top 操作，并能在常数时间内检索到最小元素。本文将详细介绍如何实现这个功能，确保代码实用性强，条理清晰，操作性强。 1. 引言栈是一种后进先出（LIFO）的数据结构，常用于解决递归、表达式求值

阅读更多...

当天审稿，当天上线，9月检索！

当天审稿，当天上线，9月检索！

各领域CNKI知网普刊，最快一期预计下周送检，最快1天上线领域广，计算机，社科，医学等各个方向都能收包检索，可提供期刊部发票知名出版社英文普刊 NO.1、Food Science and Nutrition Studies ISSN: 2573-1661 审稿周期：1个工作日内录用通知：投稿后1个工作日检索时间：9月份接收范围：公共医学、社会医学 1-4周

阅读更多...