前嗅forespider---关键词采集【检索结果】

2023-12-09 05:40

本文主要是介绍前嗅forespider---关键词采集【检索结果】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如何采集关键词检索结果,今天前嗅大数据就以古诗文网为例为大家演示,话不多说一起看看吧。

一. 网站内容

1. 网站截图说明

本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“鹅鹅鹅”为例,故链接入口为:https://so.gushiwen.org/search.aspx?value=%E9%B9%85%E9%B9%85%E9%B9%85

 

Step1:在官网输入关键词“鹅鹅鹅”,如图所示:

 

Step2:复制该页面的链接,作为本次采集地址。

 

一. 操作方法

1. 新建任务

按图片数字所示,1-2-3完成新建任务的步骤

 

Step1:点击“采集配置”,点击【任务列表】中的“+”,新建采集任务。

Step2:在图示2位置中输入,对应“鹅鹅鹅”关键词下的网页地址。

Step3:勾选“关键词采集”,此步骤不可省略否则无法获取我们所需的数据,完成后点击“下一步”。

 

需要采集正文数据,所以此处需要勾选【抽取链接】和“网页内所有链接”、【抽取数据】,点击完成即可。

【新建采集任务】

 

2. 关键词配置

按图片数字所示,1-2-3完成新建任务的步骤

 

Step1:点击图1所示左侧点击“新建任务”。

Step2:按照图2所示,点击右下角的“关键词”。

Step3:按照图3所示,在关键词列表中输入“鹅鹅鹅”。

 

注:在操作过程中要记得随时点击“保存”,随时保存进度。

Step1:点击图1所示左侧点击“链接抽取:网页全部链接”。

Step2:按照图2所示,Ctrl+左键 点击搜索框,目的是建立搜索选区,方便关键词的采集。

Step3:按照图3所示,点击“确认选区”。

 

3. 数据建表

按图片数字所示,1-2-3完成数据建表的操作

如图示点击【数据建表】:

Step1:点击“采集配置”

Step2:选择“数据建表”

Step2:点击“+”,新建表单并自定义名称,这里取“李白”

 

 

根据所需内容,配置表单字段,此处配置了包括主键、诗词标题、诗句、作者。表单建立如下:

【创建主键】

 

字段名称:id

采集内容 选择“主键”,此处选“网页主键”。

数据类型 选择“长数字”

字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

【创建字段1-标题】

 

字段名称:tittle

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:标题

 

 

【创建字段2-作者】

 

字段名称:author

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:作者

 

【创建字段3-诗句内容】

 

字段名称:content

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:诗句

最终数据表配置如下图即可:

 

4. 创建关联数据表

表单配置完毕后,需要进行数据关联,操作如下:

 

选择刚才建立的“人上人数据”,点击【创建】按钮,即可生成对应的“关联数据表”。

创建表名称可随意填写,需注意 仅可使用“全英文”,最后点击 确定 即可完成。

 

 

注意:创建完成后,记得“勾选”

 

5. 数据建表 确认选区

 

Step1:点击图1所示左侧点击“数据抽取:李白”。

Step2:按照图2所示,在“数据表单”下滑列表中选择刚才创建的表单“李白”进行匹配。

 

Tittle选区选取:

Step1:点击左侧“tittle”

Step2:Ctrl+左键选择图示2位置的标题

Step3:点击图示3位置的“确认选区”即可完成

 

author选区选取:

Step1:点击左侧“author”

Step2:Ctrl+左键选择图示2位置的作者

Step3:点击图示3位置的“确认选区”即可完成

 

一. 关键词 检索结果预览

 

右键图示红框位置(页面左侧)的“默认模板:01”,选择“模板预览”,即可进行检索结果查询,如下图所示:

 

 

这篇关于前嗅forespider---关键词采集【检索结果】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/472659

相关文章

Redis存储的列表分页和检索的实现方法

《Redis存储的列表分页和检索的实现方法》在Redis中,列表(List)是一种有序的数据结构,通常用于存储一系列元素,由于列表是有序的,可以通过索引来访问元素,因此可以很方便地实现分页和检索功能,... 目录一、Redis 列表的基本操作二、分页实现三、检索实现3.1 方法 1:客户端过滤3.2 方法

Verybot之OpenCV应用一:安装与图像采集测试

在Verybot上安装OpenCV是很简单的,只需要执行:         sudo apt-get update         sudo apt-get install libopencv-dev         sudo apt-get install python-opencv         下面就对安装好的OpenCV进行一下测试,编写一个通过USB摄像头采

zblog自定义关键词和描述,zblog做seo优化必备插件

zblog自定义关键词和描述,zblog做seo优化必备插件     首先说下用到的一款插件:CustomMeta自定义数据字段 ,我们这里用到的版本是1.1,1.1+版增加了列表页标签支持!     插件介绍:文章,分类等添加自定义数据字段。1.1+版适用于 Z-Blog 2.0 B2以上版本。     在zblog2.0beta1里面,这个插件是集成到了程序里面,beta2里面默认没有了

一个统计文件中关键词数量的小程序-优化版本

public class computeWxxFileNum{public static void main(String[] args) throws IOException {//读文件File sourceFile = new File("e:\\55-tmp\\xxx.log");FileReader in = new FileReader(sourceFile); LineNumber

一个统计文件中关键词数量的小程序

public class computeFileNum{public static void main(String[] args) throws IOException {File sourceFile = new File("e:\\55-tmp\\xxx.log"); FileReader in = new FileReader(sourceFile); LineNumberReader

利用PL/SQL工具连接Oracle数据库的时候,报错:ORA-12638: 身份证明检索失败的解决办法

找到相对应的安装目录:比如:E:\oracle\product\10.2.0\client_1\NETWORK\ADMIN 在里面找到:SQLNET.AUTHENTICATION_SERVICES= (NTS) 将其更改为:SQLNET.AUTHENTICATION_SERVICES= (BEQ,NONE) 或者注释掉:#SQLNET.AUTHENTICATION_SERVICES= (N

Python 爬虫入门 - 基础数据采集

Python网络爬虫是一种强大且灵活的工具,用于从互联网上自动化地获取和处理数据。无论你是数据科学家、市场分析师,还是一个想要深入了解互联网数据的开发者,掌握网络爬虫技术都将为你打开一扇通向丰富数据资源的大门。 在本教程中,我们将从基本概念入手,逐步深入了解如何构建和优化网络爬虫,涵盖从发送请求、解析网页结构到保存数据的全过程,并讨论如何应对常见的反爬虫机制。通过本教程,你将能够构建有效的网络爬

【网络安全 | 甲方建设】开发、测试、部署关键词详解

原创文章,不得转载。 文章目录 需求与开发原生需求重构新增服务调用 测试与覆盖率单元测试增量代码单测UT覆盖率CR前覆盖率APP回归测试回归测试自动化冒烟 部署与环境Stable环境部署待部署服务名称代码分支待部署代码分支PR链接灰度发布蓝绿发布Canary发布热修复(Hotfix)Mock环境Redis非Cluster模式Nacos变更 持续集成与交付持续集成(CI)持续交付(C

Python高效实现支持最小元素检索的栈

Python高效实现支持最小元素检索的栈 在Python面试中,考官通常会关注候选人的编程能力、问题解决能力以及对Python语言特性的理解。一个常见的面试题目是实现一个栈,支持 push、pop、top 操作,并能在常数时间内检索到最小元素。本文将详细介绍如何实现这个功能,确保代码实用性强,条理清晰,操作性强。 1. 引言 栈是一种后进先出(LIFO)的数据结构,常用于解决递归、表达式求值

当天审稿,当天上线,9月检索!

各领域CNKI知网普刊,最快一期预计下周送检,最快1天上线 领域广,计算机,社科,医学等各个方向都能收 包检索,可提供期刊部发票 知名出版社英文普刊 NO.1、Food Science and Nutrition Studies ISSN: 2573-1661 审稿周期:1个工作日内 录用通知:投稿后1个工作日 检索时间:9月份 接收范围: 公共医学、社会医学 1-4周