前嗅教程：采集正文数据（翻页）

2024-06-02 01:38

文章标签 数据教程采集翻页正文

本文主要是介绍前嗅教程：采集正文数据（翻页），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第一步：新建任务

①点击左上角“加号”新建任务，如图1：

【图1】

②在弹窗里填写采集地址，任务名称如图2：

【图2】

③点击下一步，选择进行数据抽取还是链接抽取，本次采集当前列表页新闻的正文数据，正文数据是通过点击列表链接进入的，所以本次需要抽取列表链接，所以点击抽取链接，如图3：

【图3】

第二步：通过智能过滤，得到所需链接。

①按住Ctrl+鼠标左键点击所需链接；

②点击“智能过滤”按钮，如图4：

【图4】

第三步：点击采集预览确认链接是否过滤完全，如图5

【图5】

第四步：创建翻页链接抽取

方法一：创建任务，勾选链接抽取，直接选择链接列表和普通翻页，如图6

【图6】

方法二：如果创建任务时，只勾选了链接列表，可以点击上一步，回到模板层，补选翻页链接抽取，点击下一步，创建翻页链接

方法三：直接点击模板二，点击上面“新建链接抽取” 按钮，得到链接抽取，如图7

【图7】

第五步：通过标题过滤，过滤翻页链接

①点击采集预览，我们可以发现，翻页链接即为名为上一页、下一页两条链接。对于翻页，只需要取到标题名为“下一页”的链接即可。

②这里应用标题过滤，过滤规则选择“包含”，过滤串填写“下一页”即可。如图8

【图8】

④击采集预览查看是否过滤成功，如图9

【图9】

第六步：关联模板

在软件中模板的关联关系，与网页中链接跳转的关系相同。

①关联“链接列表”

根据网页跳转规律，将“链接列表”关联模板二“链接列表：02”，此处由于我们开始就选择了创建列表链接，所以软件自动关联好了模板二。如果配置的时候发现关联有问题，可以自己进行更改，如图10

【图10】

②关联“翻页”（对应第四步创建翻页链接抽取）

情况一：创建模板或通过向导，创建的翻页链接抽取，会默认关联模板一，即当前页模板，如图11。

情况二：手动点击按钮创建翻页链接抽取，需要手动关联，如图11。

【图11】

第七步：填写模板二示例地址并新建数据抽取

①将模板一过滤得到的任意一条链接，作为模板二的示例地址。如：http://pl.ifeng.com/opinion/zhengnengliang/497/1.shtml，见图12

【图12】

②新建数据抽取

方法一：通过点击“下一步”后勾选抽取数据，再次点击“下一步”得到数据抽取，如图13

方法二：直接点击模板二，点击上面“新建数据抽取” 按钮，得到数据抽取，如图13

【图13】

第八步：创建/选择表单

在ForeSpider爬虫中，表单是可以复用的，所以可以在数据表单出直接选择之前建过的表单，也可以通过表单ID来进行查找并关联数据表单。此处使用的是之前建过的凤凰网的表单，如图14

方法一：通过下拉菜单或表单ID选择已有表单

方法二：点击创建表单进入快速建表页面，新建表单

【图14】

方法三：点击“采集配置”-“数据建表”，点击采“采集表单”后面的如图15

【图15】

第九步：配置表单

根据所需内容，配置表单字段（即表头），此处配置了包括标题、作者、发布时间、文本内容以及网址五个字段，表单如图16

【图16】

第十步：字段取值

取值方法：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

title字段，点击“确认选区”按钮，确认操作，如图17

【图17】

第十一步：模板预览

①标右键点击“数据抽取”，然后点击“模板预览”，如图18

【图18】

②览结果如图19

【图19】

第十二步：采集预览

①击右上角采集预览,如图20

【图20】

②击任意一条链接，看看是否可以得到和网页对应的规整的数据，如图21

【图21】

这篇关于前嗅教程：采集正文数据（翻页）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1022682。 23002807@qq.com

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 从入门到进阶系列教程

Spring Security 入门系列《保护 Web 应用的安全》《Spring-Security-入门（一）：登录与退出》《Spring-Security-入门（二）：基于数据库验证》《Spring-Security-入门（三）：密码加密》《Spring-Security-入门（四）：自定义-Filter》《Spring-Security-入门（五）：在 Sprin

阅读更多...

大模型研发全揭秘：客服工单数据标注的完整攻略

大模型研发全揭秘：客服工单数据标注的完整攻略

在人工智能（AI）领域，数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者，掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中，工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注，不仅能够帮助提升客服自动化系统的智能化水平，还能优化客户服务流程，提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

阅读更多...

基于MySQL Binlog的Elasticsearch数据同步实践

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做随着马蜂窝的逐渐发展，我们的业务数据越来越多，单纯使用 MySQL 已经不能满足我们的数据查询需求，例如对于商品、订单等数据的多维度检索。使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后，随之而来的就是数据同步的问题。二、现有方法及问题对于数据同步，我们目前的解决方案是建立数据中间表。把需要检索的业务数据，统一放到一张M

阅读更多...

关于数据埋点，你需要了解这些基本知识

关于数据埋点，你需要了解这些基本知识

产品汪每天都在和数据打交道，你知道数据来自哪里吗？移动app端内的用户行为数据大多来自埋点，了解一些埋点知识，能和数据分析师、技术侃大山，参与到前期的数据采集，更重要是让最终的埋点数据能为我所用，否则可怜巴巴等上几个月是常有的事。埋点类型根据埋点方式，可以区分为：手动埋点半自动埋点全自动埋点秉承“任何事物都有两面性”的道理：自动程度高的，能解决通用统计，便于统一化管理，但个性化定

阅读更多...

使用SecondaryNameNode恢复NameNode的数据

使用SecondaryNameNode恢复NameNode的数据

1）需求： NameNode进程挂了并且存储的数据也丢失了，如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2）故障模拟（1）kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 （2）删除NameNode存储的数据（/opt/module/hadoop-3.1.4/data/tmp/dfs/na

阅读更多...

异构存储（冷热数据分离）

异构存储（冷热数据分离）

异构存储主要解决不同的数据，存储在不同类型的硬盘中，达到最佳性能的问题。异构存储Shell操作（1）查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies （2）为指定路径（数据存储目录）设置指定的存储策略 hdfs storagepolicies -setStoragePo

阅读更多...

Hadoop集群数据均衡之磁盘间数据均衡

Hadoop集群数据均衡之磁盘间数据均衡

生产环境，由于硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。（Hadoop3.x新特性） plan后面带的节点的名字必须是已经存在的，并且是需要均衡的节点。如果节点不存在，会报如下错误：如果节点只有一个硬盘的话，不会创建均衡计划：（1）生成均衡计划 hdfs diskbalancer -plan hadoop102 （2）执行均衡计划 hd

阅读更多...

Makefile简明使用教程

Makefile简明使用教程

文章目录规则makefile文件的基本语法：加在命令前的特殊符号：.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具，常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。规则 makefile文件

阅读更多...

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯，先赞后看哦~🎈🎈 🏆 作者简介：景天科技苑 🏆《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。 🏆《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi

阅读更多...

烟火目标检测数据集 7800张烟火检测带标注 voc yolo

烟火目标检测数据集 7800张烟火检测带标注 voc yolo

一个包含7800张带标注图像的数据集，专门用于烟火目标检测，是一个非常有价值的资源，尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍：数据集名称：烟火目标检测数据集数据集规模：图片数量：7800张类别：主要包含烟火类目标，可能还包括其他相关类别，如烟火发射装置、背景等。格式：图像文件通常为JPEG或PNG格式；标注文件可能为X

阅读更多...