利用八爪鱼实现拉取网站文章并推送到数据库(免费版本),适合小白

本文主要是介绍利用八爪鱼实现拉取网站文章并推送到数据库(免费版本),适合小白,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

尝试过火车头,太过于复杂,对新手不太友好,试过八爪鱼后感觉还不错,比较适合新手

1.下载安装八爪鱼,注册账号,登录

下载链接:

https://www.bazhuayu.com/

登录进去是这样:

在开始采集处输入要拉文章的链接

我这里以如下网站为例

https://mp.ofweek.com/ctrade/fiber/

 点击开始采集,左边为流程图,右侧为网页,点击网页内的链接按照右上角的提示提取文章标题和链接(点击时会提示选中相同元素,如果需要批量下载就点击)

 这时我发现文章的标题很多,需要翻页不断加载,如果只提取这几个显然不够用,需要添加翻页循环操作,点击这里,选择循环

 

 点击 循环列表右上角的设置,设置循环翻页,点击应用,最后记得把刚才设置提取文章标题的循环拖动到循环翻页的内部

 这时已经设置好了循环翻页提取文章标题和链接了,下面提取文章内容,点击右侧采集下一集网

选择从采集的字段里跳转到文章内容里,依次点击标题,采集;时间,采集;正文,采集

(这里要注意,如果要一次性选中全文内容的话需要点击正文后选择一下右下角最右边的DIV,然后点击提取该元素)

 再点击左上角,采集,启动本地采集(定时和云都是要付费的) ,下面 是采集结果,点击导入,导入到mysql中即可,注意字符编码是UTF-8,文章的字符类型设定为longtxt,导入即可       

 

有问题可以联系我沟通下~ 

 

 

 

 

 

 

这篇关于利用八爪鱼实现拉取网站文章并推送到数据库(免费版本),适合小白的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/250915

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

java如何分布式锁实现和选型

《java如何分布式锁实现和选型》文章介绍了分布式锁的重要性以及在分布式系统中常见的问题和需求,它详细阐述了如何使用分布式锁来确保数据的一致性和系统的高可用性,文章还提供了基于数据库、Redis和Zo... 目录引言:分布式锁的重要性与分布式系统中的常见问题和需求分布式锁的重要性分布式系统中常见的问题和需求

SpringBoot基于MyBatis-Plus实现Lambda Query查询的示例代码

《SpringBoot基于MyBatis-Plus实现LambdaQuery查询的示例代码》MyBatis-Plus是MyBatis的增强工具,简化了数据库操作,并提高了开发效率,它提供了多种查询方... 目录引言基础环境配置依赖配置(Maven)application.yml 配置表结构设计demo_st

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小