Go 优雅的爬虫框架 - Colly

2024-06-01 06:20
文章标签 go 优雅 框架 爬虫 colly

本文主要是介绍Go 优雅的爬虫框架 - Colly,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Colly 是一款用 Go 语言编写的优雅网络爬虫框架,速度快、灵活且易于使用

关键特性包括:

  • 线程安全。
  • 用户友好的 API。
  • 支持 XHR(Ajax)和 WebSocket。
  • 缓存和持久化。
  • 支持速度限制和分布式爬取。
  • 强大的可扩展性。

colly采集器配置

  • AllowedDomains: 设置收集器使用的域白名单,设置后不在白名单内链接,报错:Forbidden domain。
  • AllowURLRevisit: 设置收集器允许对同一 URL 进行多次下载。
  • Async: 设置收集器为异步请求,需很Wait()配合使用。
  • Debugger: 开启Debug,开启后会打印请求日志。
  • MaxDepth: 设置爬取页面的深度。
  • UserAgent: 设置收集器使用的用户代理。
  • MaxBodySize : 以字节为单位设置检索到的响应正文的限制。
  • IgnoreRobotsTxt: 忽略目标机器中的robots.txt声明。 

创建采集器:配置可以写在里面,也可以写在外面。

collector := colly.NewCollector(colly.AllowedDomains("www.baidu.com",".baidu.com"),//白名单域名colly.AllowURLRevisit(),//允许对同一 URL 进行多次下载colly.Async(true),//设置为异步请求colly.Debugger(&debug.LogDebugger{}),// 开启debugcolly.MaxDepth(2),//爬取页面深度,最多为两层colly.MaxBodySize(1024 * 1024),//响应正文最大字节数colly.UserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "),colly.IgnoreRobotsTxt(),//忽略目标机器中的`robots.txt`声明
)

1、执行流程

 2、回调函数

colly附加各种不同类型的回调函数,来控制收集作业或获取信息

3、安装

go get -u github.com/gocolly/colly

4、案例

案例一:爬取网络页面标题 

package mainimport ("fmt""github.com/gocolly/colly"
)func main() {// 创建Collector实例c := colly.NewCollector()// 设置请求处理逻辑c.OnHTML("head > title", func(e *colly.HTMLElement) {fmt.Println("网页标题:", e.Text)})// 设置错误处理逻辑c.OnError(func(r *colly.Response, err error) {fmt.Println("请求错误:", err)})// 开始爬取c.Visit("http://www.baidu.com")
}

案例二:爬取指定元素内容 

package mainimport ("fmt""github.com/gocolly/colly"
)func main() {// 创建Collector实例c := colly.NewCollector()// 设置请求处理逻辑,第一个参数是查询选择器,类似CSS选择器一样的语法c.OnHTML("body > div#wrapper > div#head > div#s-top-left > a", func(e *colly.HTMLElement) {// 打印出每个新闻标题链接的文本和它的 href 属性fmt.Println("栏目:", e.Text)fmt.Println("链接地址:", e.Attr("href"))})// 设置错误处理逻辑c.OnError(func(r *colly.Response, err error) {fmt.Println("请求错误:", err)})// 开始爬取c.Visit("http://www.baidu.com")
}

案例三:爬取图片 

package mainimport ("fmt""github.com/gocolly/colly""github.com/google/uuid""io""net/http""os""path/filepath""strings"
)func init() {dirName := "img" // 要创建的文件夹名称// 使用filepath.Join可以更好地处理路径分隔符,使其跨平台dirPath := filepath.Join(".", dirName)// 判断目录是否存在if _, err := os.Stat(dirPath); os.IsNotExist(err) {// 如果不存在,则创建err = os.Mkdir(dirPath, 0755) // 0755 是权限位,表示所有者有读、写、执行权限,组用户和其他用户有读和执行权限if err != nil {fmt.Printf("创建目录失败: %v\n", err)return}fmt.Printf("目录 '%s' 创建成功。\n", dirPath)} else if err != nil {// 其他错误处理fmt.Printf("检查目录状态时发生错误: %v\n", err)return} else {// 目录已存在fmt.Printf("目录 '%s' 已存在,无需创建。\n", dirPath)}
}func main() {//实例化默认收集器c := colly.NewCollector()// 在访问页面之前执行的回调函数c.OnRequest(func(r *colly.Request) {fmt.Println("OnRequest函数是在发起请求前被调用:", r.URL.String())})// 在访问页面之后执行的回调函数c.OnResponse(func(r *colly.Response) {fmt.Println("OnRespo

这篇关于Go 优雅的爬虫框架 - Colly的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1020220

相关文章

go 指针接收者和值接收者的区别小结

《go指针接收者和值接收者的区别小结》在Go语言中,值接收者和指针接收者是方法定义中的两种接收者类型,本文主要介绍了go指针接收者和值接收者的区别小结,文中通过示例代码介绍的非常详细,需要的朋友们下... 目录go 指针接收者和值接收者的区别易错点辨析go 指针接收者和值接收者的区别指针接收者和值接收者的

浅析Java中如何优雅地处理null值

《浅析Java中如何优雅地处理null值》这篇文章主要为大家详细介绍了如何结合Lambda表达式和Optional,让Java更优雅地处理null值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录场景 1:不为 null 则执行场景 2:不为 null 则返回,为 null 则返回特定值或抛出异常场景

Go 语言中的select语句详解及工作原理

《Go语言中的select语句详解及工作原理》在Go语言中,select语句是用于处理多个通道(channel)操作的一种控制结构,它类似于switch语句,本文给大家介绍Go语言中的select语... 目录Go 语言中的 select 是做什么的基本功能语法工作原理示例示例 1:监听多个通道示例 2:带

SpringBoot利用@Validated注解优雅实现参数校验

《SpringBoot利用@Validated注解优雅实现参数校验》在开发Web应用时,用户输入的合法性校验是保障系统稳定性的基础,​SpringBoot的@Validated注解提供了一种更优雅的解... 目录​一、为什么需要参数校验二、Validated 的核心用法​1. 基础校验2. php分组校验3

Go标准库常见错误分析和解决办法

《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

go中空接口的具体使用

《go中空接口的具体使用》空接口是一种特殊的接口类型,它不包含任何方法,本文主要介绍了go中空接口的具体使用,具有一定的参考价值,感兴趣的可以了解一下... 目录接口-空接口1. 什么是空接口?2. 如何使用空接口?第一,第二,第三,3. 空接口几个要注意的坑坑1:坑2:坑3:接口-空接口1. 什么是空接

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python GUI框架中的PyQt详解

《PythonGUI框架中的PyQt详解》PyQt是Python语言中最强大且广泛应用的GUI框架之一,基于Qt库的Python绑定实现,本文将深入解析PyQt的核心模块,并通过代码示例展示其应用场... 目录一、PyQt核心模块概览二、核心模块详解与示例1. QtCore - 核心基础模块2. QtWid

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件