有名的爬虫框架 colly 的特性及2个详细采集案例

2024-03-25 12:04

本文主要是介绍有名的爬虫框架 colly 的特性及2个详细采集案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一. Colly概述

前言:colly 是 Go 实现的比较有名的一款爬虫框架,而且 Go 在高并发和分布式场景的优势也正是爬虫技术所需要的。它的主要特点是轻量、快速,设计非常优雅,并且分布式的支持也非常简单,易于扩展。

框架简介:基于colly框架及net/http进行封装,实现的一款可配置分布式爬虫架构。使用者只需要配置解析、并发数、入库topic、请求方式、请求url等参数即可,其他代码类似于scrapy,不需要单独编写。

colly官网地址:https://go-colly.org/
github地址: http://github.com/gocolly/colly

colly特性

  • 干净的API
  • 快速(单核>1k请求/秒)
  • 管理每个域的请求延迟和最大并发性
  • 自动cookie和会话处理
  • 同步/异步并行抓取
  • 分布式抓取
  • 缓存
  • 非unicode响应的自动编码
  • robots. txt的支持
  • 抓取深度控制
  • 设置跨域开关
  • 谷歌应用程序引擎支持

二. colly安装及基本使用

安装go get -u github.com/gocolly/colly/...

基本使用

package mainimport ("fmt""github.com/gocolly/colly"
)func main() {// Instantiate default collectorc := colly.NewCollector(// Visit only domains: hackerspaces.org, wiki.hackerspaces.orgcolly.AllowedDomains("hackerspaces.org", "wiki.hackerspaces.org"),)// On every a element which has href attribute call callbackc.OnHTML("a[href]", func(e *colly.HTMLElement) {link := e.Attr("href")// Print linkfmt.Printf("Link found: %q -> %s\n", e.Text, link)// Visit link found on page// Only those links are visited which are in AllowedDomainsc.Visit(e.Request.AbsoluteURL(link))})// Before making a request print "Visiting ..."c.OnRequest(func(r *colly.Request) {fmt.Println("Visiting", r.URL.String())})// Start scraping on https://hackerspaces.orgc.Visit("https://hackerspaces.org/")
}

三. 基于colly的2个使用案例

案例1

package mainimport ("fmt""time""github.com/gocolly/colly"
)func main() {ua := "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"c := colly.NewCollector(colly.UserAgent(ua),                      // 设置UAcolly.DetectCharset(),                    // 自动编码,防止乱码colly.AllowedDomains("www.tcmap.com.cn"), // 限制域名)c.AllowURLRevisit = true                  // 另外一种设置方式,允许重复访问_ = c.SetProxy("socks://127.0.0.1:10808") // 设置代理// 响应内容是HTML时调用,goquerySelector来查找元素c.OnHTML("a[href*=\"shandong\"]", func(h *colly.HTMLElement) {// fmt.Println(h.Text)href := h.Request.AbsoluteURL(h.Attr("href")) // 绝对路径_ = h.Request.Visit(href)// 接收上下文传递过来的数据city := h.Response.Ctx.Get("city")fmt.Println(city)})_ = c.Limit(&colly.LimitRule{DomainGlob:  "*",RandomDelay: 1 * time.Second, // 延时})// 请求前调用c.OnRequest(func(r *colly.Request) {fmt.Println("访问:", r.URL)// 从请求往响应传递上下文数据r.Ctx.Put("city", "城市")})// 收到响应后调用c.OnResponse(func(r *colly.Response) {// fmt.Println(string(r.Body))})// 通过xpath来获取元素c.OnXML("//", func(element *colly.XMLElement) {})// 请求发生错误时调用c.OnError(func(r *colly.Response, err error) {fmt.Println(err)})c.Visit("http://www.tcmap.com.cn/shandong/")
}

案例2

package mainimport ("fmt""github.com/gocolly/colly""gorm.io/driver/mysql""gorm.io/gorm""time"
)func main() {dsn := "root:pass@tcp(127.0.0.1:3306)/test?charset=utf8mb4&parseTime=True&loc=Local"db, err := gorm.Open(mysql.New(mysql.Config{DSN:               dsn,DefaultStringSize: 256,}), &gorm.Config{})if err != nil {fmt.Println("连结数据库失败")}ua := "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"c := colly.NewCollector(colly.UserAgent(ua),                      // 设置UAcolly.DetectCharset(),                    // 自动编码,防止乱码colly.AllowedDomains("www.tcmap.com.cn"), // 限制域名)cityCollector := c.Clone()countyCollector := c.Clone()townCollector := c.Clone()// 省 http://www.tcmap.com.cn/shandong/c.OnHTML("#pagebody #page_left > table", func(element *colly.HTMLElement) {element.ForEach("tr td:first-child", func(i int, e *colly.HTMLElement) {city := e.ChildText("a")fmt.Println(city)relative_url := e.ChildAttr("a", "href")if relative_url != "" {absURL := e.Request.AbsoluteURL(relative_url)// fmt.Println(absURL)ctx := colly.NewContext()ctx.Put("city", city)_ = cityCollector.Request("GET", absURL, nil, ctx, nil)}})})// 市 http://www.tcmap.com.cn/shandong/jinan.htmlcityCollector.OnHTML("#pagebody #page_left > table", func(element *colly.HTMLElement) {city := element.Request.Ctx.Get("city")element.ForEach("tr td:first-child", func(i int, e *colly.HTMLElement) {county := e.ChildText("a")fmt.Println(city, county)relative_url := e.ChildAttr("a", "href")if relative_url != "" {absURL := e.Request.AbsoluteURL(relative_url)//fmt.Println(absURL)ctx := colly.NewContext()ctx.Put("city", city)ctx.Put("county", county)_ = countyCollector.Request("GET", absURL, nil, ctx, nil)}})})// 区县 http://www.tcmap.com.cn/shandong/lixiaqu.htmlcountyCollector.OnHTML("#pagebody #page_left > table", func(element *colly.HTMLElement) {city := element.Request.Ctx.Get("city")county := element.Request.Ctx.Get("county")element.ForEach("tr td:first-child", func(i int, e *colly.HTMLElement) {town := e.ChildText("a")fmt.Println(city, county, town)relative_url := e.ChildAttr("a", "href")if relative_url != "" {absURL := e.Request.AbsoluteURL(relative_url)//fmt.Println(absURL)ctx := colly.NewContext()ctx.Put("city", city)ctx.Put("county", county)ctx.Put("town", town)_ = townCollector.Request("GET", absURL, nil, ctx, nil)}})})// 乡镇 http://www.tcmap.com.cn/shandong/lixiaqu_jiefanglujiedao.htmltownCollector.OnHTML("#pagebody #page_left > table", func(element *colly.HTMLElement) {city := element.Request.Ctx.Get("city")county := element.Request.Ctx.Get("county")town := element.Request.Ctx.Get("town")element.ForEach("tr td:first-child", func(i int, e *colly.HTMLElement) {village := e.ChildText("a")if village != "" {fmt.Println(city, county, town, village)_ = save(db, city, county, town, village)}})})_ = c.Limit(&colly.LimitRule{DomainGlob:  "*",RandomDelay: 1 * time.Second, // 延时})_ = c.Visit("http://www.tcmap.com.cn/shandong/")// c.Wait()
}type Village struct {ID      uint `gorm:"primaryKey"`City    stringCounty  stringTown    stringVillage string
}func (Village) TableName() string {return "village"
}func save(db *gorm.DB, city string, county string, town string, village string) error {villageRecord := Village{City: city, County: county, Town: town, Village: village}db = db.Create(&villageRecord)db = db.Commit()return nil
}

文章最后,推荐推荐一个比较好用的代理:
在这里插入图片描述

这篇关于有名的爬虫框架 colly 的特性及2个详细采集案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/844951

相关文章

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck

Java操作PDF文件实现签订电子合同详细教程

《Java操作PDF文件实现签订电子合同详细教程》:本文主要介绍如何在PDF中加入电子签章与电子签名的过程,包括编写Word文件、生成PDF、为PDF格式做表单、为表单赋值、生成文档以及上传到OB... 目录前言:先看效果:1.编写word文件1.2然后生成PDF格式进行保存1.3我这里是将文件保存到本地后

windows系统下shutdown重启关机命令超详细教程

《windows系统下shutdown重启关机命令超详细教程》shutdown命令是一个强大的工具,允许你通过命令行快速完成关机、重启或注销操作,本文将为你详细解析shutdown命令的使用方法,并提... 目录一、shutdown 命令简介二、shutdown 命令的基本用法三、远程关机与重启四、实际应用

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

MySQL不使用子查询的原因及优化案例

《MySQL不使用子查询的原因及优化案例》对于mysql,不推荐使用子查询,效率太差,执行子查询时,MYSQL需要创建临时表,查询完毕后再删除这些临时表,所以,子查询的速度会受到一定的影响,本文给大家... 目录不推荐使用子查询和JOIN的原因解决方案优化案例案例1:查询所有有库存的商品信息案例2:使用EX

使用SpringBoot创建一个RESTful API的详细步骤

《使用SpringBoot创建一个RESTfulAPI的详细步骤》使用Java的SpringBoot创建RESTfulAPI可以满足多种开发场景,它提供了快速开发、易于配置、可扩展、可维护的优点,尤... 目录一、创建 Spring Boot 项目二、创建控制器类(Controller Class)三、运行

springboot整合gateway的详细过程

《springboot整合gateway的详细过程》本文介绍了如何配置和使用SpringCloudGateway构建一个API网关,通过实例代码介绍了springboot整合gateway的过程,需要... 目录1. 添加依赖2. 配置网关路由3. 启用Eureka客户端(可选)4. 创建主应用类5. 自定

最新版IDEA配置 Tomcat的详细过程

《最新版IDEA配置Tomcat的详细过程》本文介绍如何在IDEA中配置Tomcat服务器,并创建Web项目,首先检查Tomcat是否安装完成,然后在IDEA中创建Web项目并添加Web结构,接着,... 目录配置tomcat第一步,先给项目添加Web结构查看端口号配置tomcat    先检查自己的to

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —

SpringBoot集成SOL链的详细过程

《SpringBoot集成SOL链的详细过程》Solanaj是一个用于与Solana区块链交互的Java库,它为Java开发者提供了一套功能丰富的API,使得在Java环境中可以轻松构建与Solana... 目录一、什么是solanaj?二、Pom依赖三、主要类3.1 RpcClient3.2 Public