Golang网络爬虫框架gocolly/colly(四)

2024-09-08 13:58

本文主要是介绍Golang网络爬虫框架gocolly/colly(四),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、土豆、校内网、web版qq、网页邮箱等等也都爬过;那时候先用C#写demo,项目是C++的,所以还要转换成托管C++的代码。第一阶段的主要心得是cookie管理,比较难搞的cookie就借助于webbrowser控件。

第二阶段是13年左右,做的是金融数据分析类软件和网络机器人,爬虫编程语言依然借助于C# ,发包收包全靠HttpWebRequest和HttpWebResponse,cookie管理靠CookieContainer,HTML分析靠HtmlAgilityPack,验证码识别靠自己预处理封装过的tesseract,协议分析靠fiddler,元素选择靠浏览器调试器,这套功夫在手基本可以畅游网络,实现的机器人随意游走于博客、微博,自动留言、发帖、评论;各大金融网站、上交所、深交所、巨潮网络、互动平台等等数据任爬。

第三阶段就是现在了。四年多过去了,重新学习审视爬虫技术,发现武器更强大了:go语言,goquery,colly,chromedp,webloop等,强大的语言及工具使爬虫更简单、更高效。

多年的爬虫经验总结了开头那句话。已知的爬虫手段无外乎三大类:一,分析HTTP协议,构造请求;二,利用浏览器控件,获取cookie、页面元素、调用js脚本等;phantomjs、webloop属于此类;第三类是直接操作浏览器,chromedp属于此类;微软还提供了操纵ie浏览器的com接口,很早以前用C++写过,比较难用,代码写起来很恶心,需要较多的条件判断。构造请求直接快速,浏览器控件和操纵浏览器可靠安全,可以省去很多不必要的协议分析、js脚本分析,但速度慢,加载了很多无用的数据、图片等;第二、三种与第一种混用效果更佳,只要表演地越像浏览器就越安全可靠,或者干脆操纵浏览器,只要不超过服务器的人类操作阈值判定,ip基本不会被封。单ip不够用时,就设置代理来切换。

学无止境,不断用新的武器武装自己。下面贡献一个小例子,爬取上交所的AB股股票列表,简单地show下演技。
在这里插入图片描述

该页面提供了下载功能,A股的下载地址 http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1
B股的下载地址 http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2

拿到了这个地址就开始Visit了

c.Visit("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1")

UserAgent设置成了Chrome

c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"

发现不行,程序会报错

2018/01/03 23:39:27 Forbidden

把这个网址直接在浏览器地址栏中打开也是不行的,会报告“Error 403: SRVE0190E: 找不到文件:/error/error_cn.jsp”
服务端做了些限制,打开fiddler看下协议
在这里插入图片描述
请求中有一大堆cookie,第一感觉是可能没有加cookie的缘故,于是利用chromedp打开页面,再调用ajax去请求,刚开始ajax没有带cookie也请求成功了,

后来发现关键在于请求头中的“Referer”,有了Referer就行了。

干脆把所有的头补全,更像浏览器些,这不会吃亏:

c.OnRequest(func(r *colly.Request) {r.Headers.Set("Host", "query.sse.com.cn")r.Headers.Set("Connection", "keep-alive")r.Headers.Set("Accept", "*/*")r.Headers.Set("Origin", "http://www.sse.com.cn")r.Headers.Set("Referer", "http://www.sse.com.cn/assortment/stock/list/share/") //关键头 如果没有 则返回 错误r.Headers.Set("Accept-Encoding", "gzip, deflate")r.Headers.Set("Accept-Language", "zh-CN,zh;q=0.9")
})

附上完整的代码,将股票保存到CSV文件:

package sseimport ("encoding/csv""os""strings""github.com/gocolly/colly"
)/*GetStockListA 获取上海证券交易所股票列表
A股
*/
func GetStockListA(saveFile string) (err error) {stocks, err := getStockList("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1")if err != nil {return err}err = saveStockList2CSV(stocks, saveFile)return
}
/*GetStockListB 获取上海证券交易所股票列表
B股
*/
func GetStockListB(saveFile string) (err error) {stocks, err := getStockList("http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=2")if err != nil {return err}err = saveStockList2CSV(stocks, saveFile)return
}
func saveStockList2CSV(stockList string, file string) (err error) {vals := strings.Split(stockList, "\n")f, err := os.Create(file)if err != nil {return err}defer f.Close()fw := csv.NewWriter(f)for _, row := range vals {rSplits := strings.Split(row, "\t")rSplitsRslt := make([]string, 0)for _, sp := range rSplits {trimSp := strings.Trim(sp, " ")if len(trimSp) > 0 {rSplitsRslt = append(rSplitsRslt, trimSp)}}if len(rSplitsRslt) > 0 {err = fw.Write(rSplitsRslt)if err != nil {return err}}}fw.Flush()return
}func getStockList(url string) (stockList string, err error) {//GET http://query.sse.com.cn/security/stock/downloadStockListFile.do?csrcCode=&stockCode=&areaName=&stockType=1 HTTP/1.1//Host: query.sse.com.cn//Connection: keep-alive//Accept: */*//Origin: http://www.sse.com.cn//User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36//Referer: http://www.sse.com.cn/assortment/stock/list/share///Accept-Encoding: gzip, deflate//Accept-Language: zh-CN,zh;q=0.9`c := colly.NewCollector()c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"c.OnRequest(func(r *colly.Request) {r.Headers.Set("Host", "query.sse.com.cn")r.Headers.Set("Connection", "keep-alive")r.Headers.Set("Accept", "*/*")r.Headers.Set("Origin", "http://www.sse.com.cn")r.Headers.Set("Referer", "http://www.sse.com.cn/assortment/stock/list/share/") //关键头 如果没有 则返回 错误r.Headers.Set("Accept-Encoding", "gzip, deflate")r.Headers.Set("Accept-Language", "zh-CN,zh;q=0.9")})c.OnResponse(func(resp *colly.Response) {stockList = string(resp.Body)})c.OnError(func(resp *colly.Response, errHttp error) {err = errHttp})err = c.Visit(url)return
}
func main() {var err errorerr = sse.GetStockListA("e:\\sseA.csv")if err != nil {log.Fatal(err)}err = sse.GetStockListB("e:\\sseB.csv")if err != nil {log.Fatal(err)}
}

原文链接:Golang 网络爬虫框架gocolly/colly 四

这篇关于Golang网络爬虫框架gocolly/colly(四)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1148298

相关文章

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python GUI框架中的PyQt详解

《PythonGUI框架中的PyQt详解》PyQt是Python语言中最强大且广泛应用的GUI框架之一,基于Qt库的Python绑定实现,本文将深入解析PyQt的核心模块,并通过代码示例展示其应用场... 目录一、PyQt核心模块概览二、核心模块详解与示例1. QtCore - 核心基础模块2. QtWid

SpringBoot使用OkHttp完成高效网络请求详解

《SpringBoot使用OkHttp完成高效网络请求详解》OkHttp是一个高效的HTTP客户端,支持同步和异步请求,且具备自动处理cookie、缓存和连接池等高级功能,下面我们来看看SpringB... 目录一、OkHttp 简介二、在 Spring Boot 中集成 OkHttp三、封装 OkHttp

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

Golang中拼接字符串的6种方式性能对比

《Golang中拼接字符串的6种方式性能对比》golang的string类型是不可修改的,对于拼接字符串来说,本质上还是创建一个新的对象将数据放进去,主要有6种拼接方式,下面小编就来为大家详细讲讲吧... 目录拼接方式介绍性能对比测试代码测试结果源码分析golang的string类型是不可修改的,对于拼接字

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令(如关机、重启、锁屏等),还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization