Golang网络爬虫框架gocolly/colly(三)

2024-09-08 13:58

本文主要是介绍Golang网络爬虫框架gocolly/colly(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。(http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio)
在这里插入图片描述
定义数据结构体:

type ZhjhHyShyl struct {Hydm string        `json:"行业代码"`Hymc string        `json:"行业名称"`Zxsj *float64      `json:"最新数据"`Gpjs int           `json:"股票家数"`Ksjs int           `json:"亏损家数"`Jygy *float64      `json:"近一个月"`Jsgy *float64      `json:"近三个月"`Jlgy *float64      `json:"近六个月"`Jyn  *float64      `json:"近一年"`Zhy  []*ZhjhHyShyl `json:"细分行业"`
}

接下来为gocolly调用准备,将用户代理设置为Chrome浏览器,该值可以通过Fiddler工具查看:

c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299"

在这里插入图片描述
还可以利用Fiddler设置更多的Request Header,将爬虫工具伪装成浏览器。

接下来F12调用浏览器调试器查看目标数据的元素,拷贝jQuery选择器,然后改成相对路径。
在这里插入图片描述
完成所有的数据抓取代码:

package mainimport ("encoding/json""fmt""log""strconv""strings""github.com/PuerkitoBio/goquery""github.com/gocolly/colly"
)//证监会行业市盈率
type ZhjhHyShyl struct {Hydm string        `json:"行业代码"`Hymc string        `json:"行业名称"`Zxsj *float64      `json:"最新数据"`Gpjs int           `json:"股票家数"`Ksjs int           `json:"亏损家数"`Jygy *float64      `json:"近一个月"`Jsgy *float64      `json:"近三个月"`Jlgy *float64      `json:"近六个月"`Jyn  *float64      `json:"近一年"`Zhy  []*ZhjhHyShyl `json:"细分行业"`
}func main() {var err errorc := colly.NewCollector()c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299"zjhHyShyl := make([]*ZhjhHyShyl, 0)c.OnRequest(func(r *colly.Request) {fmt.Printf("%+v\r\n%+v\r\n", *r, *(r.Headers))})c.OnHTML("td>table.list-div-table>tbody>tr", func(e *colly.HTMLElement) {hyShy := ZhjhHyShyl{Hydm: e.ChildText("td:first-child"),Hymc: e.ChildText("td:nth-child(2)"),}zxsj, err := strconv.ParseFloat(e.ChildText("td:nth-child(3)"), 64)if err == nil {hyShy.Zxsj = &zxsj}gpjs, err := strconv.ParseInt(e.ChildText("td:nth-child(4)"), 10, 32)if err == nil {hyShy.Gpjs = int(gpjs)}ksjs, err := strconv.ParseInt(e.ChildText("td:nth-child(5)"), 10, 32)if err == nil {hyShy.Ksjs = int(ksjs)}jygy, err := strconv.ParseFloat(e.ChildText("td:nth-child(6)"), 64)if err == nil {hyShy.Jygy = &jygy}jsgy, err := strconv.ParseFloat(e.ChildText("td:nth-child(7)"), 64)if err == nil {hyShy.Jsgy = &jsgy}jlgy, err := strconv.ParseFloat(e.ChildText("td:nth-child(8)"), 64)if err == nil {hyShy.Jlgy = &jlgy}jyn, err := strconv.ParseFloat(e.ChildText("td:nth-child(9)"), 64)if err == nil {hyShy.Jyn = &jyn}zjhHyShyl = append(zjhHyShyl, &hyShy)hyShy.Zhy = make([]*ZhjhHyShyl, 0)e.DOM.Parent().Parent().Next().Find("table.list-div-table>tbody>tr").Each(func(_ int, s *goquery.Selection) {zhy := ZhjhHyShyl{Hydm: strings.Trim(s.Find("td:nth-child(1)").Text(), "\r\n\t "),Hymc: strings.Trim(s.Find("td:nth-child(2)").Text(), "\r\n\t "),}zxsj, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(3)").Text(), "\r\n\t "), 64)if err == nil {zhy.Zxsj = &zxsj}gpjs, err := strconv.ParseInt(strings.Trim(s.Find("td:nth-child(4)").Text(), "\r\n\t "), 10, 32)if err == nil {zhy.Gpjs = int(gpjs)}ksjs, err := strconv.ParseInt(strings.Trim(s.Find("td:nth-child(5)").Text(), "\r\n\t "), 10, 32)if err == nil {zhy.Ksjs = int(ksjs)}jygy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(6)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jygy = &jygy}jsgy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(7)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jsgy = &jsgy}jlgy, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(8)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jlgy = &jlgy}jyn, err := strconv.ParseFloat(strings.Trim(s.Find("td:nth-child(9)").Text(), "\r\n\t "), 64)if err == nil {zhy.Jyn = &jyn}hyShy.Zhy = append(hyShy.Zhy, &zhy)})})c.OnScraped(func(_ *colly.Response) {bData, _ := json.MarshalIndent(zjhHyShyl, "", "\t")fmt.Println(string(bData))})err = c.Visit("http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio?date=2017-12-27&type=zjh1")if err != nil {log.Fatal(err)}
}

运行后的部分结果:

{"行业代码": "D","行业名称": "电力、热力、燃气及水的生产和供应业","最新数据": 20.12,"股票家数": 107,"亏损家数": 5,"近一个月": 19.51,"近三个月": 19.7,"近六个月": 19.87,"近一年": 18.9,"细分行业": [{"行业代码": "44","行业名称": "电力、热力生产和供应业","最新数据": 18.75,"股票家数": 70,"亏损家数": 3,"近一个月": 18.28,"近三个月": 18.43,"近六个月": 18.55,"近一年": 17.44,"细分行业": null}, {"行业代码": "45","行业名称": "燃气生产和供应业","最新数据": 28.4,"股票家数": 22,"亏损家数": 2,"近一个月": 25.71,"近三个月": 25.33,"近六个月": 25.38,"近一年": 27.24,"细分行业": null}, {"行业代码": "46","行业名称": "水的生产和供应业","最新数据": 27.78,"股票家数": 15,"亏损家数": 0,"近一个月": 27.88,"近三个月": 29.33,"近六个月": 30.56,"近一年": 29.64,"细分行业": null}]
}

原文链接:Golang 网络爬虫框架gocolly/colly 三

这篇关于Golang网络爬虫框架gocolly/colly(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1148297

相关文章

golang内存对齐的项目实践

《golang内存对齐的项目实践》本文主要介绍了golang内存对齐的项目实践,内存对齐不仅有助于提高内存访问效率,还确保了与硬件接口的兼容性,是Go语言编程中不可忽视的重要优化手段,下面就来介绍一下... 目录一、结构体中的字段顺序与内存对齐二、内存对齐的原理与规则三、调整结构体字段顺序优化内存对齐四、内

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

修改若依框架Token的过期时间问题

《修改若依框架Token的过期时间问题》本文介绍了如何修改若依框架中Token的过期时间,通过修改`application.yml`文件中的配置来实现,默认单位为分钟,希望此经验对大家有所帮助,也欢迎... 目录修改若依框架Token的过期时间修改Token的过期时间关闭Token的过期时js间总结修改若依

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核