用go语言爬取珍爱网 | 第三回

2023-10-11 19:30

本文主要是介绍用go语言爬取珍爱网 | 第三回,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前两节我们获取到了城市的URL和城市名,今天我们来解析用户信息。

用go语言爬取珍爱网 | 第一回

用go语言爬取珍爱网 | 第二回

image

爬虫的算法:

我们要提取返回体中的城市列表,需要用到城市列表解析器;

需要把每个城市里的所有用户解析出来,需要用到城市解析器;

还需要把每个用户的个人信息解析出来,需要用到用户解析器。

image

爬虫整体架构:

Seed把需要爬的request送到engine,engine负责将request里的url送到fetcher去爬取数据,返回utf-8的信息,然后engine将返回信息送到解析器Parser里解析有用信息,返回更多待请求requests和有用信息items,任务队列用于存储待请求的request,engine驱动各模块处理数据,直到任务队列为空。

image

代码实现:

按照上面的思路,设计出城市列表解析器citylist.go代码如下:

package parserimport ("crawler/engine""regexp""log"
)const (//<a href="http://album.zhenai.com/u/1361133512" target="_blank">怎么会迷上你</a>cityReg = `<a href="(http://album.zhenai.com/u/[0-9] )"[^>]*>([^<] )</a>`
)func ParseCity(contents []byte) engine.ParserResult {compile := regexp.MustCompile(cityReg)submatch := compile.FindAllSubmatch(contents, -1)//这里要把解析到的每个URL都生成一个新的requestresult := engine.ParserResult{}for _, m := range submatch {name := string(m[2])log.Printf("UserName:%s URL:%s\n", string(m[2]), string(m[1]))//把用户信息人名加到item里result.Items = append(result.Items, name)result.Requests = append(result.Requests,engine.Request{//用户信息对应的URL,用于之后的用户信息爬取Url : string(m[1]),//这个parser是对城市下面的用户的parseParserFunc : func(bytes []byte) engine.ParserResult {//这里使用闭包的方式;这里不能用m[2],否则所有for循环里的用户都会共用一个名字//需要拷贝m[2] ---- name := string(m[2])return ParseProfile(bytes, name)},})}return result
}

城市解析器city.go如下:

package parserimport ("crawler/engine""regexp""log"
)const (//<a href="http://album.zhenai.com/u/1361133512" target="_blank">怎么会迷上你</a>cityReg = `<a href="(http://album.zhenai.com/u/[0-9] )"[^>]*>([^<] )</a>`
)func ParseCity(contents []byte) engine.ParserResult {compile := regexp.MustCompile(cityReg)submatch := compile.FindAllSubmatch(contents, -1)//这里要把解析到的每个URL都生成一个新的requestresult := engine.ParserResult{}for _, m := range submatch {name := string(m[2])log.Printf("UserName:%s URL:%s\n", string(m[2]), string(m[1]))//把用户信息人名加到item里result.Items = append(result.Items, name)result.Requests = append(result.Requests,engine.Request{//用户信息对应的URL,用于之后的用户信息爬取Url : string(m[1]),//这个parser是对城市下面的用户的parseParserFunc : func(bytes []byte) engine.ParserResult {//这里使用闭包的方式;这里不能用m[2],否则所有for循环里的用户都会共用一个名字//需要拷贝m[2] ---- name := string(m[2])return ParseProfile(bytes, name)},})}return result
}

用户解析器profile.go如下:

package parserimport ("crawler/engine""crawler/model""regexp""strconv"
)var (// <td><span class="label">年龄:</span>25岁</td>ageReg = regexp.MustCompile(`<td><span class="label">年龄:</span>([\d] )岁</td>`)// <td><span class="label">身高:</span>182CM</td>heightReg = regexp.MustCompile(`<td><span class="label">身高:</span>(. )CM</td>`)// <td><span class="label">月收入:</span>5001-8000元</td>incomeReg = regexp.MustCompile(`<td><span class="label">月收入:</span>([0-9-] )元</td>`)//<td><span class="label">婚况:</span>未婚</td>marriageReg = regexp.MustCompile(`<td><span class="label">婚况:</span>(. )</td>`)//<td><span class="label">学历:</span>大学本科</td>educationReg = regexp.MustCompile(`<td><span class="label">学历:</span>(. )</td>`)//<td><span class="label">工作地:</span>安徽蚌埠</td>workLocationReg = regexp.MustCompile(`<td><span class="label">工作地:</span>(. )</td>`)// <td><span class="label">职业: </span>--</td>occupationReg = regexp.MustCompile(`<td><span class="label">职业: </span><span field="">(. )</span></td>`)//  <td><span class="label">星座:</span>射手座</td>xinzuoReg = regexp.MustCompile(`<td><span class="label">星座:</span><span field="">(. )</span></td>`)//<td><span class="label">籍贯:</span>安徽蚌埠</td>hokouReg = regexp.MustCompile(`<td><span class="label">民族:</span><span field="">(. )</span></td>`)// <td><span class="label">住房条件:</span><span field="">--</span></td>houseReg = regexp.MustCompile(`<td><span class="label">住房条件:</span><span field="">(. )</span></td>`)// <td width="150"><span class="grayL">性别:</span>男</td>genderReg = regexp.MustCompile(`<td width="150"><span class="grayL">性别:</span>(. )</td>`)// <td><span class="label">体重:</span><span field="">67KG</span></td>weightReg = regexp.MustCompile(`<td><span class="label">体重:</span><span field="">(. )KG</span></td>`)//<h1 class="ceiling-name ib fl fs24 lh32 blue">怎么会迷上你</h1>//nameReg = regexp.MustCompile(`<h1 class="ceiling-name ib fl fs24 lh32 blue">([^\d] )</h1>  `)//<td><span class="label">是否购车:</span><span field="">未购车</span></td>carReg = regexp.MustCompile(`<td><span class="label">是否购车:</span><span field="">(. )</span></td>`)
)func ParseProfile(contents []byte, name string) engine.ParserResult {profile := model.Profile{}age, err := strconv.Atoi(extractString(contents, ageReg))if err != nil {profile.Age = 0}else {profile.Age = age}height, err := strconv.Atoi(extractString(contents, heightReg))if err != nil {profile.Height = 0}else {profile.Height = height}weight, err := strconv.Atoi(extractString(contents, weightReg))if err != nil {profile.Weight = 0}else {profile.Weight = weight}profile.Income = extractString(contents, incomeReg)profile.Car = extractString(contents, carReg)profile.Education = extractString(contents, educationReg)profile.Gender = extractString(contents, genderReg)profile.Hokou = extractString(contents, hokouReg)profile.Income = extractString(contents, incomeReg)profile.Marriage = extractString(contents, marriageReg)profile.Name = nameprofile.Occupation = extractString(contents, occupationReg)profile.WorkLocation = extractString(contents, workLocationReg)profile.Xinzuo = extractString(contents, xinzuoReg)result := engine.ParserResult{Items: []interface{}{profile},}return result
}//get value by reg from contents
func extractString(contents []byte, re *regexp.Regexp) string {m := re.FindSubmatch(contents)if len(m) > 0 {return string(m[1])} else {return ""}
}

engine代码如下:

package engineimport ("crawler/fetcher""log"
)func Run(seeds ...Request){//这里维持一个队列var requestsQueue []RequestrequestsQueue = append(requestsQueue, seeds...)for len(requestsQueue) > 0 {//取第一个r := requestsQueue[0]//只保留没处理的requestrequestsQueue = requestsQueue[1:]log.Printf("fetching url:%s\n", r.Url)//爬取数据body, err := fetcher.Fetch(r.Url)if err != nil {log.Printf("fetch url: %s; err: %v\n", r.Url, err)//发生错误继续爬取下一个urlcontinue}//解析爬取到的结果result := r.ParserFunc(body)//把爬取结果里的request继续加到request队列requestsQueue = append(requestsQueue, result.Requests...)//打印每个结果里的item,即打印城市名、城市下的人名...for _, item := range result.Items {log.Printf("get item is %v\n", item)}}
}

Fetcher用于发起http get请求,这里有一点注意的是:珍爱网可能做了反爬虫限制手段,所以直接用http.Get(url)方式发请求,会报403拒绝访问;故需要模拟浏览器方式:

client := &http.Client{}req, err := http.NewRequest("GET", url, nil)if err != nil {log.Fatalln("NewRequest is err ", err)return nil, fmt.Errorf("NewRequest is err %v\n", err)}req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36")//返送请求获取返回结果resp, err := client.Do(req)

最终fetcher代码如下:

package fetcherimport ("bufio""fmt""golang.org/x/net/html/charset""golang.org/x/text/encoding""golang.org/x/text/encoding/unicode""golang.org/x/text/transform""io/ioutil""log""net/http"
)/**
爬取网络资源函数
*/
func Fetch(url string) ([]byte, error) {client := &http.Client{}req, err := http.NewRequest("GET", url, nil)if err != nil {log.Fatalln("NewRequest is err ", err)return nil, fmt.Errorf("NewRequest is err %v\n", err)}req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36")//返送请求获取返回结果resp, err := client.Do(req)//直接用http.Get(url)进行获取信息,爬取时可能返回403,禁止访问//resp, err := http.Get(url)if err != nil {return nil, fmt.Errorf("Error: http Get, err is %v\n", err)}//关闭response bodydefer resp.Body.Close()if resp.StatusCode != http.StatusOK {return nil, fmt.Errorf("Error: StatusCode is %d\n", resp.StatusCode)}//utf8Reader := transform.NewReader(resp.Body, simplifiedchinese.GBK.NewDecoder())bodyReader := bufio.NewReader(resp.Body)utf8Reader := transform.NewReader(bodyReader, determineEncoding(bodyReader).NewDecoder())return ioutil.ReadAll(utf8Reader)
}/**
确认编码格式
*/
func determineEncoding(r *bufio.Reader) encoding.Encoding {//这里的r读取完得保证resp.Body还可读body, err := r.Peek(1024)//如果解析编码类型时遇到错误,返回UTF-8if err != nil {log.Printf("determineEncoding error is %v", err)return unicode.UTF8}//这里简化,不取是否确认e, _, _ := charset.DetermineEncoding(body, "")return e
}

main方法如下:

package mainimport ("crawler/engine""crawler/zhenai/parser"
)func main() {request := engine.Request{Url: "http://www.zhenai.com/zhenghun",ParserFunc: parser.ParseCityList,}engine.Run(request)
}

最终爬取到的用户信息如下,包括昵称、年龄、身高、体重、工资、婚姻状况等。

image

如果你想要哪个妹子的照片,可以点开url查看,然后打招呼进一步发展。

至此单任务版的爬虫就做完了,后面我们将对单任务版爬虫做性能分析,然后升级为多任务并发版,把爬取到的信息存到ElasticSearch中,在页面上查询


作者简洁

作者:小碗汤,一位热爱、认真写作的小伙,目前维护原创公众号:『我的小碗汤』,专注于写golang、docker、kubernetes等知识等提升硬实力的文章,期待你的关注。 转载说明:务必注明来源(注明:来源于公众号:我的小碗汤, 作者:小碗汤)

这篇关于用go语言爬取珍爱网 | 第三回的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/190343

相关文章

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

Go Playground 在线编程环境

For all examples in this and the next chapter, we will use Go Playground. Go Playground represents a web service that can run programs written in Go. It can be opened in a web browser using the follow

go基础知识归纳总结

无缓冲的 channel 和有缓冲的 channel 的区别? 在 Go 语言中,channel 是用来在 goroutines 之间传递数据的主要机制。它们有两种类型:无缓冲的 channel 和有缓冲的 channel。 无缓冲的 channel 行为:无缓冲的 channel 是一种同步的通信方式,发送和接收必须同时发生。如果一个 goroutine 试图通过无缓冲 channel

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

如何确定 Go 语言中 HTTP 连接池的最佳参数?

确定 Go 语言中 HTTP 连接池的最佳参数可以通过以下几种方式: 一、分析应用场景和需求 并发请求量: 确定应用程序在特定时间段内可能同时发起的 HTTP 请求数量。如果并发请求量很高,需要设置较大的连接池参数以满足需求。例如,对于一个高并发的 Web 服务,可能同时有数百个请求在处理,此时需要较大的连接池大小。可以通过压力测试工具模拟高并发场景,观察系统在不同并发请求下的性能表现,从而

C语言:柔性数组

数组定义 柔性数组 err int arr[0] = {0}; // ERROR 柔性数组 // 常见struct Test{int len;char arr[1024];} // 柔性数组struct Test{int len;char arr[0];}struct Test *t;t = malloc(sizeof(Test) + 11);strcpy(t->arr,

C语言指针入门 《C语言非常道》

C语言指针入门 《C语言非常道》 作为一个程序员,我接触 C 语言有十年了。有的朋友让我推荐 C 语言的参考书,我不敢乱推荐,尤其是国内作者写的书,往往七拼八凑,漏洞百出。 但是,李忠老师的《C语言非常道》值得一读。对了,李老师有个官网,网址是: 李忠老师官网 最棒的是,有配套的教学视频,可以试看。 试看点这里 接下来言归正传,讲解指针。以下内容很多都参考了李忠老师的《C语言非

C 语言基础之数组

文章目录 什么是数组数组变量的声明多维数组 什么是数组 数组,顾名思义,就是一组数。 假如班上有 30 个同学,让你编程统计每个人的分数,求最高分、最低分、平均分等。如果不知道数组,你只能这样写代码: int ZhangSan_score = 95;int LiSi_score = 90;......int LiuDong_score = 100;int Zhou