一个靠爬虫赚钱的思路,无偿分享

2023-11-04 03:00

本文主要是介绍一个靠爬虫赚钱的思路,无偿分享,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今天早上登录我的虚拟机,发现速度慢得出奇。每次运行命令,都要等好一段时间才能看到结果。就如 cat 一个文件的内容这种命令,都要等好一会儿。查看CPU使用率、内存使用率,都很正常。但查看网络连接的时候,发现有好多人连到我的3128端口。


熟悉代理服务器的朋友们知道,3128是squid的默认端口。之前我在虚拟机上配了一个squid,本来是自己用的,因为没有设用户名密码,这两天被别人扫出来,作为公共的代理被用了。于是我停掉squid服务,果然,一下子虚拟机的速度就回复正常了。

但是问题来了,是谁在用我的代理呢?

其实猜也才能猜到,一定是那些代理提供商扫出了我的机器,然后把我的代理提供给他们的用户。我拿我的IP去百度了一下,果然发现被一些代理提供商收录了。

进一步深入思考一下,代理提供商是怎么扫到我的代理的呢?

扫代理的原理其实很简单,就是扫描一个网络中的服务器,扫出那些启用代理服务的机器,测试它们是哪种类型的代理(透明代理、匿名代理还是高匿代理),然后代理提供商将这些代理提供给它的客户。


这么想想,其实做一个代理提供商也不是很难。那这样,我们不是自己也可以扫描代理,把资源卖给有需要的客户了?


顺着上面的思路,我整理了一下自己搭建这样一个服务涉及的几个步骤,列了几个关键点。



扫描代理服务器

扫端口我们可以用 nmap 这个工具。nmap 是一个网络扫描的工具,它可以用来扫描对方服务器启用了哪些端口、哪些服务,服务器是否在线,以及猜测服务器可能运行的操作系统。

我们针对一台机器运行 nmap 命令,可以扫出这个机器启用了哪些端口(服务),比如

$ nmap 49.51.193.128	Starting Nmap 7.01 ( https://nmap.org ) at 2019-03-09 20:32 CST	
Nmap scan report for 49.51.193.128	
Host is up (0.18s latency).	
Not shown: 995 closed ports	
PORT     STATE    SERVICE	
22/tcp   open     ssh	
25/tcp   filtered smtp	
111/tcp  open     rpcbind	
445/tcp  filtered microsoft-ds	
1080/tcp open     socks	Nmap done: 1 IP address (1 host up) scanned in 27.34 seconds

要扫出一个网段中的代理服务器,我们可以针对一个网段作扫描,如下

$ nmap 49.51.193.0/24

上面的命令会扫出所有在 49.51.193.0/24这个网段中有哪些在线的机器,每台机器上启用了哪些服务。


检测代理类型


扫出来代理服务器后,我们可以对这些代理服务器做测试,看看它们是什么类型的代理。

代理基本上分成这三种类型:

  • 透明代理

  • 匿名代理

  • 高匿代理

通过字面意思,大致能猜到这三种代理的区别。简单的说,透明代理就是用了之后,对方服务器很清楚的知道你是谁,你来自哪个IP。匿名代理用了之后,对方没法知道你是谁,但是知道你用了代理。而高匿代理比匿名代理隐藏性更高,对方不仅不知道你是谁,也不知道你用了代理。

三者在技术层面的区别,主要在于HTTP请求头的内容不同


透明代理

REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Your IP

匿名代理

REMOTE_ADDR = proxy IP

HTTP_VIA = proxy IP

HTTP_X_FORWARDED_FOR = proxy IP

高匿代理

REMOTE_ADDR = Proxy IP

HTTP_VIA = not determined

HTTP_X_FORWARDED_FOR = not determined

检测代理类型的方法也非常简单,只需要自己搭建一个web服务器,在上面跑一个web程序。客户端通过代理向web服务器发起请求,web程序打印出请求头,通过分析请求头的内容就可以知道这个代理是哪种类型的。


下面是我用 Flask 写了一个例子,大致是这么个意思

import json	
from flask import Flask, request	app = Flask(__name__)	@app.route('/')	
def hello():	header = {}	if "REMOTE_ADDR" in request.headers:	header["REMOTE_ADDR"] = request.headers["REMOTE_ADDR"]	if "HTTP_VIA" in request.headers:	header["HTTP_VIA"] = request.headers["HTTP_VIA"]	if "HTTP_X_FORWARDED_FOR" in request.headers:	header["HTTP_X_FORWARDED_FOR"] = request.headers["HTTP_X_FORWARDED_FOR"]	return json.dumps(header)	if __name__ == "__main__":	app.run(host="0.0.0.0", port=8080)

运行这个程序,当我们通过代理访问这个web服务,它就会返回代理请求头的信息,我们可以据此判断代理是透明、匿名还是高匿代理。



维护代理池


好,有了代理和代理的类型,我们可以将他们做成一个代理池,提供一个接口给客户,让他们通过接口来获取可用的代理。


当然这些扫出来的代理有效时间长短不一,有的代理也许可以用很久,有的代理可能一会儿时间就失效了。我们需要保证代理池中的代理是有效的,可以定期的去检查代理的有效性,把失效的从列表中去除,把新的有效的加入进来。


当我们做出了这样一个接口后,我们可以把这个接口打包成服务卖给客户,比如按照调用次数收费或者按月收费。


市面上,对于代理池的需求还是很大的,主要是爬虫用户,有些公司也需要爬取竞争对手网站的数据来做分析。用代理池可以避免短时间内请求次数太多而被封掉的情况,当然对于公司来说,除了这方面因素,也想隐藏自己的IP来源,不让竞争对手发现自己的意图。


以上是一个赚钱项目的思路,分享给大家。



推荐阅读:

用Python做垃圾分类




昨天的混脸熟中奖读者是:「暖阳」请于今天22:00前联系我哦~

640?wx_fmt=png

今天混脸熟的规则是:你觉得目前垃圾分类最缺少的是哪个环节?

今天送这本书:《Python 3.x 全栈开发从入门到精通》

640?wx_fmt=png



推荐阅读:

用Python做垃圾分类

昨天的

这篇关于一个靠爬虫赚钱的思路,无偿分享的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/342768

相关文章

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

C#读取本地网络配置信息全攻略分享

《C#读取本地网络配置信息全攻略分享》在当今数字化时代,网络已深度融入我们生活与工作的方方面面,对于软件开发而言,掌握本地计算机的网络配置信息显得尤为关键,而在C#编程的世界里,我们又该如何巧妙地读取... 目录一、引言二、C# 读取本地网络配置信息的基础准备2.1 引入关键命名空间2.2 理解核心类与方法

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

JAVA利用顺序表实现“杨辉三角”的思路及代码示例

《JAVA利用顺序表实现“杨辉三角”的思路及代码示例》杨辉三角形是中国古代数学的杰出研究成果之一,是我国北宋数学家贾宪于1050年首先发现并使用的,:本文主要介绍JAVA利用顺序表实现杨辉三角的思... 目录一:“杨辉三角”题目链接二:题解代码:三:题解思路:总结一:“杨辉三角”题目链接题目链接:点击这里

Python中列表的高级索引技巧分享

《Python中列表的高级索引技巧分享》列表是Python中最常用的数据结构之一,它允许你存储多个元素,并且可以通过索引来访问这些元素,本文将带你深入了解Python列表的高级索引技巧,希望对... 目录1.基本索引2.切片3.负数索引切片4.步长5.多维列表6.列表解析7.切片赋值8.删除元素9.反转列表

Python中处理NaN值的技巧分享

《Python中处理NaN值的技巧分享》在数据科学和数据分析领域,NaN(NotaNumber)是一个常见的概念,它表示一个缺失或未定义的数值,在Python中,尤其是在使用pandas库处理数据时,... 目录NaN 值的来源和影响使用 pandas 的 isna()和 isnull()函数直接比较 Na

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验