120项优化: 超级爬虫Hawk 2.0重磅发布!

2023-11-06 19:18

本文主要是介绍120项优化: 超级爬虫Hawk 2.0重磅发布!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0!

啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇小软文(原文链接在此),推出了Hawk 

关注的人超级多有木有! Github上的小星星一下子增加到400!超多妹子在沙漠君的粉丝应援团里疯狂崇拜!然而这不是重点!重点是Hawk真的好多”小”问题… 

有朋友哭诉,刚启动小鹰它就冒烟了,还是烤肉味的!好不容易把小虫虫做好,碰了一下显示器,结果小虫虫就扑街了 

每次听到反馈,我都超想好好地把小鹰改造一番。但是!!你们想不到沙漠君工作有多忙!只有在洗手间的时候,我才空在手纸上写代码!

然而!自己挖的坑,哭着也要把它填完!这不,Hawk 2.0横空出世了!

二鹰新增哪些特性呢?

每当我在妹子们前炫耀Hawk的时候,每点一次鼠标,妹子们就一片赞叹,对,就这个效果。

裹脚布杀手:全面支持动态页面

二鹰全面支持动态网页,ajax和瀑布流。这是啥?你在刷微博看杨臭脚的时候,浏览器的地址显示你家幂幂的名字了吗? 没有吧?这就是动态网页,地址是隐藏在网页之中的!

怎么办?你只要把随便一条微博的一个关键词输入到“搜索关键字”那里,点“开始”自动嗅探。二鹰就会帮你抓到这个请求。不论再臭再长的裹脚布都不怕。


大家都很喜爱鹰1的“手气不错”功能,但之前只能处理html,而很难处理内嵌js和json, 现在只要你勾选“超级模式”,不论返回的是何种数据类型。直接点“手气不错”,数据表格就完整出来了!其他什么都不用干!

啊啊啊太强大了,理论上没有二鹰抓不到的网站,除非你的关键字实在太蠢,或者网站做得太高级…

反反爬虫:增加代理

诶诶诶,你又被网站封IP了?谁让你这么不温柔?没有关系,在网页采集器里配置代理,小虫虫就又能接着干活了。

我知道你肯定会问,哪里找代理?那沙漠君就不造了。出门淘宝,想免费的话去翻一翻代理网站,或者搜索“ADSL拨号” 。但是不要用Hawk来做任何非法的用途哦(这段好多敏感词 

(爬数据适可而止,小心被查水表哦)

120项改进和优化

沙漠君本来在吃着火锅改着代码,但惊讶于Hawk中居然藏了那么多的bug,吓得我火锅里的毛肚都烫老了! 不过话说回来,只有这样你们才会想起我呀~

于是在发布第一版后的三个月,我断断续续修复了大概120个bug,错误清单上面长长的一片:

  • 在某些win7机器上运行不了啊

  • 开启嗅探再关闭软件,突然上不了网了啦

  • 把爬虫转换拖进去没反应啦,其实就是你没配置好…

不好意思,根本列不完,列完你也看不完。

不过,优化了这么多,我还是保证了前向兼容,之前大家设计的工程文件都能继续使用。反正不会随随便便就崩溃了。

其实Hawk的子流系统是个超酷的功能,可惜我觉得100个人里有一个会用就不错了。这是个啥呢? 简单说,你可以搭积木,先设计小虫虫,再拼成大虫虫。甚至支持自己和自己拼起来(专业点叫尾递归。邪恶点叫69?啊不要想歪  )

借助子流和内置的Python脚本系统,二鹰能达到图灵完备,实现任意复杂的逻辑,甚至能做刷票!反正口说无凭,你仔细去感受一下就是了。

沙漠君写了完整的文档!

大家最多的反馈,是XXX怎么用啊?泥萌也知道对程序猿来说,写文档就像和产品经理吵架一样痛苦。 我还是咬咬牙,决定写完整的文档!

程序员写文档一般都不是给地球人看的。但是沙漠君忍了。 恩,6个完整的手把手的例子,到每个模块的概要说明,想要的基本都能找到。如果有任何问题,直接在GitHub上留言提问,沙漠君实在受不了一个问题重复回答一百遍啊一百遍!


文档也许现在不全,不过没关系,我会慢慢补充的,总得给我点时间啦。如果还有bug捏?我保证一口老血吐在你的屏幕上! 当然,如果bug够高级,你心爱的沙漠君可能会给你发红包哦。

在哪里获得?~~

Hawk号称是数据界的小确幸,它已经被全国政协,妇联工商联,各大企事业单位和个人广泛使用。

Hawk完全免费开源! 目前所有的文档和发行版,都在GitHub上能找到,点击阅读原文即可,下载包在Release栏目下。 之前的百度云,CSDN下载都可能不再维护。如果你喜欢它,最少是不是该成为沙漠之鹰微信公号的粉丝呀?是不是该在GitHub上Star一下呀? 

如果还找不到? 沙漠之鹰后台留言或留邮箱,链接和安装包直接发给你!

号外:沙漠之鹰获得原创权限啦

最后我要说的是,在大家的热心帮助下,沙漠之鹰在2016年11月21号,正式获得了原创评论功能,果然吐槽是有用的,总共才花了10天时间!要不然才叫遥遥无期呢。感谢党和人民的信任,各位票友对沙漠君的支持~ 我会继续努力,写更好的文章,欢迎大家用留言砸晕我的微信公号后台~





沙漠之鹰"个人公众号,所有文章全部原创。任何形式的转载,演绎,必须经过公众号联系原作者获得授权,保留一切权利。




内容转载自公众号

沙漠之鹰
沙漠之鹰
了解更多

这篇关于120项优化: 超级爬虫Hawk 2.0重磅发布!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358535

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令 在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository。如果采用原始直接打包放到lib目录的方式进行处理,便对项目的管理带来一些不必要的麻烦。例如版本升级后需要重新打包并,替换原有jar包等等一些额外的工作量和麻烦。为了避免这些不必要的麻烦,通常我们