游戏夜读 | 简单认识一下爬虫

2024-03-19 04:38

本文主要是介绍游戏夜读 | 简单认识一下爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上次提到“爬虫”这个词,已经从单纯的动物指代,变成了“采集网络数据”的新时尚词汇。也提到了网络协议三要素:语法、语义、时序。开始把一个个爬虫程序理解为一个个网络机器人,那么接下来就再简单说一说机器人可能会遇到哪些困难。

首先,键盘、鼠标、眼球捕捉仪等计算机的外接设备,对于爬虫来说都不是问题。同样的,信息的实际载体也不会是大问题。比方说,很多内容是通过浏览器看到的,还有不少好玩的是需要在移动设备上安装App,即应用程序。都不是问题。

其中,凡是通过有线、无线连接的设备,自然就能有工具去解析出数字信息。此外,浏览器、应用程序、软件,一般是以为就运行在某台物理机器上,像是电视、手机、平板电脑之类的。实际上,他们是依附于操作系统的,像是微软、塞班、安卓、苹果、鸿蒙等等。只要是在操作系统内,就有非常多的工具可以使用去进行行为模拟了,比如自动化测试工具。

轻松登陆了信息的实际载体这个阵地后,爬虫的下一步计划就是“挖矿”啦!读取信息,或者有选择的读取所需的信息。

网络信息的表达方式通常都很直接,是“公布天下”式的。不信?大可以在浏览网页时,通过鼠标右键查看源代码,经常会发现网页的文本、加载处理的脚本、字体来源、针对特殊群体的无障碍功能设计等等。爬虫可以随意访问到这些信息。

对于可以随意访问的网站,爬虫可能就真的是排山倒海般随意访问起来了,这对网站的建设工程师们来说可不是什么好事情,所以,在随意访问的基础上,往往又会加以限制,比如:时不时跳出弹窗提醒休息一下啦,验证码,限制访问次数。

也不是所有的信息都是开诚布公的,有些是“申请制”的。最常见的就是需要注册、登录后,才予以访问、下载。

信息发布方式的差别,对爬虫的影响微乎其微。真正能让爬虫抓耳挠腮的,是信息的传递、排版、加密方式。虽然上述的发布方式也可以视为传递的一部分,但这只是人为感受到一部分,计算机网络通信中还可以有更多、更复杂的传递内容,爬虫如果没有把自己伪装彻底,就很可能暴露自己的机器人身份:今天某网站来了一位将被重点关照的可疑的不速之客。

信息的排版也会让爬虫很是头疼。同样的几段文本,可能会在送达上网人的肉眼之前再加一道工序:呈现出一篇文章,而爬虫得到的就是几段文本。这个时候的爬虫就该思考一下人生:到底是为了获取什么样的信息而来,又该带走什么。

最后说一下加密,一般就是编码,而且都是常用的几个,毕竟网络信息是被看、被用、被分享的,不全是网络安全大赛的争夺,所以,大体上并没有什么神奇的地方。如果爬虫倒在了这一步,那大可掉头放弃,不可在犯罪边缘疯狂试探哦!

文/良宵听雨。授权“游戏夜读”发表。

这篇关于游戏夜读 | 简单认识一下爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/824807

相关文章

利用Python编写一个简单的聊天机器人

《利用Python编写一个简单的聊天机器人》这篇文章主要为大家详细介绍了如何利用Python编写一个简单的聊天机器人,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 使用 python 编写一个简单的聊天机器人可以从最基础的逻辑开始,然后逐步加入更复杂的功能。这里我们将先实现一个简单的

使用IntelliJ IDEA创建简单的Java Web项目完整步骤

《使用IntelliJIDEA创建简单的JavaWeb项目完整步骤》:本文主要介绍如何使用IntelliJIDEA创建一个简单的JavaWeb项目,实现登录、注册和查看用户列表功能,使用Se... 目录前置准备项目功能实现步骤1. 创建项目2. 配置 Tomcat3. 项目文件结构4. 创建数据库和表5.

使用PyQt5编写一个简单的取色器

《使用PyQt5编写一个简单的取色器》:本文主要介绍PyQt5搭建的一个取色器,一共写了两款应用,一款使用快捷键捕获鼠标附近图像的RGB和16进制颜色编码,一款跟随鼠标刷新图像的RGB和16... 目录取色器1取色器2PyQt5搭建的一个取色器,一共写了两款应用,一款使用快捷键捕获鼠标附近图像的RGB和16

四种简单方法 轻松进入电脑主板 BIOS 或 UEFI 固件设置

《四种简单方法轻松进入电脑主板BIOS或UEFI固件设置》设置BIOS/UEFI是计算机维护和管理中的一项重要任务,它允许用户配置计算机的启动选项、硬件设置和其他关键参数,该怎么进入呢?下面... 随着计算机技术的发展,大多数主流 PC 和笔记本已经从传统 BIOS 转向了 UEFI 固件。很多时候,我们也

基于Qt开发一个简单的OFD阅读器

《基于Qt开发一个简单的OFD阅读器》这篇文章主要为大家详细介绍了如何使用Qt框架开发一个功能强大且性能优异的OFD阅读器,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 目录摘要引言一、OFD文件格式解析二、文档结构解析三、页面渲染四、用户交互五、性能优化六、示例代码七、未来发展方向八、结论摘要

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

Python开发围棋游戏的实例代码(实现全部功能)

《Python开发围棋游戏的实例代码(实现全部功能)》围棋是一种古老而复杂的策略棋类游戏,起源于中国,已有超过2500年的历史,本文介绍了如何用Python开发一个简单的围棋游戏,实例代码涵盖了游戏的... 目录1. 围棋游戏概述1.1 游戏规则1.2 游戏设计思路2. 环境准备3. 创建棋盘3.1 棋盘类

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu2289(简单二分)

虽说是简单二分,但是我还是wa死了  题意:已知圆台的体积,求高度 首先要知道圆台体积怎么求:设上下底的半径分别为r1,r2,高为h,V = PI*(r1*r1+r1*r2+r2*r2)*h/3 然后以h进行二分 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#includ

usaco 1.3 Prime Cryptarithm(简单哈希表暴搜剪枝)

思路: 1. 用一个 hash[ ] 数组存放输入的数字,令 hash[ tmp ]=1 。 2. 一个自定义函数 check( ) ,检查各位是否为输入的数字。 3. 暴搜。第一行数从 100到999,第二行数从 10到99。 4. 剪枝。 代码: /*ID: who jayLANG: C++TASK: crypt1*/#include<stdio.h>bool h