爬虫进阶-反爬破解9(下游业务如何使用爬取到的数据+数据和文件的存储方式)

本文主要是介绍爬虫进阶-反爬破解9(下游业务如何使用爬取到的数据+数据和文件的存储方式),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、下游业务如何使用爬取到的数据

(一)常用数据存储方案

1.百万级别数据:单机数据库,搭建和使用方便快捷,成本低

2.千万级别数据:负载均衡的多台数据库,安全和稳定

3.海量数据:大数据框架,分布式部署,承载量巨大

(二)数据库及框架

1.百万级别数据:Mysql、PostgreSQL、Mongo

2.千万级别数据:主从同步数据库,性能调优

3.大数据框架:Hbase、Elasticsearch、Hive

4.文件存储:OSS、COS、Kodo、fastDFS

(三)下游业务提取数据方式

1.数据库客户端界面筛选数据并导出

2.数据人员写代码查询数据并分析

3.大数据分析工具,例如Bi、Hadoop、spark

(四)总结

1.通常数据的存储位置,一般是已经准备指定了具体某个框架

2.爬虫开始工作前,分布式数据库的架设就要完成,并开发接口

3.数据分析人员,也需要学习编程,如Python,R,SQL

二、数据和文件存储方案:Hadoop/Hbase/Hive/Spark/OSS/FastDFS

(一)认识大数据框架

Hadoop:大数据框架,安全稳定,适合存储低频计算的大文件

Spark:基于内存的计算框架,实时计算数据

Hive:只支持SQL查询语法,处理结构化的数据

Hbase:nosql,非关系型数据库,类似mongodb

(二)认识分布式文件系统

对象存储【云产品】:方便易用容量大,但是贵

FastDFS:开源的分布式文件系统,自行搭建

HDFS:Hadoop内置的分布式文件系统,适合存储大文件

(三)低频大数据存储类型

1.框架选择:Hadoop+Hive

2.SQL查询语句,学习成本低

3.HDFS和MapReduce,对大数据有优势

(四)实时大数据计算类型

1.框架选择:Hadoop+Spark

2.Hadoop稳定,提供大数据的基础

3.Spark是运行在内存上的计算,运行速度快

(五)结构化大数据存储类型

1.框架选择:Hadoop+Hbase

2.数据是按列存储的,查询时只访问所涉及的列,速度快

3.大幅降低系统I/O,数据类型一致,可以高效压缩存储

(六)大数据文件系统和分布式文件系统

Hadoop的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大,采用了分块(切分)存储的方式;

FastDFS主要用于大中网站,为文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持的比较好,不分割文件。

(七)总结

(1)大数据范围很广,通常是指Hadoop生态圈。

(2)Hadoop不是单一框架,而是有非常多组件的大数据完整方案。

(3)根据项目的需求,选择特定组件接入到Hadoop中

这篇关于爬虫进阶-反爬破解9(下游业务如何使用爬取到的数据+数据和文件的存储方式)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/285368

相关文章

Python使用PIL库将PNG图片转换为ICO图标的示例代码

《Python使用PIL库将PNG图片转换为ICO图标的示例代码》在软件开发和网站设计中,ICO图标是一种常用的图像格式,特别适用于应用程序图标、网页收藏夹图标等场景,本文将介绍如何使用Python的... 目录引言准备工作代码解析实践操作结果展示结语引言在软件开发和网站设计中,ICO图标是一种常用的图像

使用Java发送邮件到QQ邮箱的完整指南

《使用Java发送邮件到QQ邮箱的完整指南》在现代软件开发中,邮件发送功能是一个常见的需求,无论是用户注册验证、密码重置,还是系统通知,邮件都是一种重要的通信方式,本文将详细介绍如何使用Java编写程... 目录引言1. 准备工作1.1 获取QQ邮箱的SMTP授权码1.2 添加JavaMail依赖2. 实现

MyBatis与其使用方法示例详解

《MyBatis与其使用方法示例详解》MyBatis是一个支持自定义SQL的持久层框架,通过XML文件实现SQL配置和数据映射,简化了JDBC代码的编写,本文给大家介绍MyBatis与其使用方法讲解,... 目录ORM缺优分析MyBATisMyBatis的工作流程MyBatis的基本使用环境准备MyBati

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

java两个List的交集,并集方式

《java两个List的交集,并集方式》文章主要介绍了Java中两个List的交集和并集的处理方法,推荐使用Apache的CollectionUtils工具类,因为它简单且不会改变原有集合,同时,文章... 目录Java两个List的交集,并集方法一方法二方法三总结java两个List的交集,并集方法一

Python中如何控制小数点精度与对齐方式

《Python中如何控制小数点精度与对齐方式》在Python编程中,数据输出格式化是一个常见的需求,尤其是在涉及到小数点精度和对齐方式时,下面小编就来为大家介绍一下如何在Python中实现这些功能吧... 目录一、控制小数点精度1. 使用 round() 函数2. 使用字符串格式化二、控制对齐方式1. 使用

Nginx配置系统服务&设置环境变量方式

《Nginx配置系统服务&设置环境变量方式》本文介绍了如何将Nginx配置为系统服务并设置环境变量,以便更方便地对Nginx进行操作,通过配置系统服务,可以使用系统命令来启动、停止或重新加载Nginx... 目录1.Nginx操作问题2.配置系统服android务3.设置环境变量总结1.Nginx操作问题

使用Apache POI在Java中实现Excel单元格的合并

《使用ApachePOI在Java中实现Excel单元格的合并》在日常工作中,Excel是一个不可或缺的工具,尤其是在处理大量数据时,本文将介绍如何使用ApachePOI库在Java中实现Excel... 目录工具类介绍工具类代码调用示例依赖配置总结在日常工作中,Excel 是一个不可或缺的工http://

Java之并行流(Parallel Stream)使用详解

《Java之并行流(ParallelStream)使用详解》Java并行流(ParallelStream)通过多线程并行处理集合数据,利用Fork/Join框架加速计算,适用于大规模数据集和计算密集... 目录Java并行流(Parallel Stream)1. 核心概念与原理2. 创建并行流的方式3. 适