互联网架构(高性能 高可用 高可扩展) 之“存储层”技术

2024-01-06 15:08

本文主要是介绍互联网架构(高性能 高可用 高可扩展) 之“存储层”技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        很多人对于 BAT的技术有一种莫名的崇拜感,觉得只有天才才能做出这样的系统。其实是业务的不断发展推动了技术的发展,这样一步一个脚印,持续几年甚十几年的发展,才能达到当前技术复杂度和先进性。 
        其实 BAT的技术架构基本是一样的。 再将视⻆放大,你会发现整个互联网行 业的技术发展,最后都是殊途同归。 互联网的标准技术架构如下图所示,这张图基本上涵盖了互联网技术公司的大部分技术点,不同的公司只是在具体的技术实现 上稍有差异,但不会跳出这个框架的范畴。

针对互联网架构模板,先来聊聊互联网架构模板的存储层技术。

一、SQL

SQL即我们通常所说的关系数据。互联网行业也必须依赖关系数据,考虑到Oracle太贵,还需要专业维护,一般情况下互联网行业都是用MySQL、PostgreSQL这类开源数据库。这类数据库的特点是开源免费,拿来就用;但缺点是性能相比商业数据库要差一些。随着互联 网业务的发展,性能要求越来越高,必然要面对一个问题:将数据拆分到多个数据库实例才能满足业务的性能需求(其实 Oracle也一样,只是时间早晚的问题)。

数据库拆分满足了性能的要求,但带来了复杂度的问题:数据如何拆分、数据如何组合?这个复杂度的问题解决起来并不容 易,如果每个业务都去实现一遍,重复造轮子将导致投入浪费、效率降低,业务开发想快都快不起来。

所以互联网公司流行的做法是业务发展到一定阶段后,就会将这部分功能独立成中间件,例如百度的DBProxy、淘宝的 TDDL。不过这部分的技术要求很高,将分库分表做到自动化和平台化,不是一件容易的事情,所以一般是规模很大的公司才 会自己做。中型公司建议使用开源方案,例如MySQL官方推荐的MySQL Router360开源的数据库中间件Atlas

假如公司业务继续发展,规模继续扩大,SQL服务器越来越多,如果每个业务都基于统一的数据库中间件独立部署自己的SQL 集群,就会导致新的复杂度问题,具体表现在:

  • 数据库资源使用率不高,比较浪费。
  • SQL集群分开维护,投入的维护成本越来越高。

因此,实力雄厚的大公司此时一般都会在SQL集群上构建SQL存储平台,以对业务透明的形式提供资源分配、数据备份、迁 移、容灾、读写分离、分库分表等一系列服务,例如淘宝的UMPUnifified MySQL Platform)系统。

二、NoSQL

确切的理解应该是 Not only SQL,是SQL的补充

首先NoSQL在数据结构上与传统的SQL的不同,例如典型的Memcachekey-value结构、Redis的复杂数据结构、MongoDB 的文档数据结构;其次,NoSQL无一例外地都会将性能作为的一大卖点。NoSQL的这两个特点很好地弥补了关系数据库 的不足,因此在互联网行业NoSQL的应用基本上是基础要求。

由于NoSQL方案一般自己本身就提供集群的功能,例如Memcache的一致性Hash集群、Redis 3.0的集群,因此NoSQL在刚开 始应用时很方便,不像SQL分库分表那么复杂。一般公司也不会在开始时就考虑将NoSQL包装成存储平台,但如果公司发展 很快,例如Memcache的节点有上千甚至几千时,NoSQL存储平台就很有意义了。首先是存储平台通过集中管理能够大大提 升运维效率;其次是存储平台可以大大提升资源利用效率,2000台机器,如果利用率能提升10%,就可以减少200台机器,一年上百万元就节省出来了。

所以,NoSQL发展到一定规模后,通常都会在NoSQL集群的基础之上再实现统一存储平台,统一存储平台主要实现这几个功能:

  • 资源动态按需动态分配:例如同⼀台Memcache服务器,可以根据内存利⽤率,分配给多个业务使用。
  • 资源⾃动化管理:例如新业务只需要申请多少Memcache缓存空间就可以了,无需关注具体是哪些Memcache服务器在为自己提供服务。
  • 故障自动化处理:例如某台Memcache服务器挂掉后,有另外一台备份Memcache服务器能立刻接管缓存请求,不会导致丢失很多缓存数据

       当然要发展到这个阶段,一般也是大公司才会这么做,简单来说就是如果只有几十台NoSQL服务器,做存储平台收益不大;

但如果有几千台 NoSQL 服务器, NoSQL 存储平台就能够产生很大的收益。

三、小文件存储

        除了关系型的业务数据,互联网行业还有很多用于展示的数据。例如,淘宝的商品图片、商品描述; Facebook 的用户图片; 新浪微博的一条微博内容等。这些数据具有三个典型特征:一是数据小,一般在1MB 以下;二是数量巨大, Facebook 2013 年每天上传的照片就达到了3.5 亿张;三是访问量巨大, Facebook 每天的访问量超过 10 亿。
       由于互联网行业基本上每个业务都会有大量的小数据,如果每个业务都自己去考虑如何设计海量存储和海量访问,效率自然会 低,重复造轮子也会投入浪费,所以自然而然就要将小文件存储做成统一的和业务无关的平台。
       和 SQL NoSQL 不同的是,小文件存储不一定需要公司或者业务规模很大,基本上认为业务在起步阶段就可以考虑做小文件
统一存储。得益于开源运动的发展和最近几年大数据的火爆,在开源方案的基础上封装几个个小文件存储平台并不是太难的事情。例如,HBase Hadoop Hypertable FastDFS 等都可以作为小文件存储的底层平台,只需要将这些开源方案再包装一
下基本上就可以用了。
典型的小文件存储有:淘宝的 TFS 、京东 JFS Facebook Haystack
下图是淘宝 TFS 的架构:
http://code.taobao.org/p/tfs/fifile/305/structure.png

四、大文件存储

        互联网行业的大文件主要分为两类:一类是业务上的大数据,例如 Youtube 的视频、电影网站的电影;另一类是海量的日志数 据,例如各种访问日志、操作日志、用户轨迹日志等。和小文件的特点正好相反,大文件的数量没有小文件那么多,但每个文
件都很大,几百 MB 、几个 GB 都是常见的,几十 GB 、几 TB 也是有可能的,因此在存储上和小文件有较大差别,不能直接将小文
件存储系统拿来存储大文件。
        说到大文件,特别要提到 Google Yahoo Google 3 篇大数据论文( Bigtable/Map- Reduce/GFS )开启了一个大数据的时
代,而 Yahoo 开源的 Hadoop 系列( HDFS HBase 等),基本上垄断了开源界的大数据处理。当然,江山代有才人出,长江后
浪推前浪, Hadoop后也有更多优秀的开源方案被贡献出来。
        对照 Google 的论文构建一套完整的大数据处理方案的难度和成本实在太大,而且开源方案现在也很成熟了,所以大数据存储
和处理这块反而是最简单的,因为你没有太多选择,只能用这几个流行的开源方案,例如, Hadoop HBase Storm Hive 等。实力雄厚一些的大公司会基于这些开源方案,结合自己的业务特点,封装成大数据平台,例如淘宝的云梯系统、腾讯的 TDW系统。
下面是 Hadoop 的生态圈:
http://i.imgur.com/Dpz74XZ.jpg
总结:
        分析互联网公司架构的存储层技术,可以看到当公司规模发展到一定阶段后,基本上都是基于某个开源方案搭建
统一的存储平台。

这篇关于互联网架构(高性能 高可用 高可扩展) 之“存储层”技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/576718

相关文章

Redis存储的列表分页和检索的实现方法

《Redis存储的列表分页和检索的实现方法》在Redis中,列表(List)是一种有序的数据结构,通常用于存储一系列元素,由于列表是有序的,可以通过索引来访问元素,因此可以很方便地实现分页和检索功能,... 目录一、Redis 列表的基本操作二、分页实现三、检索实现3.1 方法 1:客户端过滤3.2 方法

MySQL 缓存机制与架构解析(最新推荐)

《MySQL缓存机制与架构解析(最新推荐)》本文详细介绍了MySQL的缓存机制和整体架构,包括一级缓存(InnoDBBufferPool)和二级缓存(QueryCache),文章还探讨了SQL... 目录一、mysql缓存机制概述二、MySQL整体架构三、SQL查询执行全流程四、MySQL 8.0为何移除查

微服务架构之使用RabbitMQ进行异步处理方式

《微服务架构之使用RabbitMQ进行异步处理方式》本文介绍了RabbitMQ的基本概念、异步调用处理逻辑、RabbitMQ的基本使用方法以及在SpringBoot项目中使用RabbitMQ解决高并发... 目录一.什么是RabbitMQ?二.异步调用处理逻辑:三.RabbitMQ的基本使用1.安装2.架构

C++中使用vector存储并遍历数据的基本步骤

《C++中使用vector存储并遍历数据的基本步骤》C++标准模板库(STL)提供了多种容器类型,包括顺序容器、关联容器、无序关联容器和容器适配器,每种容器都有其特定的用途和特性,:本文主要介绍C... 目录(1)容器及简要描述‌php顺序容器‌‌关联容器‌‌无序关联容器‌(基于哈希表):‌容器适配器‌:(

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

《centos7基于keepalived+nginx部署k8s1.26.0高可用集群》Kubernetes是一个开源的容器编排平台,用于自动化地部署、扩展和管理容器化应用程序,在生产环境中,为了确保集... 目录一、初始化(所有节点都执行)二、安装containerd(所有节点都执行)三、安装docker-

使用JavaScript操作本地存储

《使用JavaScript操作本地存储》这篇文章主要为大家详细介绍了JavaScript中操作本地存储的相关知识,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录本地存储:localStorage 和 sessionStorage基本使用方法1. localStorage

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。