阅读笔记(四)NoSQL的选择指引《NoSQL database systems: a survey and decision guidance》

本文主要是介绍阅读笔记(四)NoSQL的选择指引《NoSQL database systems: a survey and decision guidance》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一. 前言

  《NoSQL database systems: a survey and decision guidance》是一篇很好的综述类论文,详细的论述了NoSQL的特点和各种不同NoSQL数据库的选择依据。
  传统的关系型数据库(relational database management systems ,RDBMSs)可以在保证一致性、可靠性、稳定性的前提下提供强有力的数据存储、查询功能,这得益于他的设计模式:稳定可靠的数据结构。但是随着大数据时代的到来,RDBMSs难以驾驭越来越庞大的数据,这促使了非关系型数据库NoSQL的出现。NoSQL有很多不同的种类,但是基本都提供了很好的横向扩展性和高可用性,同时也牺牲了一定的查找能力和一致性保证。

二. NoSQL的常见种类

1. key-value键值存储数据库

  键值数据库由一系列的key-value组成,由于这种简单的结构,他们往往也只能提供get和put的操作,即CRUD(Create, Read, Update,Delete)。其优点在于简化抽象的数据结构使其易于分割和查询,因此该种数据库可以实现极低的延迟和极高的吞吐率。然而,如果需求更复杂的操作,如范围查找,这种数据库往往不是很给力。

2. 文件数据库

  文件数据库通常也是k-v的形式,区别在于这里的value不再是简简单单的数值而往往是json文件。这种存储方式使得相对于k-v数据库来说更为灵活,可以方便的查找数据,尤其是查找部分数据。

k-v数据库和文件数据库

3. 宽列数据库

  宽列数据库和以上两种数据库最大的不同在于存储方式上:按列存储数据而不是按行存储。这种做法对于存在很多稀疏列的数据集合的存储上有着极为显著的优势。其最大的优势在于高度的数据压缩和查询指定项数据或者数据分析时的极高效率。在实现层面上类似于多级分布式有序map。具体存储方式如下图所示:
宽列数据库

4. 其他数据库

  关于其他数据库如图数据库等不属于本文讨论重点,这里略过。

三. NoSQL的关键技术

1. 分片技术

  在关系型数据库中也有使用一些分布式存储,如Oracle的RAC,IBM的DB2 pureScale。它们依赖于共享磁盘架构,即所有数据库节点需要接入中央数据库进行同步(NAS或SAN)。因此他们可以保持良好的一致性,但是难以扩展。相反的,在NoSQL中,通常使用的技术称为无共享架构(Shared-Noting Architecture),即组成系统的各个服务器拥有私有内存和磁盘空间,并通过网络连接,由此实现了高扩展性。
  常用的基本分布式分片技术包括范围分片,哈希分片和实体组分片。
(1)范围分片是将数据排序,将连续的值切片存储,在BigTable, HBase, Hypertable等宽列数据库和部分文件数据库如MongoDB, RethinkDB, Espresso, DocumentDB中常见。
(2)哈希分片顾名思义是采取哈希散列均匀存储,这种方式最大的缺点在于查找较为困难,但是分片非常容易,在k-v数据库中常出现,在 一些宽列数据库如Cassandra和Azure Tables中有使用。
(3)实体组分片是为了方便在局部地区方便的进行数据交换,在G-Store, MegaStore , Relational Cloud , Cloud SQL Server中出现。

2. 数据复制

  就CAP理论而言,传统关系型数据库是不需要考虑的,一般均满足CA。而NoSQL则难以避免P的出现,因此需要根据需求在C和A中进行取舍。这其中数据的复制就是很重要的一项技术。根据不同的策略,这里主要的抉择在于何时更新以及在哪儿更新数据。
  “何时更新”通常有两种选择:主动的同步(Eager synchronous)复制以及采用消极的异步复制(lazy asynchronous)模式。采用eager模式的好处在于利于保持一致性,但是由于需要等待复制会带来较大的写延迟损耗并降低了可用性。采用lazy模式则会更快,但是难于实现一致性。
  “在哪儿更新”意为采用主从复制机制(master-slave primary copy scheme)还是多主机机制(multi-master approach)。主从机制最大的问题在于为了保证master崩溃之后如何建立新的Master,因此会有较为复杂的机制。而多主机则相反,主要是需要解决如何检测或者防止改变的冲突,常用解决方法有版本控制,向量钟,gossip和读修复。

3. 数据查询

  NoSQL数据库的查询能力取决于他们的分布式模型、一致性情况和数据模型。每个NoSQL都可以支持基本的key值查找,但是过滤查找或者说范围查找则通常对于范围分区系统较易实现。而对于数据的分析NoSQL则有一些不同,如MongoDB, Riak, CouchDB在内部实现了数据的分析,而对于 Cassandra 和 HBase,通常采用外部分析平台如Hadoop, Spark 和 Flink,另外批处理的分析工具MapReduce也有较好的表现。下图是NoSQL数据库的主要技术和函数及非函数系统特性的支持。

在这里插入图片描述

四. NoSQL的选择

  这里需要明确一点就是,之所以有这么多不同的NoSQL,是因为没有哪一种数据库是万能通用的,没有哪种数据库可以一劳永逸满足所有需求。因此,我们选用或者自己设计数据库的时候,需要根据需求谨慎的进行选择、构建。这里给出了三幅关于NoSQL的特性的图以及选择树,供于粗略的判断选取使用。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

五. 总结

  本文大致总结了《NoSQL database systems: a survey and decision guidance》一文中的主要观点和提纲,用以记录和后续查阅使用。该文章中所有引用文献均是极好的分布式学习资料,都值得认真品读。同样的,该文也值得多次反复阅读和学习,一定会获益良多。

这篇关于阅读笔记(四)NoSQL的选择指引《NoSQL database systems: a survey and decision guidance》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1138053

相关文章

MySQL 中的 CAST 函数详解及常见用法

《MySQL中的CAST函数详解及常见用法》CAST函数是MySQL中用于数据类型转换的重要函数,它允许你将一个值从一种数据类型转换为另一种数据类型,本文给大家介绍MySQL中的CAST... 目录mysql 中的 CAST 函数详解一、基本语法二、支持的数据类型三、常见用法示例1. 字符串转数字2. 数字

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

SQL Server配置管理器无法打开的四种解决方法

《SQLServer配置管理器无法打开的四种解决方法》本文总结了SQLServer配置管理器无法打开的四种解决方法,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录方法一:桌面图标进入方法二:运行窗口进入检查版本号对照表php方法三:查找文件路径方法四:检查 S

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE

MySQL中的锁机制详解之全局锁,表级锁,行级锁

《MySQL中的锁机制详解之全局锁,表级锁,行级锁》MySQL锁机制通过全局、表级、行级锁控制并发,保障数据一致性与隔离性,全局锁适用于全库备份,表级锁适合读多写少场景,行级锁(InnoDB)实现高并... 目录一、锁机制基础:从并发问题到锁分类1.1 并发访问的三大问题1.2 锁的核心作用1.3 锁粒度分