google f1 mysql_数据库NewSQL之谷歌F1系统

2024-02-27 21:10

本文主要是介绍google f1 mysql_数据库NewSQL之谷歌F1系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

介绍

谷歌对数据系统性能有极高的要求,MySQL这样的系统都很难令其满意,所以谷歌设计F1数据库,其目标是让其具备高度的可扩展性和高度稳定性,除了必备的SQL语言支持外,F1还提供ad hoc类型查询。

基本构架

243644_0.png

用户通过客户端语料库(client library)和F1交互。用户发出的请求首先送到某个F1服务器,F1服务器负责之后的任务分配和数据处理。

为了减少处理请求造成的延时(latency),F1的客户端和与之直接相连的负载均衡器会首先向最近的F1服务器相连,但是如果附近的F1服务器非常繁忙或者出现故障,那么就会找其他远一点的服务器。

F1服务器通常和spanner服务器放在一个数据中心,因为这样可以提高数据读写的速度,不过F1服务器也可以连接其他数据中心的spanner服务器。spanner从一个叫做CFS(Colossus File System)的文件系统调取数据,相连的spanner和CFS永远是在同一个数据中心的,也就是说,某个数据中心的spanner不会和另一个数据中心的CFS相连。

因为F1服务器没有存储数据,F1服务器可以根据访问流量的大小随意增减。

整个F1系统处理请求可以在单个节点上完成,也可以在多个节点上分布完成,关键看哪个延时更小。如果是用分布式的方式处理请求,F1会指定多个进程(process)来完成,一个从属服务器(slave server)接管一个进程。多个从属服务器由一个主服务器(master server)管理。F1也支持MapReduce。

Spanner

F1和spanner是同时被研究开发出来的,但是spanner更加偏向于底层处理,例如缓存,数据共享和搬运,数据位置计算等等。

F1本身是关系型数据库,所以数据是一行一行地放在了列表(table)里。spanner将所有数据分成了一个个由很多行数据组成的集群(cluster),或者叫做目录(directory)。每一个目录至少有一个分段(fragment),大的目录通常有好几个分段。一个目录的多个分段组成了一个组(group),每一个数据中心存放了一个组的副本。

spanner在处理查询语句的时候使用二阶段锁(two-phase locking)和二阶段提交(two-phase commit),这样信息交互在网络中增加了一倍,增加了延时。为了保证数据的一致性(consistency),spanner使用时间戳(timestamp)给每一条事务排序,保证全球的事务有序执行。

数据模型

F1的数据模型和关系型数据库相似,都有数据概要(schema),但在此基础上也有扩展。

F1数据概要下的表格(table)是分层的。子表格(child table)里面的所有key必须包含母表格(parent table)里面的key。根表格(root table)里的每一行叫做根行(root row),所有根据某条根行衍生出来的子表格行组成一个spanner目录

Protocol Buffers

普通数据库的一个缺点是,数据结构里的数据要通过繁琐的代码转换成数据库数据之后才能被存入数据库,谷歌使用Protocol Buffer语料库(library),使得表格的每一列支持结构化数据类型。

数据索引

F1有两种索引,一种是局域索引(local index),局域索引的key必须包含根行的key作为前缀。局域索引的key和索引到的结果都和实际的根行放在同一个spanner目录下,所以局域索引的修改占用了事务中很少的一部分用时。

另一种索引是全局索引(global index)。和局域索引不同的是,全局索引的key不包含根行的key,并且和索引的数据分开存放。很多目录都可以访问全局索引,全局索引存放在多个spanner服务器里。如果修改了一条被索引的行,那么更新索引就需要用到2PC(2 phase commit)。全局索引在扩展性方面做得不是很好。比如说,一个新增1000行数据的事务会让索引新增几百条记录,2PC处理这几百条新增的记录会变得很慢。目前谷歌正在研究让全局索引有更好地扩展性的方法。

修改数据概要(schema)

F1数据库是一个全球范围的数据库,这意味着世界上所有人都可以修改里面的同一份数据概要,谷歌要求在这个过程中不允许出现任何故障或者表格上锁(table locking)。

那么如何实现呢?谷歌修改概要的方法是用非同步法,也即是说不同的F1服务器在同一时候可能储存两个本质相同但概要内容不同的数据库。对此,谷歌设计了自己的算法。

事务执行

F1有三种类型的事务:

1. 只读(read-only)事务

2. 直接映射到spanner的事务:此类型的事务直接由spanner处理。

3. 读写事务:为了防止在读取的时候数据被其他事务修改,F1还会给出上一次被修改的时间,数据一旦被更新,这个时间也会随之更新。

默认形式下,F1客户端使用读写事务模式。这样做的优点有

- 读取数据不需要数据锁,而且不会和改写数据相冲突,事务之间互不受影响。

- 某些事务本来就需要很长时间,这样也不会被禁止

- 事务在出错之后可以重新执行

- 客户端在发现远程服务器出现故障后,可以连接另一台服务器

- 事务执行过程中允许读取处理事务以外的数据

但是该模式也有缺点,就是如果某一数据被频繁调取,那么系统在这个数据上的工作效率(throughput)就很低。

数据锁

F1数据库中每一行数据都有一个锁列(lock column)。锁列可以由用户自由定制并且负责该行每一列数据的上锁。这样每一行的不同列就能被不同事务读取修改。

记录修改

F1需要记录过去对数据库的所有更改。F1记录每一条事务的修改记录时会包含每一行某一列修改前和修改后的值,还有primary key。这里的primary key包含根表格的key和提交事务时候的时间,所有这些记录放在了另外一个表格中。这些记录在F1相关应用中有重要作用。

客户端

在F1之前,很多谷歌的数据库应用都是用MySQL的ORM,ORM不适合在F1中使用,因为扩展性不高。于是谷歌设计了自己的API。同时F1也支持NoSQL和SQL。

事务查询处理

F1支持单点事务处理和分布式事务处理,单点OLTP由一个F1服务器处理,分布式OLAP由F1下的从属服务器(slaver)共同处理。

处理远程数据

在F1中,SQL中的join命令要求读取多个数据中心的数据,这会带来网络延时,解决办法是数据批量传送(batching)和流水线操作(pipelining)。

数据计算通常是一部分计算好之后就被输出,减少等待时间。这样做的好处是并行高效和减少存储缓冲,但缺点是数据不能被排序。

分布式计算

每一个事务执行计划包含了几十个子计划,每一个子计划由几个从属服务器执行,同时,数据划分(partitioning)技术也在此处用到。

这篇关于google f1 mysql_数据库NewSQL之谷歌F1系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/753602

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

SQL中的外键约束

外键约束用于表示两张表中的指标连接关系。外键约束的作用主要有以下三点: 1.确保子表中的某个字段(外键)只能引用父表中的有效记录2.主表中的列被删除时,子表中的关联列也会被删除3.主表中的列更新时,子表中的关联元素也会被更新 子表中的元素指向主表 以下是一个外键约束的实例展示

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

如何去写一手好SQL

MySQL性能 最大数据量 抛开数据量和并发数,谈性能都是耍流氓。MySQL没有限制单表最大记录数,它取决于操作系统对文件大小的限制。 《阿里巴巴Java开发手册》提出单表行数超过500万行或者单表容量超过2GB,才推荐分库分表。性能由综合因素决定,抛开业务复杂度,影响程度依次是硬件配置、MySQL配置、数据表设计、索引优化。500万这个值仅供参考,并非铁律。 博主曾经操作过超过4亿行数据

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设