columnar专题

从一到无穷大 #34 从Columnar Storage Formats评估到时序存储格式的设计权衡

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。 文章目录 引言Parquet / ORC功能与结构对比差异Indexes and Filters压缩影响 TsFile总结 引言 随着 Parquet,ORC,TsFile等开源存储格式的发展,各家时序厂商的压缩

列式存储数据库(Columnar Database)

列式存储数据库(Columnar Database)是一种数据库设计,用于优化数据存储和查询性能,特别是在分析型应用和数据仓库场景中。与传统的行式存储数据库(Row-based Database)不同,列式存储数据库按列而非按行存储数据,这使得它在某些应用中表现出更高的查询效率和压缩比。 列式存储数据库的特点 数据存储方式: 列式存储: 数据按列存储,而不是按行。这意味着同一列的数据存储在一

Spanner on a modern columnar storage engine 中文翻译

文章目录 0. 摘要1. 存储引擎2. 存储引擎迁移的挑战2.1 可靠性、可用性和数据完整性2.2 性能和成本2.3 复杂性 3. 迁移可靠性的系统原则方法3.1 可靠性原则和自动化架构3.2 迁移方案和按周迁移3.3 客户 部署感知 调度3.4 管理可靠性、可用性和性能 4. 项目管理和驱动指标概括 0. 摘要 谷歌诞生于云端。在 Google,我们庞大的基础架构为内外的服务提

大数据什锦_ORCPARQUET_按列存储_Columnar VS Row-based

文章目录 概述Columnar VS Row-basedORC和PARQUETORCParquet 实验准备创建数据库创建表和加载数据比较表的大小 存储格式+压缩ORCPARQUET 概述 本文通过使用Hadoop的数据仓库工具Hive中的不同存储格式,比较按行存储和按列存储的不同。按列存储使用的是企业中最长见的ORC和PARQUET。 这里不讲解对于Hive的使用。 Co

Spark SQL Columnar模块源码分析

概述 本文介绍Spark SQL增加的Columnar模块代码实现。 首先介绍Columnar内的代码结构和实现,然后介绍在SqlContext里的使用方式。 Columnar InMemoryColumnarTableScan 实现 InMemoryColumnarTableScan类是SparkPlan LeafNode的实现,即是一个物理执行计划。 pri

过往记忆的专栏文章转载:RCFile (Record Columnar File)设计

原始链接:https://www.iteblog.com/archives/9829.html   从行存储到 RCFile,Facebook 为什么要设计出 RCFile?  Hive  2020-06-16 22:56:46 344  0评论 下载为PDF 为什么无法评论和登录 2010年,Facebook 的工程师在 ICDC(IEEE International Conferenc

Spark SQL 源码分析之 In-Memory Columnar Storage 之 cache table

Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效率。     这就涉及到内存中的数据的存储形式,我们知道基于关系型的数据可以存储为基于行存储结构 或 者基于列存储结构,或者基于行和列的混合存储,即Row Based Storage、Column Based Storage、 PAX Stora

Spark SQL 源码分析之 In-Memory Columnar Storage 之 in-memory query

前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。     那么基于以上存储结构,我们查询cache在jvm内的数据又是如何查询的,本文将揭示查询In-Memory Data的方式。 一、引子 本例使用hive console里查询cache后的src表。 select value from src 当我们将src表cache到了

Spark SQL 源代码分析之 In-Memory Columnar Storage 之 in-memory query

/** Spark SQL源代码分析系列文章*/     前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。     那么基于以上存储结构,我们查询cache在jvm内的数据又是怎样查询的,本文将揭示查询In-Memory Data的方式。 一、引子 本例使用hive console里查询cache后的src表。 selec