单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

本文主要是介绍单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640

国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题:

  1. 详单采用Parquet格式存储,数据表使用时间+MSISDN号码做分区,使用Impala查询,利用不上分区的查询场景,则查询性能比较差。


  2. 在使用Impala过程中,遇到很多性能问题(比如catalog元数据膨胀导致元数据同步慢等),并发查询性能差等。


  3. Impala属于MPP架构,只能做到百节点级,一般并发查询个数达到20左右时,整个系统的吞吐已经达到满负荷状态,在扩容节点也提升不了吞吐量。


  4. 资源不能通过YARN统一资源管理调度,所以Hadoop集群无法实现Impala、Spark、Hive等组件的动态资源共享。给第三方开放详单查询能力也无法做到资源隔离。


针对上面的一系列问题,移动局点客户要求我们给出相应的解决方案,我们大数据团队针对上面的问题进行分析,并且做技术选型,在这个过程中,我们以这个移动局点的几个典型业务场景作为输入,分别对Spark+CarbonData、Impala2.6、HAWQ、Greenplum、SybaseIQ进行原型验证,性能调优,针对我们的业务场景优化CarbonData的数据加载性能,查询性能并贡献给CarbonData开源社区,最终我们选择了Spark+CarbonData的方案,这个也是典型的SQL On Hadoop的方案,也间接印证了传统数据仓库往SQL on Hadoop上迁移的趋势。参考社区官网资料,结合我们验证测试和理解:CarbonData是大数据Hadoop生态高性能数据存储方案,尤其在数据量较大的情况下加速明显,与Spark进行了深度集成,兼容了Spark生态所有功能(SQL,ML,DataFrame等),Spark+CarbonData适合一份数据满足多种业务场景的需求,它包含如下能力:

  1. 存储:行、列式文件存储,列存储类似于Parquet、ORC,行存储类似Avro。支持针对话单、日志、流水等数据的多种索引结构。


  2. 计算:与Spark计算引擎深度集成和优化;支持与Presto, Flink, Hive等引擎对接;


  3. 接口:    

    1. API:兼容DataFrame, MLlib, Pyspark等原生API接口;

    2. SQL:兼容Spark语法基础,同时支持CarbonSQL语法扩展(更新删除,索引,预汇聚表等)。

  4. 数据管理:    

    1. 支持增量数据入库,数据批次管理(老化管理)

    2. 支持数据更新,删除

    3. 支持与Kafka对接,准实时入库

详细的关键技术介绍以及使用,请上官网阅读查看文档https://carbondata.apache.org/  

这里补充介绍下为什么选取SQL on Hadoop技术作为最终的解决方案。

接触过大数据的人都知道,大数据有个5V特征,从传统互联网数据到移动互联网数据,再到现在很热门的IoT,实际上随着每一次业界的进步,数据量而言都会出现两到三个数量级的增长。而且现在的数据增长呈现出的是一个加速增长的趋势,所以现在提出了一个包括移动互联网以及物联网在内的互联网大数据的5大特征:Volume、 Velocity、Variety、Value、Veracity。随着数据量的增长传统的数据仓库遇到的挑战越来越多。

传统数据仓库面临的挑战:

640

同时数据体系也在不断的进化

  • 存储方式的进化:离线、近线 -> 全部在线

  • 存储架构的进化:集中式存储 -> 分布式存储

  • 存储模型的进化:固定结构 -> 灵活结构.

数据处理模式的进化

  • 固定模型固定算法 -> 灵活模型灵活算法

数据处理类型的进化

  • 结构化集中单源计算 -> 多结构化分布式多源计算

数据处理架构的进化

  • 数据库静态处理 -> 数据实时/流式/海量处理

针对上述的变化数据库之父Kimball提出了一个观点:

640Kimball的核心观点:

hadoop改变了传统数仓库的数据处理机制,传统数据库的一个处理单元在hadoop中解耦成三层:

  • 存储层:HDFS

  • 元数据层:Hcatalog

  • 查询层:Hive、Impala、Spark SQL

Schema on Read给了用户更多的选择:

  • 数据以原始格式导入存储层

  • 通过元数据层来管理目标数据结构

  • 由查询层来决定什么时候提取数据

  • 用户在长期探索和熟悉数据之后,可以采取Schema on Write模式固化中间表,提高查询性能                                                                                                                                                                                     

序号

基于RDBMS的数据处理模式

基于hadoop的数据处理模式

1

强一致性

最终一致性,处理效率高于数据精确度

2

数据必须进行转换,否则后续流程无法继续

数据可以不做转换,长期以原始格式存储

3

数据必须进行清洗、范式化

数据不建议进行清洗和范式化

4

数据基本上都保存在物理表中,文件方式访问效率低

数据大部分保存在文件中,物理表等同于结构化文件

5

元数据局限为字典表

元数据扩展为HCatalog服务

6

数据处理引擎只有SQL一种

开放式的数据处理引擎:SQL、NOSQL、Java API

7

数据加工过程完全由IT人员掌控

数据工程师、数据科学家、数据分析人员都可以参与数据加工

SQL on Hadoop数据仓库技术

数据处理和分析

     • SQL on hadoop

     • Kudu+Impala、Spark、HAWQ、Presto、Hive等

• 数据建模和存储

           • Schema on Read

           • Avro & ORC & Parquet & CarbonData

• 流处理

           • Flume+Kafka+Spark Streaming

SQL-on-Hadoop技术的发展和成熟推动变革

640

经过上述的技术分析,最终我们选择了SQL on Hadoop的技术作为我们平台未来的数据仓库演进方向,这里肯定有人问了,为什么不选取MPPDB这种技术呢,这里我们同样把SQL on Hadoop与MPPDB进行过对比分析(注Impala其实也是一种类似MPPDB的技术):                                                                         

对比项

SQL on Hadoop

MPPDB

容错性

支持细粒度容错,细粒度容错是指某个task失败会自动重试,不用重新提交整个查询

粗粒度容错,不能处理落后节点 (Straggler node)。粗粒度容错是指某个task执行失败将导致整个查询失败,然后系统重新提交整个查询来获取结果

扩展性

集群节点数量可以扩展到几百甚至上千个

很难扩展到100个节点以上,一般在50个节点左右(比如之前我们使用Greenplum验证超过32台机器性能出现下降)

并发性

随着集群规模可用资源增加,并发数近线性增长

MPPDB针对查询会最大化利用资源,以提升查询性能,因此支撑的并发数较低,一般并发查询个数达到 20 左右时,整个系统的吞吐已经达到满负荷状态

查询时延

1、数据规模小于1PB,单表10亿记录级别,单个查询时延通常在10s左右

2、数据规模大于1PB,可通过增加集群资源,保证查询性能

1、数据规模小于1PB,单表10亿记录级别,单个查询MPP时延通常在秒计甚至毫秒级以内就可以返回查询结果

2、数据规模大于1PB,受架构限制,查询性能可能会出现急剧下降

数据共享

存储与计算分离,通用的存储格式可以支撑不同的数据分析引擎,包括数据挖掘等

独有的MPPDB数据库的存储格式,无法直接供其他数据分析引擎使用

局点2018年9月底上线Spark+CarbonData替换Impala后运行至今,每天处理大于100TB的单据量,在业务高峰期,数据加载性能从之前impala的平均单台60MB/s到平台单台100MB/s的性能,在局点典型业务场景下,查询性能在20并发查询下,Spark+CarbonData的查询性能是Impala+parquet的2倍以上。

同时解决了以下问题:

  1. Hadoop集群资源共享问题,Impala资源不能通过Yarn统一资源调度管理,Spark+CarbonData能通过Yarn统一资源调度管理,实现与其他如Spark,Hive等组件的动态资源共享。

  2. Hadoop集群扩容问题,之前Impala只能使用百台机器,现在Spark+CarbonData能做到上千台节点集群规模。

640

实施过程中注意项:

  1. 数据加载使用CarbonData的local sort方式加载,为了避免大集群产生过多小文件的问题,加载只指定少数机器上进行数据加载,另外对于每次加载数据量比较小的表可以指定表级别的compaction来合并加载过程中产生的小文件。

  2. 根据业务的查询特点,把经常查询过滤的字段设置为数据表的sort column属性(比如电信业务经常查询的用户号码等),并且设置sort column的字段顺序先按照字段的查询频率由高到低排列,如果查询频率相差不大,则再按照字段distinct值由高到低排列,来提升查询性能。

  3. 创建数据表设置的blocksize大小,单个表的数据文件block大小可以通过TABLEPROPERTIES进行定义,单位为MB,默认值为1024MB。这个根据实际数据表的每次加载的数据量,根据我们实践经验:一般建议数据量小的表blocksize设置成256MB,数据量比较大的表blocksize设置成512MB。

  4. 查询性能的调优,还可以结合业务查询的特点,对查询高频率的字段,创建bloomfilter等datamap来提升查询性能。

  5. 还有一些Spark相关的参数设置,对于数据加载和查询,先结合SparkUI分析性能瓶颈点,在针对性的调整相关的参数,这里不一一介绍了,记住一点性能调优是个技术细活,参数调整要针对性的调整,一次调整只调相关的一个或者几个参数,在看效果,不生效就调整回去,切记千万不要一次性调整的参数过多。

原文链接:https://my.oschina.net/u/4029686/blog/2878526?from=groupmessage

推荐阅读:

sparkrdd的另类解读

SparkStreaming VS Flink

Structured Streaming VS Flink

kafka消费者分组消费的再平衡策略

470+~好友都在知识星球

640?wx_fmt=jpeg

这篇关于单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/169958

相关文章

Linux中的计划任务(crontab)使用方式

《Linux中的计划任务(crontab)使用方式》:本文主要介绍Linux中的计划任务(crontab)使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、前言1、linux的起源与发展2、什么是计划任务(crontab)二、crontab基础1、cro

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java

C++变换迭代器使用方法小结

《C++变换迭代器使用方法小结》本文主要介绍了C++变换迭代器使用方法小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1、源码2、代码解析代码解析:transform_iterator1. transform_iterat

C++中std::distance使用方法示例

《C++中std::distance使用方法示例》std::distance是C++标准库中的一个函数,用于计算两个迭代器之间的距离,本文主要介绍了C++中std::distance使用方法示例,具... 目录语法使用方式解释示例输出:其他说明:总结std::distance&n编程bsp;是 C++ 标准

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

vue使用docxtemplater导出word

《vue使用docxtemplater导出word》docxtemplater是一种邮件合并工具,以编程方式使用并处理条件、循环,并且可以扩展以插入任何内容,下面我们来看看如何使用docxtempl... 目录docxtemplatervue使用docxtemplater导出word安装常用语法 封装导出方

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.