carbondata专题

CarbonData 华为开源项目

CarbonData是一个为了更快的交互查询而生的新的Hadoop原生文件格式，用于大数据的快速分析和多维度查询hadoop本地数据存储设计。在客户基准上，CarbonData已经展示出管理运行在非常低成本的硬件上的PB级别的数据，并且比目前的开源解决方案快了近10倍。特征：使用内置索引在快以秒计的时间内快速分析查询，交互式OLAP-style的查询优化，高投入扫描查询，

Carbondata编译适配Spark3

背景当前carbondata版本2.3.1-rc1中项目源码适配的spark版本最高为3.1,我们需要进行spark3.3版本的编译适配。原始编译 linux系统下载源码后，安装maven3.6.3，然后执行： mvn -DskipTests -Pspark-3.1 clean package 会遇到一些网络问题，命令不变继续尝试编译即可：例如：[INFO] Apache Car

单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

国内某移动局点使用Impala组件处理电信业务详单，每天处理约100TB左右详单，详单表记录每天大于百亿级别，在使用impala过程中存在以下问题: 详单采用Parquet格式存储，数据表使用时间+MSISDN号码做分区，使用Impala查询，利用不上分区的查询场景，则查询性能比较差。在使用Impala过程中，遇到很多性能问题(比如catalog元数据膨胀导致元数据同步慢等)，并发查询性能差等