首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
carbondata专题
CarbonData 华为开源项目
CarbonData是一个为了更快的交互查询而生的新的Hadoop原生文件格式,用于大数据的快速分析和多维度查询hadoop本地数据存储设计。 在客户基准上,CarbonData已经展示出管理运行在非常低成本的硬件上的PB级别的数据,并且比目前的开源解决方案快了近10倍。 特征: 使用内置索引在快以秒计的时间内快速分析查询,交互式OLAP-style的查询优化,高投入扫描查询,
阅读更多...
Carbondata编译适配Spark3
背景 当前carbondata版本2.3.1-rc1中项目源码适配的spark版本最高为3.1,我们需要进行spark3.3版本的编译适配。 原始编译 linux系统下载源码后,安装maven3.6.3,然后执行: mvn -DskipTests -Pspark-3.1 clean package 会遇到一些网络问题,命令不变继续尝试编译即可: 例如:[INFO] Apache Car
阅读更多...
单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例
国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据表使用时间+MSISDN号码做分区,使用Impala查询,利用不上分区的查询场景,则查询性能比较差。在使用Impala过程中,遇到很多性能问题(比如catalog元数据膨胀导致元数据同步慢等),并发查询性能差等
阅读更多...