DORIS - DORIS简介

2024-08-31 20:04
文章标签 doris 简介

本文主要是介绍DORIS - DORIS简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

本博文基于DORIS的2.1.5版本。apache-doris-2.1.5-bin-x64.tar.gz

是什么?

DORIS官网
Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。

发展历程

  • Apache Doris 最早是诞生于百度广告报表业务的 Palo 项目,2017 年正式对外开源;
  • 2018 年 7 月,由百度捐赠给Apache 基金会进行孵化;
  • 2022 年 6 月,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache顶级项目(Top-Level Project,TLP)。

使用场景

Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、湖仓一体等使用场景。
用户可以在此之上构建大屏看板、用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
在这里插入图片描述

整体架构

Apache Doris 的整体架构非常简单,如下图所示,只有两类进程:

  • Frontend(FE):主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。
  • Backend(BE):主要负责数据存储、查询计划的执行。

这两类进程都是可以横向扩展的,单集群可以支持到数百台机器,数十 PB 的存储容量,这两类进程通过一致性协议来保证服务的高可用和数据的高可靠。
在这里插入图片描述

技术特点

1. 接口协议

Apache Doris 采用 MySQL 协议,高度兼容 MySQL 语法,支持标准 SQL,用户可以通过各类支持MySQL的客户端工具来访问 Apache Doris,并支持与 BI 工具的无缝对接。

2. 存储引擎

Apache Doris 采用列式存储,按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用 IO 和 CPU 资源。

3. 存储模型

A. 聚合模型(Aggregate Key Model):相同 KEY 的 Value 列会合并,通过提前聚合大幅提升性能;
B. 主键模型(Unique Key Model):KEY 唯一,相同 KEY 的数据会覆盖,实现行级别数据更新;
C. 明细模型(Duplicate Key Model):明细数据模型,满足事实表的明细存储。

4. 索引模型

A. Sorted Compound Key Index,可以最多指定三个列组成复合排序键,通过该索引,能够有效进行数据裁剪,从而能够更好支持高并发的报表场景;
B. Min/Max Index:有效过滤数值类型的等值和范围查询;
C. BloomFilter Index:对高基数列的等值过滤裁剪非常有效;
D. Inverted Index:能够对任意字段实现快速检索。

5. 查询模型

Apache Doris 采用 MPP 的模型,节点间和节点内都并行执行,支持多个大表的分布式 Shuffle Join,从而能够更好应对复杂查询。采用向量化的查询引擎,所有的内存结构能够按照列式布局,能够达到大幅减少虚函数调用、提升 Cache 命中率,高效利用 SIMD 指令的效果,在宽表聚合场景下性能是非向量化引擎的 5-10 倍。
Apache Doris 采用了自适应查询执行(Adaptive Query Execution)技术,可以根据 Runtime Statistics 来动态调整执行计划,比如通过 Runtime Filter 技术能够在运行时生成 Filter 推到 Probe 侧,并且能够将 Filter 自动穿透到 Probe 侧最底层的 Scan 节点,从而大幅减少 Probe 的数据量,加速 Join 性能。Apache Doris 的 Runtime Filter 支持 In/Min/Max/Bloom Filter。
在优化器方面,Apache Doris 使用 CBO 和 RBO 结合的优化策略,RBO 支持常量折叠、子查询改写、谓词下推等,CBO 支持 Join Reorder。

版本选择

版本发布列表
版本下载地址
apache-doris-2.1.5-bin-x64.tar.gz

安装部署

官方手册
严格按照官方手册执行即可,以下为重要事宜。

1. 检查机器是否支持 AVX2 指令集,有输出则说明支持:
cat /proc/cpuinfo | grep avx22. 确定JDK版本:
在 2.1(含)版本之前,请使用 Java 8,推荐版本:openjdk-8u352-b08-linux-x64。
从 3.0(含)版本之后,请使用 Java 17,推荐版本:jdk-17.0.10_linux-x64_bin.tar.gz。3. 关闭 swap 分区:
A. 临时关闭
swapoff -a 
B. 永久关闭
先: vi /etc/fstab
然后:如下注释掉最后一行:
UUID=e9ce9a98-3038-4f0d-b295-090406d3a24b /                       xfs     defaults        0 0
UUID=876e07af-677b-49a2-8658-6f64ff5809f9 /boot                   xfs     defaults        0 0
#UUID=2beabaa6-3a45-45ea-98ac-7498368abf20 swap                    swap    defaults        0 04. 关闭系统防火墙:
sudo systemctl stop firewalld.service
sudo systemctl disable firewalld.service5. 配置 NTP 服务
6. 设置文件句柄数:
先:vi /etc/security/limits.conf
然后:将如下指令复制到文件底部
* soft nofile 1000000
* hard nofile 10000007. 修改虚拟内存区域:
sysctl -w vm.max_map_count=20000008. 关闭透明大页:
echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag9. 先配置再启动FE-MASTER,如果是多个FE,新的FE配置好以后启动以前,需要将新的FE注册到FE-MASTER中
10. 配置BE,需要将BE注册到FE-MASTER中,然后再启动BE
11. 查看WEB-UI:http://192.168.174.88:8030/home , root/密码为空
12. 修改 Root 用户和 Admin 用户的密码:
mysql> SET PASSWORD FOR 'root' = PASSWORD('123456');                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               
mysql> SET PASSWORD FOR 'admin' = PASSWORD('123456');                                                                                                                                                                                 
13. 再登录WEB-UI时就需要使用: root/123456 或者 admin/123456

查看状态

1. FE的状态:
+-----------------------------------------+---------------+-------------+----------+-----------+---------+--------------------+----------+----------+-----------+------+-------+-------------------+---------------------+---------------------+----------+--------+-----------------------------+------------------+
| Name                                    | Host          | EditLogPort | HttpPort | QueryPort | RpcPort | ArrowFlightSqlPort | Role     | IsMaster | ClusterId | Join | Alive | ReplayedJournalId | LastStartTime       | LastHeartbeat       | IsHelper | ErrMsg | Version                     | CurrentConnected |
+-----------------------------------------+---------------+-------------+----------+-----------+---------+--------------------+----------+----------+-----------+------+-------+-------------------+---------------------+---------------------+----------+--------+-----------------------------+------------------+
| fe_ae692d73_7c0d_447b_aa84_1f1333a7daa1 | 192.168.122.1 | 9010        | 8030     | 9030      | 9020    | -1                 | FOLLOWER | true     | 305254781 | true | true  | 1891              | 2024-08-30 07:28:58 | 2024-08-31 17:47:16 | true     |        | doris-2.1.5-rc02-d5a02e095d | Yes              |
+-----------------------------------------+---------------+-------------+----------+-----------+---------+--------------------+----------+----------+-----------+------+-------+-------------------+---------------------+---------------------+----------+--------+-----------------------------+------------------+2. BE的状态:

| BackendId | Host           | HeartbeatPort | BePort | HttpPort | BrpcPort | ArrowFlightSqlPort | LastStartTime       | LastHeartbeat       | Alive | SystemDecommissioned | TabletNum | DataUsedCapacity | TrashUsedCapacity | AvailCapacity | TotalCapacity | UsedPct | MaxDiskUsedPct | RemoteUsedCapacity | Tag                      | ErrMsg | Version                     | Status                                                                                                                        | HeartbeatFailureCounter | NodeRole |

| 11775     | 192.168.174.88 | 9050          | 9060   | 8040     | 8060     | -1                 | 2024-08-30 18:29:12 | 2024-08-31 17:42:16 | true  | false                | 25        | 32.433 KB        | 0.000             | 18.969 GB     | 35.813 GB     | 47.03 % | 47.03 %        | 0.000              | {"location" : "default"} |        | doris-2.1.5-rc02-d5a02e095d | {"lastSuccessReportTabletsTime":"2024-08-31 17:42:02","lastStreamLoadTime":-1,"isQueryDisabled":false,"isLoadDisabled":false} | 0                       | mix      |


常见问题

1. fe的日志报错: System has no available disk capacity or no available BE nodes,由于be为启动导致,可以先忽略。
2. 查看fe的状态: curl http://127.0.0.1:8030/api/bootstrap,为了使得返回结果可读性更好,可以使用下面的格式化命令:curl http://127.0.0.1:8030/api/bootstrap | python -m json.tool
3. DORIS的可视化: http://FE所在机器的IP:8030/home,默认安装后 root账户密码为空
4. 查看fe的状态: 先 mysql -uroot -P9030 -h 127.0.0.1  然后执行:show frontends; 
5. 查看be的状态: 先 mysql -uroot -P9030 -h 127.0.0.1  然后执行:show backends;
6. 密码修改:通过WEB-UI无法修改root和admin的密码,需要通过MySQL的客户端来修改

什么是 priority_networks?

Doris 进程监听 IP 的 CIDR 格式表示的网段。如果部署的机器只有一个网段,可以不用配置。如果有两个或多个网段,务必做配置。
这个参数主要用于帮助系统选择正确的网卡 IP 作为自己的监听 IP。比如需要监听的 IP 为 192.168.0.1,则可以设置 priority_networks=192.168.0.0/24,系统会自动扫描机器上的所有 IP,只有匹配上 192.168.0.0/24 这个网段的才会去作为服务监听地址,这个参数也可以配置多个CIDR 网段,比如 priority_networks = 10.10.0.0/16; 192.168.0.0/24。

这篇关于DORIS - DORIS简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1124863

相关文章

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

业务协同平台--简介

一、使用场景         1.多个系统统一在业务协同平台定义协同策略,由业务协同平台代替人工完成一系列的单据录入         2.同时业务协同平台将执行任务推送给pda、pad等执行终端,通知各人员、设备进行作业执行         3.作业过程中,可设置完成时间预警、作业节点通知,时刻了解作业进程         4.做完再给你做过程分析,给出优化建议         就问你这一套下

容器编排平台Kubernetes简介

目录 什么是K8s 为什么需要K8s 什么是容器(Contianer) K8s能做什么? K8s的架构原理  控制平面(Control plane)         kube-apiserver         etcd         kube-scheduler         kube-controller-manager         cloud-controlle

【Tools】AutoML简介

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 AutoML(自动机器学习)是一种使用机器学习技术来自动化机器学习任务的方法。在大模型中的AutoML是指在大型数据集上使用自动化机器学习技术进行模型训练和优化。

SaaS、PaaS、IaaS简介

云计算、云服务、云平台……现在“云”已成了一个家喻户晓的概念,但PaaS, IaaS 和SaaS的区别估计还没有那么多的人分得清,下面就分别向大家普及一下它们的基本概念: SaaS 软件即服务 SaaS是Software-as-a-Service的简称,意思是软件即服务。随着互联网技术的发展和应用软件的成熟, 在21世纪开始兴起的一种完全创新的软件应用模式。 它是一种通过Internet提供

LIBSVM简介

LIBSVM简介 支持向量机所涉及到的数学知识对一般的化学研究者来说是比较难的,自己编程实现该算法难度就更大了。但是现在的网络资源非常发达,而且国际上的科学研究者把他们的研究成果已经放在网络上,免费提供给用于研究目的,这样方便大多数的研究者,不必要花费大量的时间理解SVM算法的深奥数学原理和计算机程序设计。目前有关SVM计算的相关软件有很多,如LIBSVM、mySVM、SVMLight等,这些

urllib与requests爬虫简介

urllib与requests爬虫简介 – 潘登同学的爬虫笔记 文章目录 urllib与requests爬虫简介 -- 潘登同学的爬虫笔记第一个爬虫程序 urllib的基本使用Request对象的使用urllib发送get请求实战-喜马拉雅网站 urllib发送post请求 动态页面获取数据请求 SSL证书验证伪装自己的爬虫-请求头 urllib的底层原理伪装自己的爬虫-设置代理爬虫coo

新一代车载(E/E)架构下的中央计算载体---HPC软件架构简介

老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节能减排。 无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦躁、焦虑、毁掉你本就不多的热情和定力。 时间不知不觉中,快要来到夏末秋初。一年又过去了一大半,成

三.海量数据实时分析-FlinkCDC实现Mysql数据同步到Doris

FlinkCDC 同步Mysql到Doris 参考:https://nightlies.apache.org/flink/flink-cdc-docs-release-3.0/zh/docs/get-started/quickstart/mysql-to-doris/ 1.安装Flink 下载 Flink 1.18.0,下载后把压缩包上传到服务器,使用tar -zxvf flink-xxx-

AI学习指南深度学习篇-带动量的随机梯度下降法简介

AI学习指南深度学习篇 - 带动量的随机梯度下降法简介 引言 在深度学习的广阔领域中,优化算法扮演着至关重要的角色。它们不仅决定了模型训练的效率,还直接影响到模型的最终表现之一。随着神经网络模型的不断深化和复杂化,传统的优化算法在许多领域逐渐暴露出其不足之处。带动量的随机梯度下降法(Momentum SGD)应运而生,并被广泛应用于各类深度学习模型中。 在本篇文章中,我们将深入探讨带动量的随