Apache Doris 之 Docker 部署篇

2024-06-19 08:28
文章标签 部署 docker doris apache

本文主要是介绍Apache Doris 之 Docker 部署篇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

在现代数据驱动的商业环境中,实时数据分析和高并发查询能力是企业成功的关键因素之一。传统的数据仓库和分析工具在面对大规模数据处理和实时分析需求时,往往力不从心。Apache Doris 作为一个现代的 MPP 数据库管理系统,凭借其强大的查询性能、灵活的扩展能力以及对实时数据处理的支持,迅速成为大数据分析领域的重要工具。


一、Apache doris 是什么?

Apache Doris 是一个现代的MPP (Massively Parallel Processing) 数据库管理系统,专为实时分析和高并发数据查询设计。它起源于百度的 Palo 项目,后在 Apache 基金会下成为开源项目。Doris 的设计目标是提供高性能、易用和可扩展的数据分析服务,尤其适用于大数据环境中的实时数据分析需求。

二、本地环境搭建环境

据说,光是搞环境,难倒一大票人,我不信…

本机环境:macos 14.2.1 (23C71), Docker desktop

1. 下载安装包

# 查看当前系统是否支持 AVX2 指令集
➜  doris sysctl -a | grep machdep.cpu
machdep.cpu.features: FPU VME DE PSE TSC MSR PAE MCE CX8 APIC SEP MTRR PGE MCA CMOV PAT PSE36 CLFSH DS ACPI MMX FXSR SSE SSE2 SS HTT TM PBE SSE3 PCLMULQDQ DTES64 MON DSCPL VMX EST TM2 SSSE3 FMA CX16 TPR PDCM SSE4.1 SSE4.2 x2APIC MOVBE POPCNT AES PCID XSAVE OSXSAVE SEGLIM64 TSCTMR AVX1.0 RDRAND F16C
machdep.cpu.leaf7_features: RDWRFSGS TSC_THREAD_OFFSET SGX BMI1 AVX2 SMEP BMI2 ERMS INVPCID FPU_CSDS MPX RDSEED ADX SMAP CLFSOPT IPT SGXLC MDCLEAR TSXFA IBRS STIBP L1DF ACAPMSR SSBD

从上面可知,我当前的操作系统是支持 AVX2 指令集的,于是我下载如下版本 doris.

wget https://apache-doris-releases.oss-accelerate.aliyuncs.com/apache-doris-2.1.3-bin-x64.tar.gz

2. macbook 本地单机部署

按照官网介绍,参考:https://doris.apache.org/zh-CN/docs/get-starting/quick-start/


➜  log cat be.out
start time: 20246月17日 星期一 13时54分11秒 CST
INFO: java_cmd /Library/Java/JavaVirtualMachines/jdk-1.8.jdk/Contents/Home/bin/java
INFO: jdk_version 8
/Users/mac/doris/doris/be/lib/doris_be: /Users/mac/doris/doris/be/lib/doris_be: cannot execute binary file➜  log file /Users/mac/doris/doris/be/lib/doris_be
/Users/mac/doris/doris/be/lib/doris_be: ELF 64-bit LSB pie executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, for GNU/Linux 3.2.0, BuildID[xxHash]=49a6487bfb283a3a, with debug_info, not stripped

最终发现,可以启动DorisFE ,但是无法启动DorisBE ,原因就是/Users/mac/doris/doris/be/lib/doris_be 是一个为 GNU/Linux 编译的 64 位 ELF 可执行文件。由于 macOS 使用的是 Mach-O 格式的二进制文件,而不是 ELF 格式,因此这个文件无法在 macOS 上直接执行。

所以,不能直接使用,因此 mac的用户需要自己编译。

好吧,我信了… 本来想省点时间直接安装的,但是事与愿违,还是老老实实编译吧!
你也可以直接搞一个虚拟环境比如 centos7,unbantu操作系统,直接下载官网编译好的试试。

3. macbook 通过 docker 镜像编译Doris

参考:https://doris.apache.org/zh-CN/docs/install/source-install/compilation-with-docker/
这个也是官方推荐的做法,按照推荐的试试看。

主要步骤如下:

  1. 提前在 host 主机构建 maven 的 .m2 目录,以便将下载的 Java 库可以多次在 Docker 复用
    mkdir ~/.m2

  2. 运行构建镜像

# 注意修改自己的本地文件和 docker中的文件路径映射
docker run -it --network=host --name mydocker -v ~/.m2:/root/.m2 -v ~/docker-build/doris:/root/doris/ apache/doris:build-env-for-2.0  
  1. 执行成功后,自动进入到 Docker 里
[root@docker-desktop ~]# ll
total 4
-rw-------  1 root root 3416 Nov 13  2020 anaconda-ks.cfg
drwxr-xr-x 52 root root 1664 Jun 17 02:26 doris

在这里插入图片描述

  1. 编译构建
[root@docker-desktop doris]# sh build.sh
Python 2.7.5
Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f)
Maven home: /usr/share/maven
Java version: 1.8.0_402, vendor: Red Hat, Inc., runtime: /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.402.b06-1.el7_9.x86_64/jre
Default locale: en_US, platform encoding: ANSI_X3.4-1968
OS name: "linux", version: "6.6.12-linuxkit", arch: "amd64", family: "unix"
cmake version 3.22.1
CMake suite maintained and supported by Kitware (kitware.com/cmake).
ninja 1.8.2
ccache version 4.8
Update apache-orc submodule ...
....

如果没有问题的话,那就可能出现了问题,如下所示:
在这里插入图片描述
这个问题,貌似是aggregate_function_max_by.cpp.o 的编译失败了,超出我的能力范围,无解。删除镜像重试看看。

[0/2] Re-checking globbed directories...
[98/369] Building CXX object src/vec/CMakeFiles/Vec.dir/exec/format/parquet/vparquet_column_re[144/369] Building CXX object src/vec/CM[285/369] Building CXX object src/vec/CMakeFiles/Vec.dir/functions/plus.cpp.oERRO[3170] error waiting for container: unexpected EOF

编译了半个多小时,终于把 docker 搞崩了,自动退出了,我。。。😭

4. 尝试通过 centos镜像安装

报错:
docker container run -it -v /Users/mac/doris:/data/doris bloque/centos7-java8 bash

[root@bb744ed8b03b be]# sh bin/start_be.sh --daemon
Please set vm.max_map_count to be 2000000 under root using 'sysctl -w vm.max_map_count=2000000'.
[root@bb744ed8b03b be]# sysctl -w vm.max_map_count=2000000
sysctl: setting key "vm.max_map_count": Read-only file system[root@e6e06a0dbfa5 /]# sysctl  vm/max_map_count
vm.max_map_count = 262144

尝试赋予更大权限:

# 进入容器
docker run -it  --privileged   -v /Users/mac/doris:/data/doris bloque/centos7-java8 bash# 启动 be ,要求先关掉交换区
[root@709dd7db0193 be]# bin/start_be.sh --daemon
Please disable swap memory before installation.

如何关闭交换区?

如下方式,现查看交换区的文件位置

[root@3ea12eabe60e bin]# swapon -s
Filename				Type		Size	Used	Priority
/var/lib/swap                          	file	1048572	0	-2[root@3ea12eabe60e bin]# swapoff /var/lib/swap
swapoff: /var/lib/swap: swapoff failed: No such file or directory

在我的本地,我发现关闭不了。无奈之下,我只能采用终极解决办法了–注释掉 be 启动脚本的这一段内容:

if [[ "$(uname -s)" != 'Darwin' ]]; thenMAX_MAP_COUNT="$(cat /proc/sys/vm/max_map_count)"if [[ "${MAX_MAP_COUNT}" -lt 2000000 ]]; thenecho "Please set vm.max_map_count to be 2000000 under root using 'sysctl -w vm.max_map_count=2000000'."exit 1fi# if [[ "$(swapon -s | wc -l)" -gt 1 ]]; then#    echo "Please disable swap memory before installation."#   exit 1# fi
fi

启动bin/start_be.sh --daemon 之后查看进程:

[root@3ea12eabe60e doris]# jps -ml
673 DorisBE
3160 org.apache.doris.DorisFE
3421 sun.tools.jps.Jps -ml

至此,fe,be终于启动完成。

为了使用,还需要安装 MySQL 客户端(因为它兼容 MySQL 协议)

[root@3ea12eabe60e doris]# yum install mysql
Loaded plugins: fastestmirror, ovl
base                                                                                                                                                                                                  | 3.6 kB  00:00:00
extras                                                                                                                                                                                                | 2.9 kB  00:00:00
updates                                                                                                                                                                                               | 2.9 kB  00:00:00
(1/4): extras/7/x86_64/primary_db                                                                                                                                                                     | 253 kB  00:00:00
(2/4): base/7/x86_64/group_gz                                                                                                                                                                         | 153 kB  00:00:02
(3/4): updates/7/x86_64/primary_db                                                                                                                                                                    |  27 MB  00:00:03
(4/4): base/7/x86_64/primary_db

启动 fe,be之后无法创建表的,需要将 be添加进去才行。

MySQL [(none)]>  ALTER SYSTEM ADD BACKEND "127.0.0.1:9050";
Query OK, 0 rows affected (0.03 sec)MySQL [(none)]>  show backends;
+-----------+-----------+---------------+--------+----------+----------+--------------------+---------------+---------------+-------+----------------------+-----------+------------------+--------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+---------+---------------------------------------------------------------------------------------------------------------+-------------------------+----------+
| BackendId | Host      | HeartbeatPort | BePort | HttpPort | BrpcPort | ArrowFlightSqlPort | LastStartTime | LastHeartbeat | Alive | SystemDecommissioned | TabletNum | DataUsedCapacity | TrashUsedCapcacity | AvailCapacity | TotalCapacity | UsedPct | MaxDiskUsedPct | RemoteUsedCapacity | Tag                      | ErrMsg | Version | Status                                                                                                        | HeartbeatFailureCounter | NodeRole |
+-----------+-----------+---------------+--------+----------+----------+--------------------+---------------+---------------+-------+----------------------+-----------+------------------+--------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+---------+---------------------------------------------------------------------------------------------------------------+-------------------------+----------+
| 10088     | 127.0.0.1 | 9050          | -1     | -1       | -1       | -1                 | NULL          | NULL          | false | false                | 0         | 0.000            | 0.000              | 1.000 B       | 0.000         | 0.00 %  | 0.00 %         | 0.000              | {"location" : "default"} |        |         | {"lastSuccessReportTabletsTime":"N/A","lastStreamLoadTime":-1,"isQueryDisabled":false,"isLoadDisabled":false} | 0                       |          |
+-----------+-----------+---------------+--------+----------+----------+--------------------+---------------+---------------+-------+----------------------+-----------+------------------+--------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+---------+---------------------------------------------------------------------------------------------------------------+-------------------------+----------+
1 row in set (0.01 sec)

三、Apache Doris 使用初探

以上部分已完成 Docker 中启动 Doris的服务,现在我们可以按照官网的示例来一遍测试。

  1. 连接 doris
    mysql -uadmin -P9030 -h127.0.0.1

  2. 测试 创建表,查询

MySQL [(none)]> use demo;
Database changed
MySQL [demo]> create table mytable-> (->     k1 TINYINT,->     k2 DECIMAL(10, 2) DEFAULT "10.05",->     k3 CHAR(10) COMMENT "string column",->     k4 INT NOT NULL DEFAULT "1" COMMENT "int column"-> )-> COMMENT "my first table"-> DISTRIBUTED BY HASH(k1) BUCKETS 1-> PROPERTIES ('replication_num' = '1');
Query OK, 0 rows affected (0.01 sec)MySQL [demo]> show tables;
+----------------+
| Tables_in_demo |
+----------------+
| mytable        |
+----------------+
1 row in set (0.00 sec)MySQL [demo]> show create table mytable;
  1. 导入文件

参照官网将data.csv文件导入新建的表中。

[root@3ea12eabe60e doris]# curl  --location-trusted -u admin: -T data.csv -H "column_separator:," http://127.0.0.1:8030/api/demo/mytable/_stream_load
{"TxnId": 3,"Label": "bbbb9e58-1b52-475b-86d3-140eb7b4e754","Comment": "","TwoPhaseCommit": "false","Status": "Success","Message": "OK","NumberTotalRows": 4,"NumberLoadedRows": 4,"NumberFilteredRows": 0,"NumberUnselectedRows": 0,"LoadBytes": 52,"LoadTimeMs": 336,"BeginTxnTimeMs": 22,"StreamLoadPutTimeMs": 205,"ReadDataTimeMs": 0,"WriteDataTimeMs": 66,"CommitAndPublishTimeMs": 40
}

查询结果:

[root@3ea12eabe60e doris]# mysql -uadmin -P9030 -h127.0.0.1 -Ddemo
MySQL [demo]> select * from mytable;
+------+------+------+------+
| k1   | k2   | k3   | k4   |
+------+------+------+------+
|    1 | 0.14 | a1   |   20 |
|    2 | 1.04 | b2   |   21 |
|    3 | 3.14 | c3   |   22 |
|    4 | 4.35 | d4   |   23 |
+------+------+------+------+
4 rows in set (0.11 sec)

参考

https://doris.apache.org/zh-CN/docs/get-starting/quick-start

总结

本文主要讲了如何构建一个单机版的 Doris 以便于学习使用,最后演示了官网的一个小示例仅供参考。
遇到这些问题无解的时候给人一种深深的无力挫败感,如按照官网说的去做,可能真的就是从入门到放弃了。
我花费了 4 个多小时踩了各种坑才最终将环境问题解决,希望大家可以避过这些坑,保持对学习的热忱,加油。

这篇关于Apache Doris 之 Docker 部署篇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1074504

相关文章

k8s部署MongDB全过程

《k8s部署MongDB全过程》文章介绍了如何在Kubernetes集群中部署MongoDB,包括环境准备、创建Secret、创建服务和Deployment,并通过Robo3T工具测试连接... 目录一、环境准备1.1 环境说明1.2 创建 namespace1.3 创建mongdb账号/密码二、创建Sec

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

Python项目打包部署到服务器的实现

《Python项目打包部署到服务器的实现》本文主要介绍了PyCharm和Ubuntu服务器部署Python项目,包括打包、上传、安装和设置自启动服务的步骤,具有一定的参考价值,感兴趣的可以了解一下... 目录一、准备工作二、项目打包三、部署到服务器四、设置服务自启动一、准备工作开发环境:本文以PyChar

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

《centos7基于keepalived+nginx部署k8s1.26.0高可用集群》Kubernetes是一个开源的容器编排平台,用于自动化地部署、扩展和管理容器化应用程序,在生产环境中,为了确保集... 目录一、初始化(所有节点都执行)二、安装containerd(所有节点都执行)三、安装docker-

在Ubuntu上部署SpringBoot应用的操作步骤

《在Ubuntu上部署SpringBoot应用的操作步骤》随着云计算和容器化技术的普及,Linux服务器已成为部署Web应用程序的主流平台之一,Java作为一种跨平台的编程语言,具有广泛的应用场景,本... 目录一、部署准备二、安装 Java 环境1. 安装 JDK2. 验证 Java 安装三、安装 mys

Apache Tomcat服务器版本号隐藏的几种方法

《ApacheTomcat服务器版本号隐藏的几种方法》本文主要介绍了ApacheTomcat服务器版本号隐藏的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1. 隐藏HTTP响应头中的Server信息编辑 server.XML 文件2. 修China编程改错误

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

如何在一台服务器上使用docker运行kafka集群

《如何在一台服务器上使用docker运行kafka集群》文章详细介绍了如何在一台服务器上使用Docker运行Kafka集群,包括拉取镜像、创建网络、启动Kafka容器、检查运行状态、编写启动和关闭脚本... 目录1.拉取镜像2.创建集群之间通信的网络3.将zookeeper加入到网络中4.启动kafka集群