(三十八)大数据实战——Atlas元数据管理平台的部署安装

2024-02-14 20:04

本文主要是介绍(三十八)大数据实战——Atlas元数据管理平台的部署安装,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

Apache Atlas 是一个开源的数据治理和元数据管理平台,旨在帮助组织有效管理和利用其数据资产。为组织提供开放式元数据管理和治理功能 ,用以构建其数据资产目录,对这些资产进行分类和管理,形成数据字典 。并为数据分析师和数据治理团队提供围绕这些数据资产的协作功能。

本节内容是关于Apache Atlas的部署安装,在开始安装Atlas之前我们需要提前安装好Atlas需要集成的组件,如hadoop、zookeeper、kafka、hbase、solr、hive、mysql等,关于以上组件的安装内容,可以参考作者的往期博客内容,这里不在赘述。

正文

①上传atlas部署安装包到/opt/software目录

②将apache-atlas-2.1.0-server.tar.gz安装包解压到/opt/module目录下

命令:

tar -zxvf apache-atlas-2.1.0-server.tar.gz -C /opt/module/

③ 配置atlas的环境变量,并将atlas授权给hadoop用户

- 在/etc/profile.d/my_env.sh配置atlas环境变量

- 将atlas安装包授权给hadoop用户

④atlas集成hbase组件

- 在/opt/module/apache-atlas-2.1.0/conf/atlas-application.properties配置文件中添加修改hbase的配置

#配置zookeeper集群的地址
atlas.graph.storage.hostname=hadoop101:2181,hadoop102:2181,hadoop103:2181

- 在/opt/module/apache-atlas-2.1.0/conf/atlas-env.sh配置文件中添加hbase的conf安装目录全路径配置

export HBASE_CONF_DIR=/opt/module/hbase-2.4.11/conf

⑤atlas集成solr组件

- 在/opt/module/apache-atlas-2.1.0/conf/atlas-application.properties配置文件添加修改solr的配置

#solr配置
atlas.graph.index.search.solr.mode=cloud
atlas.graph.index.search.solr.zookeeper-url=hadoop101:2181,hadoop102:2181,hadoop103:2181/chroot
atlas.graph.index.search.solr.zookeeper-connect-timeout=60000
atlas.graph.index.search.solr.zookeeper-session-timeout=60000
atlas.graph.index.search.solr.wait-searcher=true

- 在solr中创建solr collection用于存储atlas索引数据

sudo -i -u solr /opt/module/solr-8.11.3/bin/solr create  -c vertex_index -d /opt/module/apache-atlas-2.1.0/conf/solr -shards 3 -replicationFactor 2
sudo -i -u solr /opt/module/solr-8.11.3/bin/solr create  -c edge_index -d /opt/module/apache-atlas-2.1.0/conf/solr -shards 3 -replicationFactor 2
sudo -i -u solr /opt/module/solr-8.11.3/bin/solr create  -c fulltext_index -d /opt/module/apache-atlas-2.1.0/conf/solr -shards 3 -replicationFactor 2

- 在solr平台查看索引是否创建成功

⑥atlas集成kafka组件

- 在/opt/module/apache-atlas-2.1.0/conf/atlas-application.properties配置文件添加修改kafka的配置

atlas.notification.embedded=false
atlas.kafka.data=/opt/module/kafka_2.12-3.0.0/data
atlas.kafka.zookeeper.connect=hadoop101:2181,hadoop102:2181,hadoop103:2181/kafka
atlas.kafka.bootstrap.servers=hadoop101:9092,hadoop102:9092,hadoop103:9092
atlas.kafka.zookeeper.session.timeout.ms=400
atlas.kafka.zookeeper.connection.timeout.ms=200
atlas.kafka.zookeeper.sync.time.ms=20
atlas.kafka.auto.commit.interval.ms=1000
atlas.kafka.hook.group.id=atlas

⑦Atlas Server的配置

- 在/opt/module/apache-atlas-2.1.0/conf/atlas-application.properties配置文件添加修改server的配置

- 在/opt/module/apache-atlas-2.1.0/conf/atlas-log4j.xml中开启记录性能指标的日志输出

⑧atlas集成hive组件

- 在/opt/module/apache-atlas-2.1.0/conf/atlas-application.properties配置文件添加hive hook的配置


######### Hive Hook Configs #######
atlas.hook.hive.synchronous=false 
atlas.hook.hive.numRetries=3 
atlas.hook.hive.queueSize=10000
atlas.cluster.name=primary

- 在hive组件的配置文件/opt/module/hive-3.1.3/conf/hive-site.xml中添加hive hook配置

<property><name>hive.exec.post.hooks</name><value>org.apache.atlas.hive.hook.HiveHook</value>
</property>

- 解压hive hook的程序压缩包

- 将解压后的内容拷贝到atlas安装目录下

- 在hive的环境变量配置文件/opt/module/hive-3.1.3/conf/hive-env.sh中增加atlas的hive hook文件配置

export HIVE_AUX_JARS_PATH=/opt/module/apache-atlas-2.1.0/hook/hive

- 将atlas的配置文件/opt/module/apache-atlas-2.1.0/conf/atlas-application.properties拷贝至hive的配置文件目录/opt/module/hive-3.1.3/conf目录下

⑨atlas服务启动 

- 启动hadoop集群

- 启动zookeeper集群

- 启动kafka集群

- 启动hbase集群

- 启动solr云服务集群

- 启动atlas服务

- 访问atlas的web服务:http://hadoop101:21000/

- 使用户初始化默认账号和密码登录atlas,账号:admin 密码:admin

结语

至此,关于Atlas元数据管理平台的部署安装的内容到这里就结束了,我们下期见。。。。。

这篇关于(三十八)大数据实战——Atlas元数据管理平台的部署安装的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/709460

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

Centos7安装Mongodb4

1、下载源码包 curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.2.1.tgz 2、解压 放到 /usr/local/ 目录下 tar -zxvf mongodb-linux-x86_64-rhel70-4.2.1.tgzmv mongodb-linux-x86_64-rhel70-4.2.1/

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na