元数据管理Atlas

2024-04-17 10:36
文章标签 atlas 数据管理

本文主要是介绍元数据管理Atlas,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、Atlas概述
    • 1、Atlas入门
    • 2、Atlas架构原理
  • 二、Atlas安装
    • 1、安装环境准备
      • 1.1 安装Solr-7.7.3
      • 1.2 Atlas2.1.0安装
    • 2、Atlas配置
      • 2.1 Atlas集成Hbase
      • 2.2 Atlas集成Solr
      • 2.3 Atlas集成Kafka
      • 2.4 Atlas Server配置
      • 2.5 Kerberos相关配置
      • 2.6 Atlas集成Hive
    • 3、Atlas启动
  • 三、Atlas使用
    • 1、介绍
    • 2、Hive元数据初次导入
    • 3、Hive元数据增量同步
  • 四、扩展内容
    • 1、Atlas源码编译
      • 1.1 安装Maven
      • 1.2 编译Atlas源码
    • 2、Atlas内存配置
    • 3、配置用户名密码

一、Atlas概述

1、Atlas入门

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。同时可以配合ranger对某个元数据进行权限管理

元数据分类支持对元数据进行分类管理,例如个人信息,敏感信息等
元数据检索可按照元数据类型、元数据分类进行检索,支持全文检索
血缘依赖支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等

例如表与表之间的血缘依赖

2、Atlas架构原理

二、Atlas安装

Atlas官网地址:https://atlas.apache.org/
文档查看地址:https://atlas.apache.org/2.1.0/index.html
下载地址:https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

1、安装环境准备

Atlas安装分为:集成自带的HBase + Solr;集成外部的HBase + Solr。通常企业开发中选择集成外部的HBase + Solr,方便项目整体进行集成操作

服务名称子服务服务器hadoop102服务器hadoop103服务器hadoop104
JDK
ZookeeperQuorumPeerMain
KafkaKafka
HBaseHMaster
HRegionServer
SolrJar
HiveHive
Atlasatlas
服务数总计1377

1.1 安装Solr-7.7.3

# 在每台节点创建系统用户solr,三台机器都创建
useradd solr
echo solr | passwd --stdin solr# 解压solr-7.7.3.tgz到/opt/module目录,并改名为solr,102节点
wget https://archive.apache.org/dist/lucene/solr/7.7.3/solr-7.7.3.tgz
tar -zxvf solr-7.7.3.tgz -C /opt/module/
mv solr-7.7.3/ solr# 修改solr目录的所有者为solr用户
chown -R solr:solr /opt/module/solr# 修改solr配置文件
# 修改/opt/module/solr/bin/solr.in.sh文件中的以下属性
ZK_HOST="hadoop102:2181,hadoop103:2181,hadoop104:2181"# 分发solr
xsync /opt/module/solr# 启动solr集群
# 启动Zookeeper集群
zk.sh start
# 启动solr集群,出于安全考虑,不推荐使用root用户启动solr,此处使用solr用户,在所有节点执行以下命令启动solr集群
# 三台机器依次执行
sudo -i -u solr /opt/module/solr/bin/solr start
# 出现 Happy Searching! 字样表明启动成功。
# 说明:若出现警告内容是:solr推荐系统允许的最大进程数和最大打开文件数分别为65000和65000,而系统默认值低于推荐值。如需修改可参考以下步骤,修改完需要重启方可生效,此处可暂不修改。
# 修改打开文件数限制
# 修改/etc/security/limits.conf文件,增加以下内容
# * soft nofile 65000
# * hard nofile 65000
# 修改进程数限制,修改/etc/security/limits.d/20-nproc.conf文件
# *          soft    nproc     65000
# 最后重启# 默认端口为8983,可指定三台节点中的任意一台IP,http://hadoop102:8983 
# 提示:UI界面出现Cloud菜单栏时,Solr的Cloud模式才算部署成功

1.2 Atlas2.1.0安装

# 文档:https://atlas.apache.org/#/BuildInstallation
# 可执行包涉及编译
# 把apache-atlas-2.1.0-server.tar.gz 上传到hadoop102的/opt/software目录下
tar -zxvf apache-atlas-2.1.0-server.tar.gz -C /opt/module/
mv /opt/module/apache-atlas-2.1.0 /opt/module/atlas
# # 资源获取:https://download.csdn.net/download/lemon_TT/87961006

2、Atlas配置

2.1 Atlas集成Hbase

# 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
atlas.graph.storage.hostname=hadoop102:2181,hadoop103:2181,hadoop104:2181
# 修改/opt/module/atlas/conf/atlas-env.sh配置文件
export HBASE_CONF_DIR=/opt/module/hbase/conf

2.2 Atlas集成Solr

# 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
atlas.graph.index.search.backend=solr
atlas.graph.index.search.solr.mode=cloud
atlas.graph.index.search.solr.zookeeper-url=hadoop102:2181,hadoop103:2181,hadoop104:2181
# 创建solr collection
sudo -i -u solr /opt/module/solr/bin/solr create  -c vertex_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2
sudo -i -u solr /opt/module/solr/bin/solr create -c edge_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2
sudo -i -u solr /opt/module/solr/bin/solr create -c fulltext_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2

2.3 Atlas集成Kafka

# 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
atlas.notification.embedded=false
atlas.kafka.data=/opt/module/kafka/data
atlas.kafka.zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/kafka
atlas.kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092,hadoop104:9092

2.4 Atlas Server配置

# 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
#########  Server Properties  #########
atlas.rest.address=http://hadoop102:21000
# If enabled and set to true, this will run setup steps when the server starts
atlas.server.run.setup.on.start=false#########  Entity Audit Configs  #########
atlas.audit.hbase.zookeeper.quorum=hadoop102:2181,hadoop103:2181,hadoop104:2181

记录性能指标,进入/opt/module/atlas/conf/路径,修改当前目录下的atlas-log4j.xml

<!--去掉如下代码的注释-->
<appender name="perf_appender" class="org.apache.log4j.DailyRollingFileAppender"><param name="file" value="${atlas.log.dir}/atlas_perf.log" /><param name="datePattern" value="'.'yyyy-MM-dd" /><param name="append" value="true" /><layout class="org.apache.log4j.PatternLayout"><param name="ConversionPattern" value="%d|%t|%m%n" /></layout>
</appender><logger name="org.apache.atlas.perf" additivity="false"><level value="debug" /><appender-ref ref="perf_appender" />
</logger>

2.5 Kerberos相关配置

若Hadoop集群开启了Kerberos认证,Atlas与Hadoop集群交互之前就需要先进行Kerberos认证。若Hadoop集群未开启Kerberos认证,则本节可跳过。

# 为Atlas创建Kerberos主体,并生成keytab文件
kadmin -padmin/admin -wadmin -q"addprinc -randkey atlas/hadoop102"
kadmin -padmin/admin -wadmin -q"xst -k /etc/security/keytab/atlas.service.keytab atlas/hadoop102"
# 修改/opt/module/atlas/conf/atlas-application.properties配置文件
atlas.authentication.method=kerberos
atlas.authentication.principal=atlas/hadoop102@EXAMPLE.COM
atlas.authentication.keytab=/etc/security/keytab/atlas.service.keytab

2.6 Atlas集成Hive

# 解压Hive Hook
tar -zxvf apache-atlas-2.1.0-hive-hook.tar.gz
# 将Hive Hook依赖复制到Atlas安装路径
cp -r apache-atlas-hive-hook-2.1.0/* /opt/module/atlas/
# 修改/opt/module/hive/conf/hive-env.sh配置文件
mv hive-env.sh.template hive-env.sh
# 增加如下参数
export HIVE_AUX_JARS_PATH=/opt/module/atlas/hook/hive# 修改Hive配置文件,在/opt/module/hive/conf/hive-site.xml文件中增加以下参数,配置Hive Hook。
<property><name>hive.exec.post.hooks</name><value>org.apache.atlas.hive.hook.HiveHook</value>
</property># 修改/opt/module/atlas/conf/atlas-application.properties配置文件中的以下参数
######### Hive Hook Configs #######
atlas.hook.hive.synchronous=false
atlas.hook.hive.numRetries=3
atlas.hook.hive.queueSize=10000
atlas.cluster.name=primary# 将Atlas配置文件/opt/module/atlas/conf/atlas-application.properties拷贝到/opt/module/hive/conf目录
cp /opt/module/atlas/conf/atlas-application.properties  /opt/module/hive/conf/

3、Atlas启动

# 启动Atlas所依赖的环境
# 在NameNode节点执行以下命令,启动HDFS
start-dfs.sh
# 在ResourceManager节点执行以下命令,启动Yarn
start-yarn.sh
# 启动Zookeeper集群
zk.sh start
# 启动Kafka集群
kf.sh start
# 启动Hbase集群
# 在HMaster节点执行以下命令,使用hbase用户启动HBase
sudo -i -u hbase start-hbase.sh
# 启动Solr集群
# 在所有节点执行以下命令,使用solr用户启动Solr
sudo -i -u solr /opt/module/solr/bin/solr start
# 进入/opt/module/atlas路径,启动Atlas服务
bin/atlas_start.py
# 错误信息查看路径:/opt/module/atlas/logs/*.out和application.log
# 停止Atlas服务命令为atlas_stop.py# 访问Atlas的WebUI
# 访问地址:http://hadoop102:21000
# 注意:等待若干分钟。账户:admin,密码:admin

三、Atlas使用

1、介绍

Atlas的使用相对简单,其主要工作是同步各服务(主要是Hive)的元数据,并构建元数据实体之间的关联关系,然后对所存储的元数据建立索引,最终未用户提供数据血缘查看及元数据检索等功能。

Atlas在安装之初,需手动执行一次元数据的全量导入,后续Atlas便会利用Hive Hook增量同步Hive的元数据。

2、Hive元数据初次导入

Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入。

# 导入Hive元数据
/opt/module/atlas/hook-bin/import-hive.sh 
# 按提示输入用户名:admin;输入密码:admin
# 等待片刻,出现以下日志,即表明导入成功:Hive Meta Data import was successful!!!# 查看Hive元数据
# 搜索hive_table类型的元数据,可已看到Atlas已经拿到了Hive元数据

任选一张表查看血缘依赖关系,发现此时并未出现期望的血缘依赖,原因是Atlas是根据Hive所执行的SQL语句获取表与表之间以及字段与字段之间的依赖关系的,例如执行insert into table_a select * from table_b语句,Atlas就能获取table_a与table_b之间的依赖关系。此时并未执行任何SQL语句,故还不能出现血缘依赖关系

3、Hive元数据增量同步

Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系

四、扩展内容

1、Atlas源码编译

1.1 安装Maven

# Maven下载:https://maven.apache.org/download.cgi
# 把apache-maven-3.6.1-bin.tar.gz上传到linux的/opt/software目录下
# 解压apache-maven-3.6.1-bin.tar.gz到/opt/module/目录下面
tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /opt/module/
# 修改apache-maven-3.6.1的名称为maven
mv apache-maven-3.6.1/ maven
# 添加环境变量到/etc/profile中
#MAVEN_HOME
export MAVEN_HOME=/opt/module/maven
export PATH=$PATH:$MAVEN_HOME/binsource /etc/profile
# 测试
mvn -v

修改setting.xml,指定为阿里云vim /opt/module/maven/conf/settings.xml

<!-- 添加阿里云镜像-->
<mirror><id>nexus-aliyun</id><mirrorOf>central</mirrorOf><name>Nexus aliyun</name>
<url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
<mirror><id>UK</id><name>UK Central</name><url>http://uk.maven.org/maven2</url><mirrorOf>central</mirrorOf>
</mirror>
<mirror><id>repo1</id><mirrorOf>central</mirrorOf><name>Human Readable Name for this Mirror.</name><url>http://repo1.maven.org/maven2/</url>
</mirror>
<mirror><id>repo2</id><mirrorOf>central</mirrorOf><name>Human Readable Name for this Mirror.</name><url>http://repo2.maven.org/maven2/</url>
</mirror>

1.2 编译Atlas源码

https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

# 把apache-atlas-2.1.0-sources.tar.gz上传到hadoop102的/opt/software目录下
# 解压apache-atlas-2.1.0-sources.tar.gz到/opt/module/目录下面
tar -zxvf apache-atlas-2.1.0-sources.tar.gz -C /opt/module/
# 下载Atlas依赖
export MAVEN_OPTS="-Xms2g -Xmx2g"
cd /opt/module/apache-atlas-sources-2.1.0/
mvn clean -DskipTests install
mvn clean -DskipTests package -Pdis
# 一定要在${atlas_home}执行
cd distro/target/
mv apache-atlas-2.1.0-server.tar.gz /opt/software/
mv apache-atlas-2.1.0-hive-hook.tar.gz /opt/software/# 提示:执行过程比较长,会下载很多依赖,大约需要半个小时,期间如果报错很有可能是因为TimeOut造成的网络中断,重试即可

2、Atlas内存配置

如果计划存储数万个元数据对象,建议调整参数值获得最佳的JVM GC性能。以下是常见的服务器端选项

# 修改配置文件/opt/module/atlas/conf/atlas-env.sh
#设置Atlas内存
export ATLAS_SERVER_OPTS="-server -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+CMSClassUnloadingEnabled -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=dumps/atlas_server.hprof -Xloggc:logs/gc-worker.log -verbose:gc -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1m -XX:+PrintGCDetails -XX:+PrintHeapAtGC -XX:+PrintGCTimeStamps"
#建议JDK1.7使用以下配置
export ATLAS_SERVER_HEAP="-Xms15360m -Xmx15360m -XX:MaxNewSize=3072m -XX:PermSize=100M -XX:MaxPermSize=512m"
#建议JDK1.8使用以下配置
export ATLAS_SERVER_HEAP="-Xms15360m -Xmx15360m -XX:MaxNewSize=5120m -XX:MetaspaceSize=100M -XX:MaxMetaspaceSize=512m"
#如果是Mac OS用户需要配置
export ATLAS_SERVER_OPTS="-Djava.awt.headless=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="
# 参数说明: -XX:SoftRefLRUPolicyMSPerMB 此参数对管理具有许多并发用户的查询繁重工作负载的GC性能特别有用

3、配置用户名密码

Atlas支持以下身份验证方法:File、Kerberos协议、LDAP协议,通过修改配置文件atlas-application.properties文件开启或关闭三种验证方法

atlas.authentication.method.kerberos=true|false
atlas.authentication.method.ldap=true|false
atlas.authentication.method.file=true|false

如果两个或多个身份证验证方法设置为true,如果较早的方法失败,则身份验证将回退到后一种方法。例如,如果Kerberos身份验证设置为true并且ldap身份验证也设置为true,那么,如果对于没有kerberos principal和keytab的请求,LDAP身份验证将作为后备方案。

本文主要讲解采用文件方式修改用户名和密码设置。其他方式可以参见官网配置即可。

# 打开/opt/module/atlas/conf/users-credentials.properties文件
vim users-credentials.properties
#username=group::sha256-password
# admin时用户名称,8c6976e5b5410415bde908bd4dee15dfb167a9c873fc4bb8a81f6f2ab448a918是采用sha256加密的密码,默认密码为admin
admin=ADMIN::8c6976e5b5410415bde908bd4dee15dfb167a9c873fc4bb8a81f6f2ab448a918
rangertagsync=RANGER_TAG_SYNC::e3f67240f5117d1753c940dae9eea772d36ed5fe9bd9c94a300e40413f1afb9d# 例如:修改用户名称为atguigu,密码为atguigu
# 获取sha256加密的atguigu密码
echo -n "atguigu"|sha256sum
# 获得2628be627712c3555d65e0e5f9101dbdd403626e6646b72fdf728a20c5261dc2
# 修改用户名和密码
vim users-credentials.properties
#username=group::sha256-password
atguigu=ADMIN::2628be627712c3555d65e0e5f9101dbdd403626e6646b72fdf728a20c5261dc2
rangertagsync=RANGER_TAG_SYNC::e3f67240f5117d1753c940dae9eea772d36ed5fe9bd9c94a300e40413f1afb9d

这篇关于元数据管理Atlas的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/911559

相关文章

数据标注:深度学习图像自动标注及数据管理工具软件(包括可运行软件)

深度学习具有传统算法无法比拟的拟合能力,已经在工业领域的诸多方面得到了非常广泛的应用。然而,训练数据集的搭建需要大量的人工标注数据,为了尽可能的减少人工标注数据的工作量,开发了一套可以辅助人工进行数据标注的软件工具。该软件主要针对目标检测图像标注,能够生成txt和xml文件格式的标签。另外,软件还实现了标注数据整理的功能。下载链接:https://download.csdn.net/

DataOps 对企业的数据管理有和意义?该如何落地?

DataOps,即数据开发运营一体化,能够帮助企业构建集开发、治理、运营于一体的自动化数据流水线,进而提高数据产品的交付效率和质量。对企业的数据管理主要有以下帮助: 数据开发更加敏捷高效,快速响应业务需求。在数据生产端,通过数据加工流程中的自动化技术或工具,能够实现数据的快速、可靠和高效交付,在数据消费端,支持自助服务的形式,帮助用数人员自主获取和处理数据。 重构研发治理一体化流水线,对数据研

联想凌拓「零信任」安全防护数据管理解决方案

联想凌拓「零信任」安全防护数据管理解决方案 据《2023 年数据泄露成本报告》指出,2023 年全球数据泄露的平均成本创下历史新高。 这意味着企业在遭遇了数据泄露以后,平均需要花费 277 天来识别并控制一个活跃的数据泄露 频繁的勒索攻击已成为影响企业持续发展的严重威胁,并给企业带来诸多伤害: 敏感客户信息/商业机密等数据丢失或泄露、业务中断、声誉受损、数据泄露法律责任、金融损失、数据恢

集团企业主数据管理项目实施步骤及要点

为打破数据孤岛,提升数据治理水平,某省级投资集团率先构建了主数据平台,并成功实现了财务系统、合同系统、人力资源系统及OA门户系统等多系统的无缝对接。通过主数据平台提供的标准化接口,这些关键业务系统能够高效获取所需的主数据,实现了数据的互联互通。 目前,该平台日均调用次数已超过5,000次,稳定且高效地服务于超过120家集团分子公司,显著提升了企业整体的数据管理效率与业务协同能力。接下来,我们将深

3分钟带你了解什么是元数据管理

前文我们浅聊过关于数据治理的话题,也知道了数据治理的基石就是元数据管理,它贯穿于数据生命周期的各个阶段。 那么元数据管理又是什么呢? 首先我们来看一下元数据的定义。 元数据是关于数据的数据,它提供了描述和解释数据的信息,使数据更容易被理解、查找和使用。换句话说,元数据是为数据加上“标签”,帮助我们了解数据的背景、内容、结构等。 老规矩,我们来举个栗子: 假如我们有一本书,对于

DAMA数据管理知识体系(第4章 数据架构)

课本内容 4.1 引言 概要 数据架构考虑方面 数据架构成果,包括不同层级的模型、定义、数据流,这些通常被称为数据架构的构件数据架构活动,用于形成、部署和实现数据架构的目标数据架构行为,包括影响企业数据架构的不同角色之间的协作、思维方式和技能最为详细的数据架构设计文件是正式的企业数据模型,包含数据名称、数据属性和元数据定义、概念和逻辑实体、关系以及业务规则。物理数据模型也属于数据架构文件,但物理数

React 入门第九天:与后端API的集成与数据管理

在React学习的第九天,我集中学习了如何与后端API进行集成。这一步是将静态的React应用转变为动态、可交互的关键。通过与后端通信,我们可以从服务器获取数据、发送用户输入以及处理复杂的业务逻辑。 1. 使用fetch进行数据请求 React没有内置的HTTP库,因此我们通常使用浏览器提供的fetch API或第三方库如axios来发送请求。 以下是一个使用fetch从API获取数据的示例

嵌入式开发者必看:如何选择最适合的嵌入式开发数据管理工具?SVN/ClearCase VS. Perforce Helix Core(内含研讨会视频

嵌入式软件开发比以往任何时候都更为复杂,涉及的文件、团队和依赖项都在不断增加。 处理如此大规模的开发工作,需要一个强大的数据管理系统——该系统能够处理大量的大型文件和元数据,简化跨多个分支和用户的变更流程,并支持不断扩大的全球分布式团队。 Subversion(SVN)和ClearCase等传统工具已经无法胜任这项工作。它们的分支系统速度慢、容易出错、无法处理大文件,并缺乏安全性。 本次Pe

企业数据管理方案-提升效率与决策力的关键

在数字化时代,数据已成为企业的重要资产。公司如何管理、分析和利用这些数据,直接关系到其竞争力和市场地位。因此,构建一个高效的企业数据管理方案,是提升企业运营效率、支持决策和促进可持续发展的关键。数聚就从多年的从业经验来详细探讨企业数据管理方案的各个方面,从数据收集、存储到分析以及安全性等,为企业提供一个全面的视角来看待数据管理的重要性。  一、数据管理的重要性 随着科技的发展,企业面临着前所未

Atlas阿特拉斯wordpress主题

Atlas阿特拉斯是一个专为WordPress平台设计的多功能主题,该主题由简站wordpress主题开发,旨在为用户提供一个强大而灵活的工具,以构建各种类型的网站。以下是对Atlas阿特拉斯WordPress主题的简介: Atlas阿特拉斯WordPress主题简介: Atlas阿特拉斯以其创新的设计和强大的功能集,为WordPress用户提供了一个全面的主题解决方案。无论是企业网