想要从大数据中获益?请先做好Hadoop管理

2024-01-25 06:08

本文主要是介绍想要从大数据中获益?请先做好Hadoop管理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据湖泊是一个大量信息的集合体,此外还包括成千上万的CPU和超过30 pb级的存储容量。为了保证其平稳运行,IT团队实现了主动Hadoop监测和数据治理过程,此外还包括一系列集群管理工具。

“为确保Comcast'的Hadoop用户可以正常的运行应用程序,我们开始使用数据治理功能,”Michael Fagan说道,他是位于Philadelphia的电视电影集团的首席大数据架构师。管理工作主要包括服务协议,用于限制业务单元的Hadoop资源利用率,此外还包括自动化的执行机制和月度审核机制,用来评估Hadoop的性

对Hadoop集群使用和数据存储的管理是一个很热门的话题,在San Jose, Calif举办的Hadoop 2016峰会上,这个话题被广泛讨论。Fagan 和其他演讲者认为,对于那些试图从大数据中获益的企业来说,有效的Hadoop管理是必须的。一些供应商正在开发新技术,旨在实现集群监控、管理和治理任务的自动化。

举例来说,会议的组织者Hortonworks发布了一个Hadoop的预览版,它集成了Atlas 和Ranger。Apache开源技术可用于给数据配置元数据,加强用户访问权限控制。Hortonworks数据平台(HDP)2.5版本,将于本月晚些时候发布,它增加了系统日志的搜索功能,通过使用Apache Ambari(一个开源的Hadoop管理工具),提供了基于角色的访问控制功能。

Hortonworks的竞争对手MapR Technologies推出了Spyglass Initiative项目的第一个组件——Spyglass Initiative项目旨在创建可定制的仪表板,监控大数据平台。此外,MapR还将发布更新各种开源工具,作为其平台季度更新“包”的一部分,以简化部署流程;第一个MapR Ecosystem Pack 和MapR Monitoring仪表板都将在本月发布。与此同时,数据集成和分析软件供应商Pentaho发布了连接到Hadoop数据湖泊的基础设施参考蓝图。

Hadoop管理的多个方面

Comcast 在它的数据湖泊上运行HDP和Cloudera的Hadoop分布平台——在集群管理方面,它使用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop性能管理软件。为了在Hadoop监测数据上完成更高级的聚合,该公司还建立了一个本地管理控制台,称为Comcast Command Center。

“虽然我们可以从不同的工具中得到很多答案,但我们很难得到一致的答案,”Ray Harrison,Comcast Hadoop平台团队的一员说道。

数据湖泊是一个多租户的数据环境,各种用户“聚集到一起,在同一个一沙盒里操作数据,”Harrison说。但是这种方法给性能管理带来了一定的挑战。Hadoop团队今年部署500个节点的集群,为公司数据科学家的高级分析应用程序服务,但这是必须的,因为这些科学家正在大型数据集努力寻找“未知的未知”,这需要强大的计算能力,现有的资源难以应付,Harrison说道。

为了跟上集群变化的节奏,Comcast 特意更新了其资源使用的治理策略,“且在过去的一年内更新了数次,”Fagan说到。下一步是数据治理:Hadoop团队开始推进数据治理项目,依靠Atlas技术来确保每个用户所使用信息的一致性。

治理为要,科技次之

数据治理是Blue Cross Blue Shield of Michigan的首要任务,该大数据平台将于五月上线。在会议的另一次会谈中,Detroit一家公司的分析主管,数据工程师和数据管理者Beata Puncevic说道,她的团队在2015年4月,项目初期就首先开始着手制定新的数据治理流程和策略,而真正开始实施技术细节已经是五个月之后的事了。

“如果你在部署大数据工具之前,没有制定一个强有力的数据治理过程,你很有可能会步履维艰”Puncevic说道。数据治理涉及如下步骤,根据常见数据定义,创建业务术语表,制定数据使用的新规则,解决数据质量和元数据管理的问题。“上面说的这些都很无聊”她开玩笑道。“我们一开始做的这些工作与具体技术无关。”

原始数据被输入到Hortonworks-based Hadoop集群,然后根据数据治理机制进行精炼,以供分析。该系统最初被用来支持的分析应用程序包括用药和临床病例记录系统,Puncevic补充说,这可能需要额外三到五年才能完全建立起大数据架构。

Hadoop监测和治理在University of Texas MD Anderson Cancer Center的大数据待办事项上优先级很高 ,他们在3月份将一个运行HDP的Hadoop集群投入了生产环境。这家位于Houston的癌症治疗和研究机构使用集群存储一些重要的统计数据,这些数据收集于病人的床边传感器;大数据平台的其他用途还包括对不同实验室数据系统的集成,这些实验室在以前是完全独立的,没有任何联系。

传统的IT管理,治理和安全实践仍然适用于大数据环境,Vamshi Punugoti,MD Anderson负责信息系统研究的副主任表示。

“从我们的角度来看,没理由做例外的事,”他说,我们虽然刚刚开始大数据的旅程,但这并不意味着我们能以随意的方式去做。”

在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

这篇关于想要从大数据中获益?请先做好Hadoop管理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/642303

相关文章

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

HTML5中的Microdata与历史记录管理详解

《HTML5中的Microdata与历史记录管理详解》Microdata作为HTML5新增的一个特性,它允许开发者在HTML文档中添加更多的语义信息,以便于搜索引擎和浏览器更好地理解页面内容,本文将探... 目录html5中的Mijscrodata与历史记录管理背景简介html5中的Microdata使用M

Spring 基于XML配置 bean管理 Bean-IOC的方法

《Spring基于XML配置bean管理Bean-IOC的方法》:本文主要介绍Spring基于XML配置bean管理Bean-IOC的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录一. spring学习的核心内容二. 基于 XML 配置 bean1. 通过类型来获取 bean2. 通过

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

python uv包管理小结

《pythonuv包管理小结》uv是一个高性能的Python包管理工具,它不仅能够高效地处理包管理和依赖解析,还提供了对Python版本管理的支持,本文主要介绍了pythonuv包管理小结,具有一... 目录安装 uv使用 uv 管理 python 版本安装指定版本的 Python查看已安装的 Python

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1