想要从大数据中获益?请先做好Hadoop管理

2024-01-25 06:08

本文主要是介绍想要从大数据中获益?请先做好Hadoop管理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据湖泊是一个大量信息的集合体,此外还包括成千上万的CPU和超过30 pb级的存储容量。为了保证其平稳运行,IT团队实现了主动Hadoop监测和数据治理过程,此外还包括一系列集群管理工具。

“为确保Comcast'的Hadoop用户可以正常的运行应用程序,我们开始使用数据治理功能,”Michael Fagan说道,他是位于Philadelphia的电视电影集团的首席大数据架构师。管理工作主要包括服务协议,用于限制业务单元的Hadoop资源利用率,此外还包括自动化的执行机制和月度审核机制,用来评估Hadoop的性

对Hadoop集群使用和数据存储的管理是一个很热门的话题,在San Jose, Calif举办的Hadoop 2016峰会上,这个话题被广泛讨论。Fagan 和其他演讲者认为,对于那些试图从大数据中获益的企业来说,有效的Hadoop管理是必须的。一些供应商正在开发新技术,旨在实现集群监控、管理和治理任务的自动化。

举例来说,会议的组织者Hortonworks发布了一个Hadoop的预览版,它集成了Atlas 和Ranger。Apache开源技术可用于给数据配置元数据,加强用户访问权限控制。Hortonworks数据平台(HDP)2.5版本,将于本月晚些时候发布,它增加了系统日志的搜索功能,通过使用Apache Ambari(一个开源的Hadoop管理工具),提供了基于角色的访问控制功能。

Hortonworks的竞争对手MapR Technologies推出了Spyglass Initiative项目的第一个组件——Spyglass Initiative项目旨在创建可定制的仪表板,监控大数据平台。此外,MapR还将发布更新各种开源工具,作为其平台季度更新“包”的一部分,以简化部署流程;第一个MapR Ecosystem Pack 和MapR Monitoring仪表板都将在本月发布。与此同时,数据集成和分析软件供应商Pentaho发布了连接到Hadoop数据湖泊的基础设施参考蓝图。

Hadoop管理的多个方面

Comcast 在它的数据湖泊上运行HDP和Cloudera的Hadoop分布平台——在集群管理方面,它使用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop性能管理软件。为了在Hadoop监测数据上完成更高级的聚合,该公司还建立了一个本地管理控制台,称为Comcast Command Center。

“虽然我们可以从不同的工具中得到很多答案,但我们很难得到一致的答案,”Ray Harrison,Comcast Hadoop平台团队的一员说道。

数据湖泊是一个多租户的数据环境,各种用户“聚集到一起,在同一个一沙盒里操作数据,”Harrison说。但是这种方法给性能管理带来了一定的挑战。Hadoop团队今年部署500个节点的集群,为公司数据科学家的高级分析应用程序服务,但这是必须的,因为这些科学家正在大型数据集努力寻找“未知的未知”,这需要强大的计算能力,现有的资源难以应付,Harrison说道。

为了跟上集群变化的节奏,Comcast 特意更新了其资源使用的治理策略,“且在过去的一年内更新了数次,”Fagan说到。下一步是数据治理:Hadoop团队开始推进数据治理项目,依靠Atlas技术来确保每个用户所使用信息的一致性。

治理为要,科技次之

数据治理是Blue Cross Blue Shield of Michigan的首要任务,该大数据平台将于五月上线。在会议的另一次会谈中,Detroit一家公司的分析主管,数据工程师和数据管理者Beata Puncevic说道,她的团队在2015年4月,项目初期就首先开始着手制定新的数据治理流程和策略,而真正开始实施技术细节已经是五个月之后的事了。

“如果你在部署大数据工具之前,没有制定一个强有力的数据治理过程,你很有可能会步履维艰”Puncevic说道。数据治理涉及如下步骤,根据常见数据定义,创建业务术语表,制定数据使用的新规则,解决数据质量和元数据管理的问题。“上面说的这些都很无聊”她开玩笑道。“我们一开始做的这些工作与具体技术无关。”

原始数据被输入到Hortonworks-based Hadoop集群,然后根据数据治理机制进行精炼,以供分析。该系统最初被用来支持的分析应用程序包括用药和临床病例记录系统,Puncevic补充说,这可能需要额外三到五年才能完全建立起大数据架构。

Hadoop监测和治理在University of Texas MD Anderson Cancer Center的大数据待办事项上优先级很高 ,他们在3月份将一个运行HDP的Hadoop集群投入了生产环境。这家位于Houston的癌症治疗和研究机构使用集群存储一些重要的统计数据,这些数据收集于病人的床边传感器;大数据平台的其他用途还包括对不同实验室数据系统的集成,这些实验室在以前是完全独立的,没有任何联系。

传统的IT管理,治理和安全实践仍然适用于大数据环境,Vamshi Punugoti,MD Anderson负责信息系统研究的副主任表示。

“从我们的角度来看,没理由做例外的事,”他说,我们虽然刚刚开始大数据的旅程,但这并不意味着我们能以随意的方式去做。”

在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

这篇关于想要从大数据中获益?请先做好Hadoop管理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/642303

相关文章

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

C++中使用vector存储并遍历数据的基本步骤

《C++中使用vector存储并遍历数据的基本步骤》C++标准模板库(STL)提供了多种容器类型,包括顺序容器、关联容器、无序关联容器和容器适配器,每种容器都有其特定的用途和特性,:本文主要介绍C... 目录(1)容器及简要描述‌php顺序容器‌‌关联容器‌‌无序关联容器‌(基于哈希表):‌容器适配器‌:(

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动