想要从大数据中获益?请先做好Hadoop管理

2024-01-25 06:08

本文主要是介绍想要从大数据中获益?请先做好Hadoop管理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据湖泊是一个大量信息的集合体,此外还包括成千上万的CPU和超过30 pb级的存储容量。为了保证其平稳运行,IT团队实现了主动Hadoop监测和数据治理过程,此外还包括一系列集群管理工具。

“为确保Comcast'的Hadoop用户可以正常的运行应用程序,我们开始使用数据治理功能,”Michael Fagan说道,他是位于Philadelphia的电视电影集团的首席大数据架构师。管理工作主要包括服务协议,用于限制业务单元的Hadoop资源利用率,此外还包括自动化的执行机制和月度审核机制,用来评估Hadoop的性

对Hadoop集群使用和数据存储的管理是一个很热门的话题,在San Jose, Calif举办的Hadoop 2016峰会上,这个话题被广泛讨论。Fagan 和其他演讲者认为,对于那些试图从大数据中获益的企业来说,有效的Hadoop管理是必须的。一些供应商正在开发新技术,旨在实现集群监控、管理和治理任务的自动化。

举例来说,会议的组织者Hortonworks发布了一个Hadoop的预览版,它集成了Atlas 和Ranger。Apache开源技术可用于给数据配置元数据,加强用户访问权限控制。Hortonworks数据平台(HDP)2.5版本,将于本月晚些时候发布,它增加了系统日志的搜索功能,通过使用Apache Ambari(一个开源的Hadoop管理工具),提供了基于角色的访问控制功能。

Hortonworks的竞争对手MapR Technologies推出了Spyglass Initiative项目的第一个组件——Spyglass Initiative项目旨在创建可定制的仪表板,监控大数据平台。此外,MapR还将发布更新各种开源工具,作为其平台季度更新“包”的一部分,以简化部署流程;第一个MapR Ecosystem Pack 和MapR Monitoring仪表板都将在本月发布。与此同时,数据集成和分析软件供应商Pentaho发布了连接到Hadoop数据湖泊的基础设施参考蓝图。

Hadoop管理的多个方面

Comcast 在它的数据湖泊上运行HDP和Cloudera的Hadoop分布平台——在集群管理方面,它使用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop性能管理软件。为了在Hadoop监测数据上完成更高级的聚合,该公司还建立了一个本地管理控制台,称为Comcast Command Center。

“虽然我们可以从不同的工具中得到很多答案,但我们很难得到一致的答案,”Ray Harrison,Comcast Hadoop平台团队的一员说道。

数据湖泊是一个多租户的数据环境,各种用户“聚集到一起,在同一个一沙盒里操作数据,”Harrison说。但是这种方法给性能管理带来了一定的挑战。Hadoop团队今年部署500个节点的集群,为公司数据科学家的高级分析应用程序服务,但这是必须的,因为这些科学家正在大型数据集努力寻找“未知的未知”,这需要强大的计算能力,现有的资源难以应付,Harrison说道。

为了跟上集群变化的节奏,Comcast 特意更新了其资源使用的治理策略,“且在过去的一年内更新了数次,”Fagan说到。下一步是数据治理:Hadoop团队开始推进数据治理项目,依靠Atlas技术来确保每个用户所使用信息的一致性。

治理为要,科技次之

数据治理是Blue Cross Blue Shield of Michigan的首要任务,该大数据平台将于五月上线。在会议的另一次会谈中,Detroit一家公司的分析主管,数据工程师和数据管理者Beata Puncevic说道,她的团队在2015年4月,项目初期就首先开始着手制定新的数据治理流程和策略,而真正开始实施技术细节已经是五个月之后的事了。

“如果你在部署大数据工具之前,没有制定一个强有力的数据治理过程,你很有可能会步履维艰”Puncevic说道。数据治理涉及如下步骤,根据常见数据定义,创建业务术语表,制定数据使用的新规则,解决数据质量和元数据管理的问题。“上面说的这些都很无聊”她开玩笑道。“我们一开始做的这些工作与具体技术无关。”

原始数据被输入到Hortonworks-based Hadoop集群,然后根据数据治理机制进行精炼,以供分析。该系统最初被用来支持的分析应用程序包括用药和临床病例记录系统,Puncevic补充说,这可能需要额外三到五年才能完全建立起大数据架构。

Hadoop监测和治理在University of Texas MD Anderson Cancer Center的大数据待办事项上优先级很高 ,他们在3月份将一个运行HDP的Hadoop集群投入了生产环境。这家位于Houston的癌症治疗和研究机构使用集群存储一些重要的统计数据,这些数据收集于病人的床边传感器;大数据平台的其他用途还包括对不同实验室数据系统的集成,这些实验室在以前是完全独立的,没有任何联系。

传统的IT管理,治理和安全实践仍然适用于大数据环境,Vamshi Punugoti,MD Anderson负责信息系统研究的副主任表示。

“从我们的角度来看,没理由做例外的事,”他说,我们虽然刚刚开始大数据的旅程,但这并不意味着我们能以随意的方式去做。”

在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

这篇关于想要从大数据中获益?请先做好Hadoop管理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/642303

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.