Gartner连续五年唱衰Hadoop,厂商不以为然!

2024-02-02 22:40

本文主要是介绍Gartner连续五年唱衰Hadoop,厂商不以为然!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  前不久,笔者调研了国内一线互联网公司的大数据架构(《Hadoop生态系统应用状况大调查:互联网篇!》),Hadoop在其中占据了极其重要的位置,很多人都不看好的MapReduce更是出现在各大互联网公司的大数据架构中。

  本文调查了国内部分提供大数据服务的厂商,看看Gartner连续五年唱衰 Hadoop的情况下,他们的大数据平台是如何搭建的?是否基于Hadoop生态系统?Hadoop生态中各组件的存在感有多高?这些架构具备哪些共同特点?(本文内容来源于公开资料整理)

  星环科技

  星环科技Transwarp Data Hub(简称TDH)是国内落地案例最多的一站式Hadoop发行版,也是Gartner认可的Hadoop国际主流发行版本。说白了,就是Hadoop商业版的发行商之一。TDH解决了Hadoop的性能问题,解决了企业需要MPP或混合架构的问题。对于现在还不太成熟的Spark生态而言,唯一的优势可能就是速度够快,但稳定性不足,企业很难尝试。TDH解决了Hadoop的速度问题,让Spark失去了抗衡条件。

Gartner连续五年唱衰Hadoop,厂商不以为然!

  除了Hadoop生态组件,机器学习基本成为大数据平台的标配。Transwarp Discover就是一个分布式的机器学习平台,包含了不少分布式算法库。

  目前这个大数据平台已经在广东移动、广东电信、江苏银行、恒丰银行、中泰证券等电信运营商、金融证券、医疗卫生、邮政快递等几大行业应用。

  荣之联

  荣之联的DataZoo整体分为三层,最底层的基础层基于Hadoop搭建,上层自研了五大引擎,整体加入了自然语言处理的能力。

Gartner连续五年唱衰Hadoop,厂商不以为然!

  底层应用的Hadoop生态系统组件基本与星环科技一致,上层的实时流处理引擎也有异曲同工之妙。在对荣之联大数据专家的走访中,笔者了解到不少企业用户对实时流处理具有很高的需求,这在很多互联网公司的大数据架构图中也有体现,这也成为很多大数据厂商共同的发力点。

  目前DataZoo已应用于公安、证券、电商、新媒体、车联网及生物医疗等多个行业。

  新华三

  新华三的H3C DataEngine平台产品同样基于Hadoop生态,集成了MapReduce、Spark、Storm、Tez等多种计算引擎,利用YARN资源管理组件统一管理调度。

  此外,该大数据平台产品在数据分析挖掘方面同样提供了机器学习的能力。支持R语言、集成机器学习算法库Mahout和Spark MLlib,包括一些常用的聚类分析、分类算法等机器学习算法;流式计算引擎同样是标配。

  目前看起来似乎仅仅应用在政务、公安和高校三个领域。

  百分点

  百分点是国内大数据和人工智能技术与应用服务商,百分点的大数据操作系统(BD-OS)架构模块化清晰,机器学习、分布式数据库KHan和数据服务都是可独立使用的模块:

Gartner连续五年唱衰Hadoop,厂商不以为然!

  底层的大数据技术平台基本可以分为Hadoop生态组件和机器学习组件,中间层同样加入了实时处理能力,上层也提供机器学习的能力。百分点最大的特点在于它的模块之间非常灵活,企业用户可以各取所需。其他厂商或多或少都具备这项能力,只是没有在架构图中一目了然的体现出来。

  目前主要应用于银行、政府部门、酒店、百货、Wi-Fi运营商、媒体、制造业等行业。

  联想

  2011年8月,联想正式启动大数据建设。联想的企业级大数据分析平台主要包括6大产品线:大数据分析应用套件、大数据能力开放平台、大数据计算平台、数据采集转换套件、数据资产管理平台以及系统运维监控中心。

Gartner连续五年唱衰Hadoop,厂商不以为然!

  整体同样基于开源生态搭建,其中的计算平台 Descartes基于Hadoop生态系统。在早期的平台资料中,我们只能看到这六大产品线的介绍。现在LEAP同样内置深度优化的机器学习框架及算法库,具备批量、实时计算技术。

  由于并没有寻到联想大数据平台更详细的架构图,所以此处对整体架构不做过多分析。

  探码科技

  探码科技属于初创企业中的黑马,其Datale大数据应用平台是一款基于Hadoop的开源计算框架,集成了社区几十个成熟的Hadoop子项目。

Gartner连续五年唱衰Hadoop,厂商不以为然!

  探码科技的大数据架构层次比较清晰,同时添加了机器学习引擎和自然语言处理引擎。但是,整体架构似乎与前几家厂商的有些不同。据悉,探码科技的优势市场在国外,比如美国的律师平台、医生平台和酒店等等,现在也在努力开拓中国市场。

  浪潮

  浪潮是一家老牌的云计算和大数据厂商,其云海Insight大数据解决方案同样提供主流的Hadoop、Spark、MPP等架构套件。

Gartner连续五年唱衰Hadoop,厂商不以为然!

  标配的流式计算和机器学习同样出现在浪潮的大数据平台架构图中,目前主要应用领域仍然是金融、电信、政务、医疗等行业。

  用友

  用友大数据处理平台UDH基于Hadoop开源产品体系,从其官网公布的架构图不难看出,Hadoop占据了用友大数据平台的重要位置:

Gartner连续五年唱衰Hadoop,厂商不以为然!

  用友最擅长的是金融财务方向,其大数据平台虽然功能不多,但针对报表展现、数据分析方面进行了不少优化,明显是有领域倾向性。

  总结

  从上述几个大数据服务厂商的架构图不难看出:Hadoop、实时流处理以及机器学习能力几乎成为标配,每一个大数据架构都基于庞大的Hadoop生态组件,只看底层的话,各大厂商的区别还真不大,只有上层才会有一些区分。

  其次,企业用户与互联网公司对实时流处理都具备极高的需求,这在各自的架构图中都有所体现。很多大数据厂商也不过只是Hadoop生态的使用者,相比于调整Hadoop,他们或许更希望在应用层做文章。

  最后,机器学习成为了大数据厂商乐于提供的一大功能,很多厂商甚至可以单独提供机器学习或自然语言处理的模块。

  无论是大数据厂商还是互联网企业,Hadoop都是稳稳的基础层,好像没有人纠结其他选择,也没有人对此有过异议,也没有厂商将关注点放在Hadoop的替代品研究上,难道Hadoop垄断时代就此形成?

  你对Hadoop有什么看法?你所在公司目前的大数据平台是否同样基于Hadoop?Hadoop垄断时代到来,你同意这个看法吗?

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31077337/viewspace-2154092/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31077337/viewspace-2154092/

这篇关于Gartner连续五年唱衰Hadoop,厂商不以为然!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/672192

相关文章

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

poj2406(连续重复子串)

题意:判断串s是不是str^n,求str的最大长度。 解题思路:kmp可解,后缀数组的倍增算法超时。next[i]表示在第i位匹配失败后,自动跳转到next[i],所以1到next[n]这个串 等于 n-next[n]+1到n这个串。 代码如下; #include<iostream>#include<algorithm>#include<stdio.h>#include<math.

XTU 1233 n个硬币连续m个正面个数(dp)

题面: Coins Problem Description: Duoxida buys a bottle of MaiDong from a vending machine and the machine give her n coins back. She places them in a line randomly showing head face or tail face o

Leetcode面试经典150题-128.最长连续序列-递归版本另解

之前写过一篇这个题的,但是可能代码比较复杂,这回来个简洁版的,这个是递归版本 可以看看之前的版本,两个版本面试用哪个都保过 解法都在代码里,不懂就留言或者私信 class Solution {/**对于之前的解法,我现在提供一共更优的解,但是这种可能会比较难懂一些(思想方面)代码其实是很简洁的,总体思想如下:不需要排序直接把所有数放入map,map的key是当前数字,value是当前数开始的

LCP 485. 最大连续 1 的个数[lleetcode -11]

从今天起,我们的算法开始研究搜索,首先就是DFS深度优先搜索(depth-first seach,DFS)在搜索到一个新的节点时,立即对该新节点进行遍 历;因此遍历需要用先入后出的栈来实现,也可以通过与栈等价的递归来实现。对于树结构而言, 由于总是对新节点调用遍历,因此看起来是向着“深”的方向前进。 下面是一个一维的DFS算法 LCP 485. 最大连续 1 的个数 给定一个二进制数组 nu

【Hadoop|MapReduce篇】MapReduce概述

1. MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2. MapReduce优缺点 2.1 优点 MapReduce易于编程 它简单的实现一些接口,就可以完成一个分布式

百度之星 2015 初赛(1) 1002 找连续数

找连续数      Accepts: 401      Submissions: 1911  Time Limit: 2000/1000 MS (Java/Others)      Memory Limit: 32768/32768 K (Java/Others) Problem Description 小度熊拿到了一个无序的数组,对于这个数组,小度熊想知道是