Stinger Initiative:让Hive提速100倍

2024-04-14 19:38

本文主要是介绍Stinger Initiative:让Hive提速100倍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要:在Hadoop生态圈,没有一家公司有比Hortonworks有更高的统治力,在Apache Hadoop社区,他占据最多的PMC和committer。他和Cloudera是社区利益最主要的争夺者。Stinger Initiative是一个彻底提升Hive效率的工具,与此同时,Hortonworks还在Apache孵化着多个项目,进一步扩大领地。

自从2007年Facebook提出Apache Hive和HiveQL后,他们已经成为事实上的Hadoop上的SQL接口。如今,各种类型的大公司或小公司都在使用Hive这中非常普遍的方法来访问Hadoop数据,从而给公司或者用户带来更多的价值。同时,还有许多公司通过大量已存的BI工具生态系统来达到相同的目的,这些BI工具同样使用Hive作为接口。

最初,Hive用于建立大规模的成批计算,这在数据报告、数据挖掘以及数据准备等应用场景很有效。这些应用场景很重要,但是Hadoop的需求十分广阔,企业用户越来越需要Hadooop具备更高的实时性和交互性。在Hortonworks,我们相信开源社区的创新力要超过任何一个专有的提供商,Stinger initiative再次证明了这一点,我们会联合(社区)伙伴一起提升Hive的性能。

什么是Stinger Initiative?

能让Hive回答问题的速度满足普通人(例如一个问题的返回时间在5-30秒),如大数据探索、可视化、参数化报告等场景,而且并不依赖其它工具,并分发到用户社区,可以很好的维护企业原有的投资和开发者的Hive技能。

图:Stinger Initiative的roadmap 

为此,我们发布了Stinger Initiative,并进入社区进行分享,为的是让Hive支持更多SQL,并实现更好的性能。一直以来,HiveQL都没有什么变化,而这次HiveQL将变得更强大。同时,与现有的工具保持一致形成完美的互补。

  • 首先,我们让Hive与人们在Hadoop上想要的查询想匹配。这包括增加类似OVER子句的分析功能,支持WHERE子查询,以及调整Hive的样式系统更多的符合标准的SQL模型。
  • 其次,我们优化了Hive的请求执行计划,我们内部某些测试结果显示,优化后的请求时间减少了90%。我们也着眼于在Hive执行引擎中增加一些改动,我们确信这可以增加单一Hive task每秒钟处理记录的数量。
  • 第三,我们在Hive社区中引入了新的列式文件格式(如ORC文件),提供一种更现代、高效和高性能的方式来储存Hive数据。
  • 最后,我们引入了一种新的runtime框架—— Tez,它的目标是消除Hive的延迟以及吞吐量限制。Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job。这将优化Hadoop内部的执行链,彻底加速Hive负载处理。

所有这些对Hive的调整仍在公开的进行中,内部预览版将在今年三月举行的由Hortonworks主办的Hadoop大会上公开。

拥抱社区和Hive

许多不同的团队在Hive社区贡献着他们成果。来自SAP的Harish Butani的团队负责为Hive增加一个分析和数据窗口函数。这个函数将增加到OVER子句中用于已经存在的聚集函数,就像RAND、NTILE和LEAD、LAG等函数一样, 这里可以看到详细的说明。Facebook的Namit Jain已经花了大量时间来优化Hive的查需执行计划,这让Join等操作变的更高效,并减少来自用户的提示。Hortonworks已经参与到这些项目中。

Owen O’Malley,Hortonworks联合创始人,早期的Hadoop的开发者,已经在Facebook为ORC文件格式进行了大量工作,这项工作将帮助提升Hive读、写、处理数据的性能,在 这里可以看到详情。我们还在为一些更长远的目标工作,如重写Hive的运算符来处理上千的记录,其效率和现在相比将有大幅提升。

为什么要重新造轮子呢?

这篇关于Stinger Initiative:让Hive提速100倍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/903832

相关文章

【LeetCode热题100】前缀和

这篇博客共记录了8道前缀和算法相关的题目,分别是:【模版】前缀和、【模版】二维前缀和、寻找数组的中心下标、除自身以外数组的乘积、和为K的子数组、和可被K整除的子数组、连续数组、矩阵区域和。 #include <iostream>#include <vector>using namespace std;int main() {//1. 读取数据int n = 0, q = 0;ci

Hive和Hbase的区别

Hive 和 HBase 都是 Hadoop 生态系统中的重要组件,它们都能处理大规模数据,但各自有不同的适用场景和设计理念。以下是两者的主要区别: 1. 数据模型 Hive:Hive 类似于传统的关系型数据库 (RDBMS),以表格形式存储数据。它使用 SQL-like 语言 HiveQL 来查询和处理数据,数据通常是结构化或半结构化的。HBase:HBase 是一个 NoSQL 数据库,基

牛客小白月赛100部分题解

比赛地址:牛客小白月赛100_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ A.ACM中的A题 #include<bits/stdc++.h>using namespace std;#define ll long long#define ull = unsigned long longvoid solve() {ll a,b,c;cin>>a>>b>

牛客小白月赛100(A,B,C,D,E,F三元环计数)

比赛链接 官方讲解 这场比较简单,ABC都很签到,D是个不太裸需要预处理的 B F S BFS BFS 搜索,E是调和级数暴力枚举,F是三元环计数。三元环考的比较少,没见过可能会偏难。 A ACM中的A题 思路: 就是枚举每个边变成原来的两倍,然后看看两短边之和是否大于第三边即可。 不能只给最短边乘 2 2 2,比如 1 4 8 这组数据,也不能只给第二短边乘 2 2 2,比

诺瓦星云校招嵌入式面试题及参考答案(100+面试题、10万字长文)

SPI 通信有哪些内核接口? 在嵌入式系统中,SPI(Serial Peripheral Interface,串行外设接口)通信通常涉及以下内核接口: 时钟控制接口:用于控制 SPI 时钟的频率和相位。通过设置时钟寄存器,可以调整 SPI 通信的速度以适应不同的外设需求。数据发送和接收接口:负责将数据从主机发送到从机以及从从机接收数据到主机。这些接口通常包括数据寄存器,用于存储待发

掌握Hive函数[2]:从基础到高级应用

目录 高级聚合函数 多进一出 1. 普通聚合 count/sum... 2. collect_list 收集并形成list集合,结果不去重 3. collect_set 收集并形成set集合,结果去重  案例演示 1. 每个月的入职人数以及姓名  炸裂函数  概述  案例演示 1. 数据准备 1)表结构 2)建表语句 3)装载语句 2. 需求 1)需求说明 2)答

多个线程如何轮流输出1到100

多个线程如何轮流输出1到100的值 这个面试问题主要考察如何让线程同步,首先线程同步必会用到的就是互斥锁,互斥锁保证多个线程对数据的同时操作不会出错。但是线程同步还会用到条件变量condition_variable,condition_variable(条件变量)是 C++11 中提供的一种多线程同步机制,它允许一个或多个线程等待另一个线程发出通知,以便能够有效地进行线程同步。 conditi

【最新华为OD机试E卷-支持在线评测】机器人活动区域(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-E/D卷的三语言AC题解 💻 ACM金牌🏅️团队| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍿 最新华为OD机试D卷目录,全、新、准,题目覆盖率达 95% 以上,支持题目在线评测,专栏文章质量平均 94 分 最新华为OD机试目录: https://blog.

华为OD机试 - 最大利润(Java 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(E卷+D卷+A卷+B卷+C卷)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加入华为OD刷题交流群,每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景,发现新题目,随时更新,全天CSDN在线答疑。 一、题目描述

Python精选200Tips:91-100

To do a good job, one must first sharpen their tools. 091 sys092 os093 json094 re邮箱地址手机号身份证号数字(整数和浮点数)匹配科学计数法汉字大、小写字母年月日 095 itertools096 datetime097 math098 random099 collectionsCounterdequedefa