本文主要是介绍hadoopDB 数据仓库 简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
读了两篇关于hadoopDB数据仓库的论文之后,写一点关于hadoopDB的简介:
hadoopDB是耶鲁大学的一个大学项目, 目的是为了构建一个数据仓库的工具。
HadoopDB 结合了hadoop 和paralled RDBMS,结合两个技术的优点。
HadoopDB is to connect multiple single_node database systemusing Hadoop as the task coordinator and network communication layer.
Hadoop的优点:fault toleranceand ability to operate in a heterogeneous environment properties.
缺点: performance,特别是对于join和aggregation操作。
Paralled RDBMS的优点: performance, 特别是对于join和aggregation的优化 处理。
缺点:就是hadoop的优点。
原来hadoop + hive就是一套完整数据仓库工具,hive的作用是把用户输入的类SQL语句翻译成hadoop能够执行一些操作-mapreduce的任务tree(包含多个mapreduce的操作),只有由hadoop去执行。但是这些操作都是基于google自己的HDFS,所以在performance上并不是理想。同类的产品还有yahoo的pig, Microsoft的SCOPE。
HadoopDB的最终想法就是在map阶段把SQL语句尽量的让paralledRDBMS 去执行,尽量发挥并行数据库系统的优势,之后把每个node的输出序列化到temp文件中,
这篇关于hadoopDB 数据仓库 简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!