hadoopDB 数据仓库简介

2024-02-27 18:38

文章标签 简介数据仓库 hadoopdb

本文主要是介绍hadoopDB 数据仓库简介，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

读了两篇关于hadoopDB数据仓库的论文之后，写一点关于hadoopDB的简介：

hadoopDB是耶鲁大学的一个大学项目，目的是为了构建一个数据仓库的工具。

HadoopDB 结合了hadoop 和paralled RDBMS，结合两个技术的优点。

HadoopDB is to connect multiple single_node database systemusing Hadoop as the task coordinator and network communication layer.

Hadoop的优点：fault toleranceand ability to operate in a heterogeneous environment properties.

缺点： performance,特别是对于join和aggregation操作。

Paralled RDBMS的优点： performance, 特别是对于join和aggregation的优化处理。

缺点：就是hadoop的优点。

原来hadoop + hive就是一套完整数据仓库工具，hive的作用是把用户输入的类SQL语句翻译成hadoop能够执行一些操作-mapreduce的任务tree（包含多个mapreduce的操作），只有由hadoop去执行。但是这些操作都是基于google自己的HDFS，所以在performance上并不是理想。同类的产品还有yahoo的pig, Microsoft的SCOPE。

HadoopDB的最终想法就是在map阶段把SQL语句尽量的让paralledRDBMS 去执行，尽量发挥并行数据库系统的优势，之后把每个node的输出序列化到temp文件中，

这篇关于hadoopDB 数据仓库简介的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/753270。 23002807@qq.com

相关文章

Android Mainline基础简介

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline？Android Mainline 的工作原理关键

阅读更多...

Golang的CSP模型简介(最新推荐)

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP（CommunicatingSequentialProcesses,通信顺序进程）并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

阅读更多...

Java中的Opencv简介与开发环境部署方法

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

阅读更多...

ASIO网络调试助手之一：简介

ASIO网络调试助手之一：简介

多年前，写过几篇《Boost.Asio C++网络编程》的学习文章，一直没机会实践。最近项目中用到了Asio，于是抽空写了个网络调试助手。开发环境： Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议： UDP + TCP Client + TCP Server 独立的Asio（http://www.think-async.com）只包含了头文件，不依

阅读更多...

业务协同平台--简介

业务协同平台--简介

一、使用场景 1.多个系统统一在业务协同平台定义协同策略，由业务协同平台代替人工完成一系列的单据录入 2.同时业务协同平台将执行任务推送给pda、pad等执行终端，通知各人员、设备进行作业执行 3.作业过程中，可设置完成时间预警、作业节点通知，时刻了解作业进程 4.做完再给你做过程分析，给出优化建议就问你这一套下

阅读更多...

容器编排平台Kubernetes简介

容器编排平台Kubernetes简介

目录什么是K8s 为什么需要K8s 什么是容器(Contianer) K8s能做什么？ K8s的架构原理控制平面(Control plane) kube-apiserver etcd kube-scheduler kube-controller-manager cloud-controlle

阅读更多...

【Tools】AutoML简介

【Tools】AutoML简介

摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样 🎵 方芳《摇太阳》 AutoML（自动机器学习）是一种使用机器学习技术来自动化机器学习任务的方法。在大模型中的AutoML是指在大型数据集上使用自动化机器学习技术进行模型训练和优化。

阅读更多...

SaaS、PaaS、IaaS简介

SaaS、PaaS、IaaS简介

云计算、云服务、云平台……现在“云”已成了一个家喻户晓的概念，但PaaS, IaaS 和SaaS的区别估计还没有那么多的人分得清，下面就分别向大家普及一下它们的基本概念： SaaS 软件即服务 SaaS是Software-as-a-Service的简称，意思是软件即服务。随着互联网技术的发展和应用软件的成熟，在21世纪开始兴起的一种完全创新的软件应用模式。它是一种通过Internet提供

阅读更多...

LIBSVM简介

LIBSVM简介

LIBSVM简介支持向量机所涉及到的数学知识对一般的化学研究者来说是比较难的，自己编程实现该算法难度就更大了。但是现在的网络资源非常发达，而且国际上的科学研究者把他们的研究成果已经放在网络上，免费提供给用于研究目的，这样方便大多数的研究者，不必要花费大量的时间理解SVM算法的深奥数学原理和计算机程序设计。目前有关SVM计算的相关软件有很多，如LIBSVM、mySVM、SVMLight等，这些

阅读更多...

urllib与requests爬虫简介

urllib与requests爬虫简介

urllib与requests爬虫简介 – 潘登同学的爬虫笔记文章目录 urllib与requests爬虫简介 -- 潘登同学的爬虫笔记第一个爬虫程序 urllib的基本使用Request对象的使用urllib发送get请求实战-喜马拉雅网站 urllib发送post请求动态页面获取数据请求 SSL证书验证伪装自己的爬虫-请求头 urllib的底层原理伪装自己的爬虫-设置代理爬虫coo

阅读更多...