Hive 读书笔记3:HiveQL Data Definition(上)

2024-01-27 09:18

本文主要是介绍Hive 读书笔记3:HiveQL Data Definition(上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

HiveQL可以认为是SQL的一种方言,它不完全遵循任何一个版本的ANSI SQL标准,它似乎跟MySQL比较接近,但有一个显著地不同:Hvie不支持行级别的Insert、Update和Delete,并且Hive不支持事务


创建一个库:create database mydb; 或者create database if not exists mydb; 

删除库:DROP DATABASE IF EXISTS mydb;

Hive默认情况下不允许删除存在表的库,因而可以用cascade同时删除所有表:DROP DATABASE IF EXISTS financials CASCADE;

也可以使用schema关键字代替database,二者在hive中等价;


show databases; 查看当前hive下有些什么database,当然也可以用show schemas;如果库比较多,可以用正则表达式限定你感兴趣的database:show databases like 'my.*';Hive为每个database创建一个目录,其下的各表存为子目录。例外的是default database,它不存在自己的目录。当一个库被删除时,其目录也删掉了。查看一个database的属性:describe database mydb; 或者describe database extended mydb;


可以使用use指令指定当前工作的database:use mydb;然后再执行show tables可以查看当前database下的表(当然也可以显示非当前库下的表,采用show tables in otherdb; 如果要进一步通过正则表达式指定感兴趣的表的话,可以: show tables in mydb like 'my.*';)。然而hive却没有指令显示当前在哪个database。但是反复使用use ...指令总是安全的,因为Hive下database没有嵌套的概念。另外,可以通过设定set hive.cli.print.current.db=true;将当前库显示在“Hive>”前面。


Alter Database指令只能修改key-value形式的属性,不能修改除此之外的任何元数据,例如名称和目录路径。例如:hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba');


Hive下创建表:

CREATE TABLE IF NOT EXISTS mydb.employees (
name STRING COMMENT 'Employee name',
salary FLOAT COMMENT 'Employee salary',
subordinates ARRAY<STRING> COMMENT 'Names of subordinates',
deductions MAP<STRING, FLOAT>
COMMENT 'Keys are deductions names, values are percentages',
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>
COMMENT 'Home address')
COMMENT 'Description of the table'
TBLPROPERTIES ('creator'='me', 'created_at'='2012-01-02 10:00:00', ...)
LOCATION '/user/hive/warehouse/mydb.db/employees';
可以冠以“mydb”,在当前工作的库不在目标库下面时。

通过现有的表创建一张新表(它们具有一致的表定义,只是数据不一样,数据位置可以通过location指定,除此之外其它任何属性均不能指定):

CREATE TABLE IF NOT EXISTS mydb.employees2
LIKE mydb.employees;

Hive下有两种表,一种是 托管表(Managed Table),又称内部表,另一种是外部表。对于托管表,Hive会管理其数据的整个生命周期,在表删除时会删除数据。但是托管表不方便与其它工具数据共享。如果我们有主要供其它工具使用的数据(例如Pig),而不想讲ownership转移给hive,可以采用外部表,将表的数据指定出来即可。


创建外部表:

CREATE EXTERNAL TABLE IF NOT EXISTS stocks (
exchange STRING,
symbol STRING,
ymd STRING,
price_open FLOAT,
price_high FLOAT,
price_low FLOAT,
price_close FLOAT,
volume INT,
price_adj_close FLOAT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/data/stocks';
采用Location 关键字指定外部文件位置。这样,删除表时,就不会删除数据文件,仅仅删除元数据。

采用托管表的定义创建一个外部表:

CREATE EXTERNAL TABLE IF NOT EXISTS mydb.employees3
LIKE mydb.employees
LOCATION '/path/to/data';

注意,如果省去“External”关键字,原始表为外部表,则新创建表也是外部表;原始表为托管表,新建表也为托管表。


但实际上Hive对托管表数据的控制并不是完全的,你同样可以采用别的工具去读写托管表路径下的文件,甚至删除它(正如Schema on Read的思想所表达的那样)。当然,如果数据需要跟其他工具共享,从设计上讲,还是应该指定为外部表。














这篇关于Hive 读书笔记3:HiveQL Data Definition(上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/649779

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统

引言 在企业级应用开发中,数据库操作是非常重要的一环。Spring Data JPA提供了一种简化的方式来进行数据库交互,它使得开发者无需编写复杂的JPA代码就可以完成常见的CRUD操作。此外,设计模式如单例模式可以帮助我们更好地管理和控制对象的创建过程,从而提高系统的性能和可维护性。本文将展示如何结合Spring Boot、Spring Data JPA以及单例模式来构建一个基本的库存管理系统

15 组件的切换和对组件的data的使用

划重点 a 标签的使用事件修饰符组件的定义组件的切换:登录 / 注册 泡椒鱼头 :微辣 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-

《C++标准库》读书笔记/第一天(C++新特性(1))

C++11新特性(1) 以auto完成类型自动推导 auto i=42; //以auto声明的变量,其类型会根据其初值被自动推倒出来,因此一定需要一个初始化操作; static auto a=0.19;//可以用额外限定符修饰 vector<string> v;  auto pos=v.begin();//如果类型很长或类型表达式复杂 auto很有用; auto l=[] (int

12C 新特性,MOVE DATAFILE 在线移动 包括system, 附带改名 NID ,cdb_data_files视图坏了

ALTER DATABASE MOVE DATAFILE  可以改名 可以move file,全部一个命令。 resue 可以重用,keep好像不生效!!! system照移动不误-------- SQL> select file_name, status, online_status from dba_data_files where tablespace_name='SYSTEM'

Hive和Hbase的区别

Hive 和 HBase 都是 Hadoop 生态系统中的重要组件,它们都能处理大规模数据,但各自有不同的适用场景和设计理念。以下是两者的主要区别: 1. 数据模型 Hive:Hive 类似于传统的关系型数据库 (RDBMS),以表格形式存储数据。它使用 SQL-like 语言 HiveQL 来查询和处理数据,数据通常是结构化或半结构化的。HBase:HBase 是一个 NoSQL 数据库,基

读书笔记(一):双脑记

谁又知道年轻人那反复无常的大脑有着怎样的运行机制?尽管他们的大脑已被荷尔蒙折腾地七荤八素;却偶尔还会有灵感跻身夹缝之间; 层级化:每时每刻,人类都在进行抽象化,也就是说,从客观事实中发展出更具普遍意义的理论和知识。利用这种方法,我们得以不断地开发出新的更为简洁的描述层级,方便我们那容量有限的大脑加以处理。分层的概念几乎可以应用于任何复杂系统,甚至包括我们的社交世界,也即是人们的个人生

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

java.sql.SQLException: No data found

Java代码如下: package com.accord.utils;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import