Presto入门简介（含和Hive对比）

本文主要是介绍Presto入门简介（含和Hive对比），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、简介

Presto是由Facebook开发的，是一个运行在多台服务器上的分布式查询引擎，本身并不存储数据，但是可以接入多种数据源（Hive、Oracle、MySql、Kafka、Redis等），并且支持跨数据源的级联查询，比如：
select * from a join b where a.id=b.id;，其中表a可以来自Hive，表b可以来自Mysql。

优势（相对于Hive）：
Presto是一个低延迟高并发的内存计算引擎，相比Hive，执行效率要高很多。
Presto以分析师的需求作为目标，他们期望响应时间小于1秒到几分钟。 Presto终结了数据分析的两难选择，要么使用速度快的昂贵的商业方案，要么使用消耗大量硬件的慢速的“免费”方案。
那么，为什么presto查询速度比Hive快？
Presto是常驻任务，接受请求立即执行，全内存并行计算；hive需要用yarn做资源调度，接受查询需要先申请资源，启动进程，并且采用mapreduce计算模型，中间结果会经过磁盘。

基础概念：
catalogs -> 数据源，配置的数据仓库名称，不同的数据连接如：hive、mysql
schemas -> 相当于数据库 database
tables -> 表 tables

接入方式：
Presto的接入方式有多种：presto-cli，pyhive，jdbc，http，golang，SQLAlchemy，PHP等，其中presto-cli命令行模式是Presto官方提供的，以此为例：
./presto-cli.jar --server 服务IP:端口 --catalog hive --user xxxx --source 'pf=adhoc;client=cli

二、安装及结构

完整安装包括一个coordinator和多个worker。由客户端提交查询，从Presto命令行CLI提交到coordinator。 coordinator进行解析，分析并执行查询计划，然后分发处理队列到worker。
查询原理：完全基于内存的并行计算；流水线；本地化计算；动态编译执行。

由于 Presto 的数据源具有完全解耦、高性能，以及对 ANSI SQL 的支持等特性（包括联合查询、左右联接、子查询以及一些聚合和计算函数），使得 Presto 在 ETL、实时数据计算、 Ad-Hoc 查询和实时数据流分析等多个业务场景中均能发挥重要的作用。
由于 Presto 卓越的性能表现，使得 Presto 可以弥补 Hive 无法满足的实时计算空白，因此可以将 Presto 与 Hive 配合使用：对于海量数据的批处理和计算由 Hive 来完成；对于大量数据（单次计算扫描数据量级在 GB 到 TB）的计算由 Presto 完成。

三、常用业务场景

1、基于 T+1 数据的实时计算
在这种业务场景中，用户并不要求基准数据的实时更新，但是要求每次查询数据都能够快速响应。需要 Presto 和 Hive 配合使用来满足实际的业务需求。每天凌晨通过azkaban 调度 Hive 脚本，根据前一天的数据计算生成中间结果表，生成完毕之后使用 Presto 查询中间结果表，得出用户最终所需要的数据。满足该业务场景的解决方案如下图：

2、基于 RDBMS 的实时计算
在这种业务场景中，用户要求查询的数据完全实时，即只要业务库中的数据发生改变，通过 Presto 查询的时候，就可以查询到刚刚改变之后的数据。要达到这个效果，我们需要使用合理的机制保证数据实时同步，因此我们使用数据库复制技术，为线上的业务数据库建立实时同步的从库，然后用 Presto 查询数据库中的数据，进而进行计算（请注意：使用官方的 Presto 直接读取数据库的性能还太低，因此建议使用JD-Presto 中的 PDBO 从数据库中读取数据并进行计算）。满足该业务场景的解决方案如下图：