phoenix实战(hadoop2、hbase0.96)

2024-05-03 23:38

本文主要是介绍phoenix实战(hadoop2、hbase0.96),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

版本:

phoenix:2.2.2,可以下载源码(https://github.com/forcedotcom/phoenix/tree/port-0.96)自己编译,或者从这里下载(http://download.csdn.net/detail/fansy1990/7146479、http://download.csdn.net/detail/fansy1990/7146501)。

hadoopp:hadoop2.2.0

hbase:hbase-0.96.2-hadoop2。

首先把hbase和hadoop2 配置好,hadoop2就不多少了,配置的是伪分布式的yarn方式。hbase配置的是伪分布式,并且使用自带的zookeeper(默认端口2181)。

hbase的配置文件如下:

hbase-site.xml:

[html]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. <configuration>  
  2.     <property>  
  3.         <name>hbase.rootdir</name>  
  4.         <value>hdfs://node31:9000/hbase</value>  
  5.     </property>  
  6.     <property>  
  7.         <name>hbase.cluster.distributed</name>  
  8.         <value>true</value>  
  9.     </property>  
  10.     <property>  
  11.         <name>hbase.zookeeper.quorum</name>  
  12.         <value>node31</value>  
  13.     </property>  
  14.     <property>  
  15.         <name>hbase.zookeeper.property.dataDir</name>  
  16.         <value>/var/zookeeper</value>  
  17.     </property>  
  18.     <property>  
  19.         <name>dfs.replication</name>  
  20.         <value>1</value>  
  21.     </property>  
  22. </configuration>  
下载phoenix2.2 的压缩包,然后解压缩。

1. 把$PHOENIX_HOME/target/phoenix-2.2.0-SNAPSHOT.jar 文件拷贝到$HBASE_HOME/lib/下面,重启hbase。

2. 把 $HBASE_HOME/conf/hbase-site.xml文件拷贝到$PHOENIX_HOME/bin/下面,替换原来的文件。

三种操作方式:

1.  sqlline方式:

进入$PHOENIX_HOME/bin 输入:./sqlline.sh node31:2181 ,其中node31:2181是zookeeper的地址;然后就是命令行了,如下:


2. psql方式:

2.1 新建表:

命令:./psql.sh node31:2181 ../examples/stock_symbol.sql  , 其中 ../examples/stock_symbol.sql是建表的sql语句,如下:

[sql]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. CREATE TABLE IF NOT EXISTS WEB_STAT (  
  2.      HOST CHAR(2) NOT NULL,  
  3.      DOMAIN VARCHAR NOT NULL,  
  4.      FEATURE VARCHAR NOT NULL,  
  5.      DATE DATE NOT NULL,  
  6.      USAGE.CORE BIGINT,  
  7.      USAGE.DB BIGINT,  
  8.      STATS.ACTIVE_VISITOR INTEGER  
  9.      CONSTRAINT PK PRIMARY KEY (HOST, DOMAIN, FEATURE, DATE)  
  10. );  
2.2 导入数据:

命令:./psql.sh -t WEB_STAT node31:2181 ../examples/web_stat.csv  , 其中 -t 后面是表名, ../examples/web_stat.csv 是csv数据(注意数据的分隔符需要是逗号)。

首先使用sqlline查看:


从上面的数据可以看到倒数第一、二条数据的primary key是一样的,primary key是作为hbase的row key的,应该是不一样的。所以这样肯定是有问题的,看原始数据:


可以看到这两个记录是不相同的,所以是可以插入的,不过只是在sqlline中并没有全部显示DATE的全部而已。

在Hbase中查看表数据:


这里可以看到在建表语句中使用USAGE.CORE就说明USAGE是一个family,而CORE则是它的一个列。

2.3 查询:命令:./psql.sh -t WEB_STAT node31:2181 ../examples/web_stat_queries.sql (或者./psql.sh -t WEB_STAT node31:2181 ../examples/web_stat_queries.sql > result.txt  ,这样是把查询的数据保存到文件而已)

查询的结果如下:

[plain]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. DOMAIN     AVERAGE_CPU_USAGE AVERAGE_DB_USAGE   
  2. ---------- ----------------- ----------------   
  3. Salesforce.com          260.7272         257.6363   
  4. Google.com           212.875           213.75   
  5. Apple.com           114.1111         119.5555   
  6. Time: 0.087 sec(s)  
  7.   
  8. DAY                 TOTAL_CPU_USAGE MIN_CPU_USAGE MAX_CPU_USAGE   
  9. ------------------- --------------- ------------- -------------   
  10. 2013-01-01 00:00:00              35            35            35   
  11. 2013-01-02 00:00:00             150            25           125   
  12. 2013-01-03 00:00:00              88            88            88   
  13. 2013-01-04 00:00:00              26             3            23   
  14. 2013-01-05 00:00:00             550            75           475   
  15. 2013-01-06 00:00:00              12            12            12   
  16. 2013-01-08 00:00:00             345           345           345   
  17. 2013-01-09 00:00:00             390            35           355   
  18. 2013-01-10 00:00:00             345           345           345   
  19. 2013-01-11 00:00:00             335           335           335   
  20. 2013-01-12 00:00:00               5             5             5   
  21. 2013-01-13 00:00:00             355           355           355   
  22. 2013-01-14 00:00:00               5             5             5   
  23. 2013-01-15 00:00:00             720            65           655   
  24. 2013-01-16 00:00:00             785           785           785   
  25. 2013-01-17 00:00:00            1590           355          1235   
  26. Time: 0.246 sec(s)  
  27.   
  28. HOST TOTAL_ACTIVE_VISITORS   
  29. ---- ---------------------   
  30. EU                     150   
  31. NA                       1   
  32. Time: 0.37 sec(s)  

3. csv-bulk-loader.sh方式:

首先把phoenix jar包拷贝的hadoop lib目录:cp /opt/phoenix-port-0.96/target/phoenix-2.2.0-SNAPSHOT.jar /opt/hadoop2/share/hadoop/common/lib/

这种方式的使用参数:

[plain]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. Usage: csv-bulk-loader <option value>  
  2. Note: phoenix-[version].jar needs to be on Hadoop classpath on each node  
  3.   
  4. <option>  <value>  
  5. -i        CSV data file path in hdfs (mandatory)  
  6. -s        Phoenix schema name (mandatory if not default)  
  7. -t        Phoenix table name (mandatory)  
  8. -sql      Phoenix create table sql file path (mandatory)  
  9. -zk       Zookeeper IP:<port> (mandatory)  
  10. -mr       MapReduce Job Tracker IP:<port> (mandatory)  
  11. -hd       HDFS NameNode IP:<port> (mandatory)  
  12. -o        Output directory path in hdfs (optional)  
  13. -idx      Phoenix index table name (optional, not yet supported)  
  14. -error    Ignore error while reading rows from CSV? (1-YES | 0-NO, default-1) (optional)  
  15. -help     Print all options (optional)  
额,由于一定要提供一个mr,所以可能这种方式只能适用于hadoop1了。

另外经过试验,./psql.sh -t WEB_STAT node31:2181 hdfs://node31:9000/input/web_stat.csv 这种方式也是不行的,所以数据暂时不能从hdfs到hbase了。

不过,看到 java -cp "$phoenix_client_jar" com.salesforce.phoenix.map.reduce.CSVBulkLoader "$@" 这个,那么或许可以修改 CSVBulkLoader的源码,然后让其支持这个操作,同时-sql,应该也是可选项来的,而不应该是必选项。这两天试着改改好了。(虽说,phoenix高版本肯定是已经做了这个,不过如果个人修改的话,应该也可以增加点编程能力)


分享,成长,快乐

转载请注明blog地址:http://blog.csdn.net/fansy1990

这篇关于phoenix实战(hadoop2、hbase0.96)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/957903

相关文章

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程

《在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程》本文介绍了在Java中使用ModelMapper库简化Shapefile属性转JavaBean的过程,对比... 目录前言一、原始的处理办法1、使用Set方法来转换2、使用构造方法转换二、基于ModelMapper

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前

nginx-rtmp-module构建流媒体直播服务器实战指南

《nginx-rtmp-module构建流媒体直播服务器实战指南》本文主要介绍了nginx-rtmp-module构建流媒体直播服务器实战指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. RTMP协议介绍与应用RTMP协议的原理RTMP协议的应用RTMP与现代流媒体技术的关系2

C语言小项目实战之通讯录功能

《C语言小项目实战之通讯录功能》:本文主要介绍如何设计和实现一个简单的通讯录管理系统,包括联系人信息的存储、增加、删除、查找、修改和排序等功能,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录功能介绍:添加联系人模块显示联系人模块删除联系人模块查找联系人模块修改联系人模块排序联系人模块源代码如下

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库