甘道夫专题

【甘道夫】Hive0.13.1图形界面HWI尝鲜

引言 HIVE的操作接口除了常用的CLI之外,还有图形界面HWI,今天尝试了下HWI,特此记录供以后参考。 过程 apache-hive-0.13.1-bin.tar.gz  的 lib 目录默认不包含 hive-hwi-0.13.1.war,我们需要到源码包中获取HWI。 (1)将源码包 apache-hive-0.13.1-src.tar.gz 下载到本

【甘道夫】Win7+Eclipse+Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行

引言 之前成功在服务器上为Mahout0.9打patch,使其支持Hadoop2.2.0。 今天的需求是:在Win7+Eclipse+Maven环境下开发Mahout程序,打jar包放到集群上,使其在Hadoop2.2.0下正常运行。 过程 步骤一:Eclipse下创建Maven工程 pom.xml: 1.引入mahout依赖     <d

【甘道夫】Mahout推荐算法编程实践

引言 Taste是曾经风靡一时的推荐算法框架,后来被并入 Mahout中,Mahout的部分推荐算法基于Taste实现。 下文介绍基于Taste实现最常用的UserCF和ItemCF。 本文不涉及 UserCF和ItemCF算法的介绍,这方面网上资料很多,本文仅介绍如何基于Mahout编程实现。 欢迎转载,请注明来源: http://blog.csdn.n

【甘道夫】用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0

引言 接前一篇文章《 【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0》 http://blog.csdn.net/u010967382/article/details/39088035, 为Mahout0.9打过Patch编译成功后,使用贝叶斯文本分类来测试Mahout0.9对Hadoop2.2.0的兼容性。 欢迎转载,转载请注明出处:

【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0

引言 Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本,但很多情况下,由于集群环境的Hadoop已经是2.2.0以上版本,又必须使用Mahout,此时就需要编译源码,使得Mahout支持Hadoop2了。 欢迎转载,请注明出处: http://blog.csdn.net/u010967382/article/details/39088035

【甘道夫】实现Hive数据同步更新的shell脚本

引言: 上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表 》 http://blog.csdn.net/u010967382/article/details/38735381  描述了增量更新Hive表的原理和Sqoop,Hive命令, 本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用

【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表

需求 将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。 ***欢迎转载,请注明来源***    http://blog.csdn.net/u010967382/article/details/38735381 设计 涉及的三张表: 全量表:保存了截止上一次同步时间的全量基础数据表 增量表:增量临时表

【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详解

环境: hadoop2.2.0 hive0.13.1 Ubuntu 14.04 LTS java version "1.7.0_60" Oracle10g ***欢迎转载,请注明来源***    http://blog.csdn.net/u010967382/article/details/38709751 到以下地址下载安装包

【甘道夫】HBase连接池 -- HTablePool被Deprecated之后

说明: 最近两天在调研HBase的连接池,有了一些收获,特此记录下来。 本文先将官方文档(http://hbase.apache.org/book.html)9.3.1.1节翻译,方便大家阅读,然后查阅了关键类HConnectionManager的Developer API( http://hbase.apache.org/devapidocs/index.html) 做了一些总结。

【甘道夫】HBase基本数据操作详解【完整版,绝对精品】

引言 之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上。 本文档 参考最新 (截止2014年7月16日)的 官方 Ref Guide、 Developer API编写 。 所有代码均基于“hbase  0.96.2-hadoop2 ”版本编写,均实测通过。 欢迎转载,请注明来源: http://blog.csdn.net/u0109

【甘道夫】Mapreduce实现矩阵乘法的算法思路

大数据计算中经常会遇到矩阵乘法计算问题,所以Mapreduce实现矩阵乘法是重要的基础知识,下文我尽量用通俗的语言描述该算法。         1.首先回顾矩阵乘法基础          矩阵A和B可以相乘的前提是,A的列数和B的行数相同,因为乘法结果的矩阵C中每一个元素Cij,是A的第i行和B的第j列做点积运算的结果,参见下图: