实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

本文主要是介绍实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。

在阅读本文前,强烈建议阅读原书“实现数据分析工具模块”章节和本人博客系列之实战hadoop海量数据处理系列02: hql执行工具

本文的代码同步于https://github.com/titer1/Play_HadoopFelix

目标

目标确保python封装hql执行工具在Linux上面能够正常运行。

大纲

  • 准备工作
  • python开发遇到的问题
  • map reduce排除故障的思考
  • hql工具在linux运行的情况
  • 其他关于整个项目部署的阶段思考
    读者朋友可以根据自己的需要选择阅读,希望开卷有益。

1 准备工作

环境依赖上, 只需要hive正常安装,并且hive数据仓库有至少一个数据库。所以读者朋友不一定使用我们前面章节的Orders表等。

确定数据库后,就可以将自己需要的相关Hql语句放在工程的Query.xml里面

1.1 相关脚本的跨平台支持

  • 环境相关的变量全部要做跨平台的支持。这里就要更新之前的pro_env.py
windows下面的文件路径和linux下面是不一致的,文件路径中的分割符也是不一致的。
  • 匹配python软件包的搜索策略
windows平台下软件包被eclipse进行托管,不用担心;
但是linux,需要显示的告诉解释器包在哪儿,这里主要的改动就是在查询主函数hql_exe.py
  • python脚本的修改尽量在linux上进行
开发过程中,遇到python脚本格式的问题。
从windows的文本编辑器Notepad++中看,没有任何问题,但是linux上面就是报格式问题。
折腾半小时后,用vi查看对应脚本,果然是windows上面的对齐在linux下没有生效。
一句话,跨平台编写Python脚本,选好编辑器是第一步

2 python脚本排错插曲

在windows上模拟端运行好好的python程序,在Linux命令行下面不一定正常使用。
幸好python调试器很容易上手,调试的命令和gdb没有大的差异,这帮了我很大的忙。
此时懂Python调试将会帮上很大的忙。在这个项目中,我遇到如下问题

  • 2.1 包找不到
这里细节已经说明,就是要把当前工程路径加入Python搜索的路径中,解决方法如下:
sys.path.append(os.path.abspath('../../'))
  • 2.2 xml配置文件找不到
这是一个非常基本的问题,在执行完hive命令后,告知脚本找不到,路径关键词含有hivebin,我在本工程文件夹和hive配置文件夹寻找,都没有找到。差不多一个小时后,发现xml文件路径是代码合成的,问题出在路径拼接环节,原始字符串有问题。根本原因是环境配置的变量没有及时更新。所以细心的准备环境是很有必要的。
  • 2.3 在xml配置文件找不到时,返回乱码的异常提示
简单来说是编码问题,源于初始代码中的异常是中文写的,即使在python2代码显式说明utf8编码,依然无效,。当前这个问题还没有解决,我暂时把异常说明更新为英文,读者朋友有好的建议,可以留言告知。
  • 2.4 没有报错,但是一直没有结果输出
原始代码,使用命令封装函数执行hive执行,封装命令使用了终端静默模式(-S)。为了调试,我打开了静默模式,但是依然没有任何改进

在确认问题不是Python引起后,我把目光转移到map reduce上面

2 map reduce 排错插曲

现象是本工具中执行 select count(*) from users特别的慢,一直没有输出。

2.1尝试直接在hive命令行中执行

问题和python触发执行时一样,排除是python工具问题,在Hive的命令行输出只看到reducer数目的分配,看不到其他下文

更多思考
其实hive在0.13版本后,所有的job日志都放在 /tmp/root/hive.log,关于task运行异常的细节可以在此查看。

2.2 尝试运行hadoop经典列子wordcount

先看下错误现象

ERROR [main]: ql.Driver (SessionState.java:printError(569)) - FAILED: Execut        ion Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exce        ption: java.net.ConnectException Call From sparkproject1/192.168.18.107 to sparkproject1:9000 failed         on connection exception: java.net.ConnectException: Connection refused; For more details see:  http        ://wiki.apache.org/hadoop/ConnectionRefused)

故障现象更近一步,从命令行log中看到driver不断的去连接某服务器,但是没有结果。细心一看,而该服务器对应的ip不是我期望的,问题出现眉目,原来host文件没有随网络环境进行更新。

在更新host文件后,依然没有触发任务,此时报连接resource manager错误,ip是正常的。

我忽然想到yarn服务没有启动。

在重启hadoop和启动yarn服务后,任务得到期望执行。

3 运行情况

[root@sparkproject1 cal]# python exe_hql.linux.py 
success
['17/06/09 09:27:45 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect.  Use hive.hmshandler.retry.* instead', '1\tstr1', '2\tstr2', '3\tstr3', '3\tstr31', '3\tstr33', '4\tstr41', '4\tstr42']

问题的输出很简洁,需要了解详情的读者,请直接取最新的代码。

1分钟运行动态图

4 其他的心得

这里心得不仅仅在本章,也有前章数据库的设计上

4.1 代码异常方面

初期的代码中队所有的异常没有进行分类,导致一出错,不能快速定位

4.2 更新随机生成数据集的方法

随机数其实可以展开为取到随机不重复的值,取到某区间的随机值。
之前生成能实现的方法不是特别适合我们当前的环境,最好随机力度是以天为单位,新版本函数已经得到更新

4.3 存储过程很容易掉进过期的坑

过期的存储往往会打乱开发节凑,不知道有没有好的规避方法

4.4 数据维护方面

每一次删除Orders表,由于存在外键依赖,如果不接触外键检查的选项,系统会提示删除失败。
多trucate表,而不是drop后重建,尽量避免数据损失。

4.5 本地Mysql数据库的远程访问

记得为远程用户提供权限访问。访问。问。

小结

这是一篇记录排除bug的博文,读者可以根据兴趣选择章节查看。谢谢

这篇关于实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/894384

相关文章

从零教你安装pytorch并在pycharm中使用

《从零教你安装pytorch并在pycharm中使用》本文详细介绍了如何使用Anaconda包管理工具创建虚拟环境,并安装CUDA加速平台和PyTorch库,同时在PyCharm中配置和使用PyTor... 目录背景介绍安装Anaconda安装CUDA安装pytorch报错解决——fbgemm.dll连接p

Vue项目的甘特图组件之dhtmlx-gantt使用教程和实现效果展示(推荐)

《Vue项目的甘特图组件之dhtmlx-gantt使用教程和实现效果展示(推荐)》文章介绍了如何使用dhtmlx-gantt组件来实现公司的甘特图需求,并提供了一个简单的Vue组件示例,文章还分享了一... 目录一、首先 npm 安装插件二、创建一个vue组件三、业务页面内 引用自定义组件:四、dhtmlx

使用Python创建一个能够筛选文件的PDF合并工具

《使用Python创建一个能够筛选文件的PDF合并工具》这篇文章主要为大家详细介绍了如何使用Python创建一个能够筛选文件的PDF合并工具,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录背景主要功能全部代码代码解析1. 初始化 wx.Frame 窗口2. 创建工具栏3. 创建布局和界面控件4

一文详解如何在Python中使用Requests库

《一文详解如何在Python中使用Requests库》:本文主要介绍如何在Python中使用Requests库的相关资料,Requests库是Python中常用的第三方库,用于简化HTTP请求的发... 目录前言1. 安装Requests库2. 发起GET请求3. 发送带有查询参数的GET请求4. 发起PO

Python与DeepSeek的深度融合实战

《Python与DeepSeek的深度融合实战》Python作为最受欢迎的编程语言之一,以其简洁易读的语法、丰富的库和广泛的应用场景,成为了无数开发者的首选,而DeepSeek,作为人工智能领域的新星... 目录一、python与DeepSeek的结合优势二、模型训练1. 数据准备2. 模型架构与参数设置3

Java中的Cursor使用详解

《Java中的Cursor使用详解》本文介绍了Java中的Cursor接口及其在大数据集处理中的优势,包括逐行读取、分页处理、流控制、动态改变查询、并发控制和减少网络流量等,感兴趣的朋友一起看看吧... 最近看代码,有一段代码涉及到Cursor,感觉写法挺有意思的。注意是Cursor,而不是Consumer

linux打包解压命令方式

《linux打包解压命令方式》文章介绍了Linux系统中常用的打包和解压命令,包括tar和zip,使用tar命令可以创建和解压tar格式的归档文件,使用zip命令可以创建和解压zip格式的压缩文件,每... 目录Lijavascriptnux 打包和解压命令打包命令解压命令总结linux 打包和解压命令打

Node.js net模块的使用示例

《Node.jsnet模块的使用示例》本文主要介绍了Node.jsnet模块的使用示例,net模块支持TCP通信,处理TCP连接和数据传输,具有一定的参考价值,感兴趣的可以了解一下... 目录简介引入 net 模块核心概念TCP (传输控制协议)Socket服务器TCP 服务器创建基本服务器服务器配置选项服

Docker部署Jenkins持续集成(CI)工具的实现

《Docker部署Jenkins持续集成(CI)工具的实现》Jenkins是一个流行的开源自动化工具,广泛应用于持续集成(CI)和持续交付(CD)的环境中,本文介绍了使用Docker部署Jenkins... 目录前言一、准备工作二、设置变量和目录结构三、配置 docker 权限和网络四、启动 Jenkins

Java实战之利用POI生成Excel图表

《Java实战之利用POI生成Excel图表》ApachePOI是Java生态中处理Office文档的核心工具,这篇文章主要为大家详细介绍了如何在Excel中创建折线图,柱状图,饼图等常见图表,需要的... 目录一、环境配置与依赖管理二、数据源准备与工作表构建三、图表生成核心步骤1. 折线图(Line Ch