Nodemanager Unhealthy(exit code :143/35)

2023-10-28 17:59

本文主要是介绍Nodemanager Unhealthy(exit code :143/35),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

现象

CDH6.2.1版本,生产环境,通过cm页面发现yarn告警,提示Nodemanager Health Checker Bad,检查yarn前端8088页面,集群可用内存和CPU也相应减少,说明此NM失联不可用,重启NM后恢复正常。并且一个周内同一个数据NM节点出现两次这种情况。

问题定位

首先查找CM agent对NM的监控日志,进入目录:
/var/run/cloudera-scm-agent/process/*-yarn-NODEMAGER/logs/
查看stderr.log文件,发现是报的内存溢出,具体原因还要进一步定位
在这里插入图片描述
再尝试查找yarn的日志,进入目录 :
/var/log/hadoop-yarn/
查看对应日期的log文件,在日志里发现了一个问题,就是出现了大量的container报143错误,网上查了一下很多都说是内存不足。
在这里插入图片描述
一开始以为就是这个原因导致的NM不可用,但是仔细一想,这个143是container的报错,应该不会影响NM啊~
于是,去其他NM节点查看,果然也有很多143的报错,这样的话二者应该就没啥关系了。绞尽脑汁,也没查出来什么问题,只能找cloudera技术支持,怀疑是不是集群哪里配置有问题,但是NM的内存都提升到6G了,按理说够用了。
再查看NM日志,发现还有exit code:35的日志,但是这个报错有点莫名其妙,为什么会导致NM不可用更是摸不着头脑
在这里插入图片描述

结论

经过与cloudera技术人员的反复沟通,上传了一堆日志,最后得出以下几点结论:

  1. 143报错是已知的正常现象。可以看做是Log层面的小bug, 有一种误导人的倾向。已经有内部jira CDH-18221 记录这一现象:
    CDH-18221 Container exits with 143 upon success
    Resolution:Not A Bug
    总体来说整个应用是正常完成的。可以忽略这一143报错现象。
  2. NM不可用,就是因为exit code:35的报错,这是CDH6.2.1上的已知问题YARN-8751
    YARN-8751
    Container-executor permission check errors cause the NM to be marked unhealthy
    参考链接:https://issues.apache.org/jira/browse/YARN-8751
    这个问题已经在CDH 6.3.4 修复,要想解决这个bug只能升级CDH版本。。。
    参考文档:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_634_fixed_issues.html#fixed_in_6.3.4_yarn

这篇关于Nodemanager Unhealthy(exit code :143/35)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/294963

相关文章

『功能项目』战士的平A特效【35】

我们打开上一篇34武器的切换实例的项目, 本章要做的事情是在战士的每次按A键时在指定位置生成一个平A特效 首先将之前下载的技能拖拽至场景中 完全解压缩后重命名为AEffect 拖拽至预制体文件夹 进入主角动画的战士动画层级 双击第一次攻击 选择Animation 创建事件 创建的动画事件帧放在攻击动画挥剑指定处 命名为PerpetualAtt

Debugging Lua Project created in Cocos Code IDE creates “Waiting for debugger to connect” in Win-7

转自 I Installed Cocos Code IDE and created a new Lua Project. When Debugging the Project(F11) the game window pops up and gives me the message waiting for debugger to connect and then freezes. Also a

LLVM入门2:如何基于自己的代码生成IR-LLVM IR code generation实例介绍

概述 本节将通过一个简单的例子来介绍如何生成llvm IR,以Kaleidoscope IR中的例子为例,我们基于LLVM接口构建一个简单的编译器,实现简单的语句解析并转化为LLVM IR,生成对应的LLVM IR部分,代码如下,文件名为toy.cpp,先给出代码,后面会详细介绍每一步分代码: #include "llvm/ADT/APFloat.h"#include "llvm/ADT/S

VS Code 调试go程序的相关配置说明

用 VS code 调试Go程序需要在.vscode/launch.json文件中增加如下配置:  // launch.json{// Use IntelliSense to learn about possible attributes.// Hover to view descriptions of existing attributes.// For more information,

code: 400, msg: Required request body is missing 错误解决

引起这个错误的原因是,请求参数按照get方式给。 应该给json字符串才对 补充: 1. @RequestBody String resource 加@RequestBody必须给json字符串,否则会报错400,记如标题错误。 不加这个的进行请求的话,其实post和get就没有什么区别了。 2. List<String> indexCodes=(List<String>)json.

iOS项目发布提交出现invalid code signing entitlements错误。

1、进入开发者账号,选择App IDs,找到自己项目对应的AppId,点击进去编辑, 2、看下错误提示出现  --Specifically, value "CVYZ6723728.*" for key "com.apple.developer.ubiquity-container-identifiers" in XX is not supported.-- 这样的错误提示 将ubiquity

第143天:内网安全-权限维持自启动映像劫持粘滞键辅助屏保后门WinLogon

案例一: 权限维持-域环境&单机版-自启动 自启动路径加载 路径地址 C:\Users\Administrator\AppData\Roaming\Microsoft\Windows\StartMenu\Programs\Startup\##英文C:\Users\Administrator\AppData\Roaming\Microsoft\Windows\开始菜单\程序\启动\ #

NoSQL数据库的35个应用场景

现在我们站在各个用例的角度上来考虑那种系统适合于这些用例。   你的意见是?   首先,我们要纵览各种数据模型。这些模型的分类方法来自于Emil Eifrem和NoSQL databases。   文档数据库   源起:受Lotus Notes启发。   数据模型:包含了key-value的文档集合   例子:CouchDB, MongoDB   优点:数据模型自然,编

解决服务器VS Code中Jupyter突然崩溃的问题

问题 本来在服务器Anaconda的Python环境里装其他的包,装完了想在Jupyter里写代码验证一下有没有装好,一运行发现Jupyter崩溃了!?报错如下所示 Failed to start the Kernel. ImportError: /home/hujh/anaconda3/envs/mia/lib/python3.12/lib-dynload/_sqlite3.cpython-

王立平--android中让程序终止退出的解决办法 System.exit(0)

System.exit(0); System.exit(0)是将你的整个虚拟机里的内容都停掉了, 而finish()只是退出了activity,并没有退出应用,Application还是存在于内存中的,除非被系统回收。   System.exit(0)是正常退出程序, System.exit(1)或者说非0表示非正常退出程序 System.exit(sta