本文主要是介绍大数据-之LibrA数据库系统告警处理(ALM-37006 Coordinator进程异常),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
告警解释
当出现如下情况时,产生该告警:
- CN所在机器发生硬件故障(断电、硬盘损坏等)。
- CN实例数据目录中的postgresql.conf配置文件不存在或者其中某个配置参数不正确。
- CN实例线程无法监听IP,或者无法绑定监听端口。
- CN实例进程没有其数据目录读写权限、或数据目录丢失。
- 绑定CN实例的虚拟IP异常。
告警属性
告警ID | 告警级别 | 可自动清除 |
---|---|---|
37006 | 严重 | 否 |
告警参数
参数名称 | 参数含义 |
---|---|
ServiceName | 产生告警的服务名称 |
RoleName | 产生告警的角色名称 |
HostName | 产生告警的主机名 |
Instance | 产生告警的实例 |
对系统的影响
当CN实例启动失败时,集群将提示启动失败,数据库系统将无法使用DDL语句,DML可以正常使用。
一段时间后(约5分钟),系统会自动将故障CN剔除,此时用gs_om -t status --detail命令查询到故障CN节点状态为Deleted。此时可以正常使用DDL语句,和DML语句。
注意:
此时不要直接重启MPPDB服务。请按照“处理步骤”中描述操作。
可能原因
- CN所在机器发生硬件故障(断电、硬盘损坏等)。
- CN实例数据目录中的postgresql.conf配置文件不存在或者其中某个配置参数不对。
- CN实例线程无法监听IP,或者无法绑定监听端口。
- CN实例进程没有其数据目录读写权限、或数据目录丢失。
- 绑定CN实例的虚拟IP异常。
处理步骤
- 告警产生后等待5分钟,查看告警是否仍然存在。
- 是,执行2。
- 否,处理完毕。
- 以omm用户身份登录LibrA服务器,执行source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile命令启动环境变量。执行以下命令查询并确认故障节点CN状态是否为Deleted。
gs_om -t status --detail
- 是,执行3。
- 否,执行9。
- 登录FusionInsight Manager,选择“服务管理 > MPPDB”。单击“实例”,在实例列表中选择故障节点对应的MPPDBServer。
- 单击“实例配置”,“参数类别”类型设置为“全部配置”,在搜索框中输入参数名称“mppdb.coo.number”进行搜索。
- 将“mppdb.coo.number”的值设置为0,单击“保存配置”。
- 在弹出窗口中,单击“确定”。界面提示“操作成功”,单击“完成”,查看操作是否成功执行。
- 是,故障CN删除完毕,手动在界面清除CN进程异常告警。
- 否,执行9。
- (可选)恢复故障节点的CN,重复步骤3~4,将“mppdb.coo.number”的值设置为1,单击“保存配置”。
- (可选)在弹出窗口中,单击“确定”。界面提示“操作成功”,单击“完成”,查看操作是否成功执行。
- 是,CN增加完毕。
- 否,执行9。
- 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
- 在“服务”下拉框中勾选“MPPDB”,单击“确定”。
- 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
这篇关于大数据-之LibrA数据库系统告警处理(ALM-37006 Coordinator进程异常)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!