记Solaris下一个rac 异常hang故障

2023-11-03 00:04
文章标签 异常 故障 rac hang solaris

本文主要是介绍记Solaris下一个rac 异常hang故障,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

故障现象

rac 某一节点hang住,另一节点也不可用,重启hang住节点恢复。该故障出现了多次,平均1月出现一次。

故障原因

查看cssd.log

2021-05-22 13:53:50.565: [GIPCXCPT][5] gipclibMalloc: failed to allocate 10376 bytes, cowork ffffffff7cae18e8, ret gipcretOutOfMemory (28)
2021-05-22 13:53:50.566: [GIPCXCPT][5] gipcmodNetworkAttrEndpUserData: failed to read osd id for endp 104f9c390 [00000000095fea12] { gipcEndpoint : localAddr 'clsc://(ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_hnyx-db1_)(GIPCID=00000000-00000000-1516))', remoteAddr 'clsc://(ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_hnyx-db1_)(GIPCID=00000000-00000000-0))', numPend 0, numReady 0, numDone 1, numDead 0, numTransfer 0, objFlags 0x0, pidPeer 0, readyRef 100b84550, ready 1, wobj 104f35490, sendp 104e50050flags 0x8060371e, usrFlags 0x14000 }
2021-05-22 13:53:50.566: [GIPCXCPT][5] gipcmodNetworkAttrEndpUserData: slos op  :  sgipcnDSAttrEndpUserData
2021-05-22 13:53:50.566: [GIPCXCPT][5] gipcmodNetworkAttrEndpUserData: slos dep :  Operation not supported (48)
2021-05-22 13:53:50.566: [GIPCXCPT][5] gipcmodNetworkAttrEndpUserData: slos loc :  getpeerucred
2021-05-22 13:53:50.566: [GIPCXCPT][5] gipcmodNetworkAttrEndpUserData: slos info:  sid 0, failed to get creds
2021-05-22 13:53:50.585: [    CSSD][5]###################################
2021-05-22 13:53:50.585: [    CSSD][5]clssscExit: CSSD signal 11 in thread GMClientListener
2021-05-22 13:53:50.585: [    CSSD][5]###################################
2021-05-22 13:53:50.585: [    CSSD][5](:CSSSC00012:)clssscExit: A fatal error occurred and the CSS daemon is terminating abnormally
2021-05-22 13:53:50.586: [    CSSD][5]----- Call Stack Trace -----
2021-05-22 13:53:50.586: [    CSSD][5]calling              call     entry                argument values in hex
2021-05-22 13:53:50.586: [    CSSD][5]location             type     point                (? means dubious value)
2021-05-22 13:53:50.586: [    CSSD][5]-------------------- -------- -------------------- ----------------------------
2021-05-22 13:53:50.635: [    CSSD][5]mmap(offset=3137536, len=8192) failed with errno=11 for the file /export/home/grid/bin/ocssd.bin
2021-05-22 13:53:50.636: [    CSSD][5]mmap(offset=3137536, len=8192) failed with errno=11 for the file /export/home/grid/bin/ocssd.bin
2021-05-22 13:53:50.636: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.636: [    CSSD][5]mmap(offset=50946048, len=16384) failed with errno=11 for the file /export/home/grid/lib/libclntsh.so.11.1
2021-05-22 13:53:50.636: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.637: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.637: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.637: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.637: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.637: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.637: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.637: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.638: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.638: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.638: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.638: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.638: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.638: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.639: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.639: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.639: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so
2021-05-22 13:53:50.639: [    CSSD][5]mmap(offset=16818176, len=8192) failed with errno=11 for the file /export/home/grid/lib/libhasgen11.so

注意:2021-05-22 13:53:50.565: [GIPCXCPT][5] gipclibMalloc: failed to allocate 10376 bytes, cowork ffffffff7cae18e8, ret gipcretOutOfMemory (28)

对比对比故障现象,查找mos最接近为Document 2113841.1,gipcd stack内存不足。

但是 Document 2113841.1是aix环境。该环境为solaris。决定死马当活马医。

解决办法

Document 2113841.1文档中该故障解决为,解除相关limits的限制,包括grid与root用户

查询到root下stack的值偏小(8192),不是无限制,建议对其进行修改

故障解决,未再出现。

学习原理,积累工具。孵化思路,下笔有道。

这篇关于记Solaris下一个rac 异常hang故障的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/334206

相关文章

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

Python中异常类型ValueError使用方法与场景

《Python中异常类型ValueError使用方法与场景》:本文主要介绍Python中的ValueError异常类型,它在处理不合适的值时抛出,并提供如何有效使用ValueError的建议,文中... 目录前言什么是 ValueError?什么时候会用到 ValueError?场景 1: 转换数据类型场景

Spring中Bean有关NullPointerException异常的原因分析

《Spring中Bean有关NullPointerException异常的原因分析》在Spring中使用@Autowired注解注入的bean不能在静态上下文中访问,否则会导致NullPointerE... 目录Spring中Bean有关NullPointerException异常的原因问题描述解决方案总结

Python中的异步:async 和 await以及操作中的事件循环、回调和异常

《Python中的异步:async和await以及操作中的事件循环、回调和异常》在现代编程中,异步操作在处理I/O密集型任务时,可以显著提高程序的性能和响应速度,Python提供了asyn... 目录引言什么是异步操作?python 中的异步编程基础async 和 await 关键字asyncio 模块理论

详解Python中通用工具类与异常处理

《详解Python中通用工具类与异常处理》在Python开发中,编写可重用的工具类和通用的异常处理机制是提高代码质量和开发效率的关键,本文将介绍如何将特定的异常类改写为更通用的ValidationEx... 目录1. 通用异常类:ValidationException2. 通用工具类:Utils3. 示例文

Nacos客户端本地缓存和故障转移方式

《Nacos客户端本地缓存和故障转移方式》Nacos客户端在从Server获得服务时,若出现故障,会通过ServiceInfoHolder和FailoverReactor进行故障转移,ServiceI... 目录1. ServiceInfoHolder本地缓存目录2. FailoverReactorinit

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

Thymeleaf:生成静态文件及异常处理java.lang.NoClassDefFoundError: ognl/PropertyAccessor

我们需要引入包: <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId></dependency><dependency><groupId>org.springframework</groupId><artifactId>sp