数据库管理-第五十四期 春节俩故障(20230128)

2023-10-18 04:10

本文主要是介绍数据库管理-第五十四期 春节俩故障(20230128),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据库管理 2023-01-28

  • 第五十四期 春节俩故障
    • 1 19.13 bug 32076305
    • 2 19.15 CSS
    • 总结

第五十四期 春节俩故障

虽然春节期间除了年三十的现场值班和远程值班,没啥事的,结果还是处理了俩故障,今天上工,分析一下。

1 19.13 bug 32076305

大年初四刚过12点,正在关机准备睡觉,收到短信告警,X8M那套一体机一个实例出现LMHB进程异常和ORA 29770报错,随即开机检查,发现该节点数据库实例已完成重启,检查告警日志发现以下内容:

<msg time='2023-01-24T23:59:13.065+08:00' org_id='oracle' comp_id='rdbms'
type='UNKNOWN' level='16' host_id='xxxdbadm01.xxx.com'
host_addr='10.110.187.98' pid='313846' con_uid='1'
con_id='1' con_name='CDB$ROOT'>
<txt>LMD0 (ospid: 313601) has not called a wait for 88 secs.
</txt>
</msg>
<msg time='2023-01-24T23:59:15.290+08:00' org_id='oracle' comp_id='rdbms'
msg_id='3469116049' type='INCIDENT_ERROR' level='1'
host_id='xxxdbadm01.xxx.com' host_addr='10.110.187.98' pid='313846'
prob_key='ORA 29770' downstream_comp='LMHB' errid='648350'
detail_path='/u01/app/oracle/diag/rdbms/xxdbaas/xxdbaas1/trace/xxdbaas1_lmhb_313846.trc' con_uid='1' con_id='1'
con_name='CDB$ROOT'>
<txt>Errors in file /u01/app/oracle/diag/rdbms/xxdbaas/xxgdbaas1/trace/xxdbaas1_lmhb_313846.trc (incident=648350) (PDBNAME=CDB$ROOT):
ORA-29770: global enqueue process LMD0 (OSID 313601) is hung for more than 70 seconds
</txt>
<arg name='PDBNAME' value='CDB$ROOT'/>
</msg>
<msg time='2023-01-24T23:59:15.291+08:00' org_id='oracle' comp_id='rdbms'
msg_id='dbgexProcessError:1328:3370026720' type='TRACE' level='16'
host_id='xxxdbadm01.xxx.com' host_addr='10.110.187.98' pid='313846'
con_uid='1' con_id='1' con_name='CDB$ROOT'>
<txt>Incident details in: /u01/app/oracle/diag/rdbms/xxdbaas/xxdbaas1/incident/incdir_648350/xxdbaas1_lmhb_313846_i648350.trc
</txt>

global enqueue process LMD0进程夯死造成了实例重启,还好23:59:13实例中断,23:59:32完成重启,重启只花了19s,没有影响到业务,特别是12点即将开始大一大堆跑批。随即收集日志,半夜开1级非7*24SR,并通知后台熟人看看能不能接单(是谁老读者肯定知道,当然是第二天接到了)。
第二天经过后台排查,匹配到一个BUG:Bug 32076305 - ORA-29770 LMD has no heartbeats - LMD Stack is in kjr_freeable_chunk_free (Doc ID 32076305.8)
在这里插入图片描述
这个bug影响19.4、8、10-13这几个版本,在19.13.2及19.14以后修复,如果各位在生产中遇到了,请及时排查并应用该BUG的补丁。

2 19.15 CSS

这个事情也是25日中午发生,是另外个省一套19.15的双节点RAC,一个节点(节点2)操作系统重启了,我是作为操作系统方面的补充看看数据库的问题。老规矩收日志,重启是11:43-11:44之间发生的:

  • 节点2数据库日志
    首先数据库日志显示数据库从11:27:59就开始无法响应外部连接请求。数据库于12:04:28开始启动数据库实例,并于12:05:21完成数据库启动
  • 节点2CRS日志
    从1月19日就出现节点ASM资源失败、CSS无响应的现象,并持续出现私网连接异常超时的报错知道出现故障之前1月25日11:04:18后停止了日志输出。
    这里还有个小插曲,12:28:24集群跟随操作系统启动开始启动,12:04:26完成启动,这里用的NTP作为时间同步,大概率是NTP启动晚于GI启动,时间同步后也没有做一次时间同步硬件的操作。
  • 节点1CRS日志
    在这里插入图片描述

节点1是接到节点2的cssdagent和oracssdmonitor异常的通知,需要重启,节点2被驱逐出集群的记录。时间也与客户提供故障时间吻合。加上操作系统、BMC的一些日志也有cssdagent和udev相关的记录,在这里可以确认是因为CSS服务异常引起的故障。

然而当天硬件还发现系统盘中的一块盘也有异常,在操作系统重启后在线更换了。客户那边的DBA资源呢,又说是操作系统侧引起的数据库夯死,数据库是不可能引起操作系统重启的,然而事实是这样的么?我们看看官方文档对CSS服务的解释:
在这里插入图片描述
这里最后一句话明确说明了,cssdagent异常的情况下,可能导致集群重启节点。其实做过RAC高可用测试的都知道,不止是这个进程,还有不少进程异常也会导致集群重启节点操作系统。
客户那边DBA做出上面的陈述原因其实也简单,借用以为大佬说的“正常,从单节点到rac知识体系扩大了三五倍”,可能也有人没去看grid家目录的权限情况。还有呢就是,其实也是上期说过的,这种现象也出现在很多大的服务商里面,数据库的问题是数据库的,操作系统是操作系统的,两边交叉出问题的话,就很难去排查。
由于客户没有MOS账号,我这边也只能自己根据数据库日志、操作系统日志进行排查,结合555.1,找到一个匹配的BUG,更符合这次故障的情况:
在这里插入图片描述
当然这个还需要更进一步的排查。

总结

苦逼的7天班!
老规矩,知道写了些啥。

这篇关于数据库管理-第五十四期 春节俩故障(20230128)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/230076

相关文章

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

SpringBoot使用minio进行文件管理的流程步骤

《SpringBoot使用minio进行文件管理的流程步骤》MinIO是一个高性能的对象存储系统,兼容AmazonS3API,该软件设计用于处理非结构化数据,如图片、视频、日志文件以及备份数据等,本文... 目录一、拉取minio镜像二、创建配置文件和上传文件的目录三、启动容器四、浏览器登录 minio五、

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

IDEA中的Kafka管理神器详解

《IDEA中的Kafka管理神器详解》这款基于IDEA插件实现的Kafka管理工具,能够在本地IDE环境中直接运行,简化了设置流程,为开发者提供了更加紧密集成、高效且直观的Kafka操作体验... 目录免安装:IDEA中的Kafka管理神器!简介安装必要的插件创建 Kafka 连接第一步:创建连接第二步:选

Oracle数据库执行计划的查看与分析技巧

《Oracle数据库执行计划的查看与分析技巧》在Oracle数据库中,执行计划能够帮助我们深入了解SQL语句在数据库内部的执行细节,进而优化查询性能、提升系统效率,执行计划是Oracle数据库优化器为... 目录一、什么是执行计划二、查看执行计划的方法(一)使用 EXPLAIN PLAN 命令(二)通过 S