首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
排障专题
【Java】排障方法论
大神文章的总结。整理人: pierre 文章目录 一、备份现场1、备份应用日志2、记录问题发生的时间3、备份GC日志4、监控基础资源利用率曲线5、获取堆栈快照信息6、Dump内存信息 二、分析问题1、CPU综合CPU利用率高排查思路:优化建议: 单核CPU利用率高排查思路:优化建议 2、内存频繁FULL GC排查思路:定位无法被回收的对象优化建议 内存空间够,依旧触发了Full
阅读更多...
排障思路分析归纳
目录 1、排除法、分组分层法 日常项目问题概述: 例子: 例子1:客户说内网电脑访问不到公网的某一个网站了。 例子2:客户说早上九点内网无法上网,集体断网,过了一会就恢复了,问题原因是什么? 分层法思路总结 分组法总结 2、单一变量法 例子: 例子1:客户说内网电脑微信发图片卡慢,跳过AF就正常,需要协助排查? 例子2:客户反馈安装了EDR后,导致业务软件的图片打不开,需协助
阅读更多...
HCIP-Datacom-ARST自选题库_06_排障【28道题】
一、单选题 1.如果面对复杂的网络故障,并经过评估认为短时间内无法完成排障,而此时用户又急需恢复网络的可用性,那么正确的做法是? 告诉用户这是不可能实现的 不通知客户的情况下,直接搭建替代的网络环境 始终尝试排除故障,不将当前的排邦章难度告知用户 与用户沟通是否可以跳过故障节点搭建替代的网络环境 2.在排除TELNET登录故障时,哪一步是需要优先做的? 检查客户端能否Ping通服务器
阅读更多...
如何使用OSI七层模型的思路进行Linux网络问题排障?
在运维工作中,我们可能经常遇到诸如服务器无法远程连接、网站无法访问等各种网络问题。此时你是否想过,我们常背的OSI七层模型,能在处理这样的实际问题中发挥什么样的作用呢? 基于OSI架构的方法论,我们可以使用自下而上的方法论来进行网络故障排查。 什么是OSI模型 OSI,即开放系统互连(Open Systems Interconnection),该模型是一个概念框架,它将网络通信的功能划分为七
阅读更多...
最佳实践解读:互联网公司线上故障标准化排障流程
线上故障通常是指影响线上服务可用性的问题或者事件,包括服务性能的降低、出现影响用户体验的问题、不同程度的服务不可用等。为了确保服务稳定性和用户体验,线上排障的第一目标是恢复线上服务或者降低影响。随着技术的发展,产生了诸如Google、Amazon、Twitter、淘宝、得物、字节等新兴互联网公司,其业务体量大,系统复杂程度高,时时刻刻服务成千上百万的用户,这都对故障处理的能力和及时性都提出了更高
阅读更多...
运维痛点深度解析:当前排障流程的挑战与局限
在当今互联网时代,运维工作的重要性日益凸显。然而,随着业务规模的不断扩大,运维面临的挑战和痛点也越来越多。本文将深度解析当前排障流程的挑战与局限,提出相应的解决思路,并对未来运维及可观测的发展趋势进行展望,以帮助企业和运维团队更好地应对复杂多变的运维环境,确保业务稳定、高效地运行。 当前排障流程的最大挑战:排障难以标准化 目前在线上故障处置过程中,主要做法主要是跳坑、填坑、踩坑的
阅读更多...
HBase学习五:运维排障之备份与恢复
1 snapshot简介 1.1 发展史 distcp:关机全备份。HBase的所有文件都存储在HDFS上,因此只要使用Hadoop提供的文件复制工具distcp将HBASE目录复制到同一HDFS或者其他HDFS的另一个目录中,就可以完成对源HBase集群的备份工作 copyTable:在线跨集群备份。copyTable工具通过MapReduce程序全表扫描待备份表数据并写入另一个集群。存
阅读更多...
2个区域网络互联后,客户业务中断——排障
免责声明 本文旨在提供信息和解决问题的建议,观点和建议可能不适用于个人情况,仅供参考!!! 文章中所有敏感信息已经修改,对于因本文中提供的信息而导致的任何直接或间接损失或损害不承担责任。 使用本文中的信息和建议,即表示您已阅读、理解并接受本免责声明的条款和条件。 场景说明 故障承接上回ACL实现固定时间访问资源——项目,客户2个区域的网络,本来是分开的,现在需要区域1的PC可以访问区域2
阅读更多...
2个区域网络互联后,客户业务中断——排障
免责声明 本文旨在提供信息和解决问题的建议,观点和建议可能不适用于个人情况,仅供参考!!! 文章中所有敏感信息已经修改,对于因本文中提供的信息而导致的任何直接或间接损失或损害不承担责任。 使用本文中的信息和建议,即表示您已阅读、理解并接受本免责声明的条款和条件。 场景说明 故障承接上回ACL实现固定时间访问资源——项目,客户2个区域的网络,本来是分开的,现在需要区域1的PC可以访问区域2
阅读更多...
排障启示录-无线侧终端丢包
目录 信息收集: 排查步骤: 1、查看终端信号强度,STA与AP的协商速率,终端的发送速率是否存在异常 2、排查信道利用率和信道干扰情况 3、设置接入终端速率限制,限制低速率终端接入网络,提升网络的吞吐率 AP信道利用率高 4、查看是否链路带宽跑满,crc错误报文、网络拥塞丢包情况,交换机光口收发功率 5、AP的cpu利用率过高 6、网络广播域过大 7、终端处在休眠状态 8、
阅读更多...
ElasticSearch 排障常用方法
文章目录 1,集群状态,节点在线情况,集群参数配置2,查看异常索引、分片,分析异常原因,手动分配分片 1,集群状态,节点在线情况,集群参数配置 GET _cluster/health?pretty# {# "cluster_name" : "my-es",# "status" : "green",# "timed_out" : false,# "numb
阅读更多...
阿里云国际短信业务网络超时排障指南
选取一台或多台线上的应用服务器或选取相同网络环境下的机器,执行以下操作。 获取公网出口IP。 curl ifconfig.me 测试连通性。 (推荐)执行MTR命令(可能需要sudo权限),检测连通性,执行30秒。 mtr --no-dns {pop产品的region化域名} 或 mtr --no-dns {SMPP IP} 执行ping命令,检查连通性,执行30秒。 ping {pop产品的r
阅读更多...
阿里云国际短信业务网络超时排障指南
选取一台或多台线上的应用服务器或选取相同网络环境下的机器,执行以下操作。 获取公网出口IP。 curl ifconfig.me 测试连通性。 (推荐)执行MTR命令(可能需要sudo权限),检测连通性,执行30秒。 mtr --no-dns {pop产品的region化域名} 或 mtr --no-dns {SMPP IP} 执行ping命令,检查连通性,执行30秒。 ping {pop产品的r
阅读更多...
wifi压力测试工具_【案例分享】利用手持式测试工具对建筑控制系统快速排障的方法...
有人说智能楼宇是巨无霸行业, 其实一点都不为过。 截止去年, 全球40%的人口居住在城市中, 而中国这一比例达到了60%。 随着时代的发展,越来越多的建筑物正在部署智能控制系统,以此作为提高能源效率、降低运营成本的途径。 现如今,多数现代楼宇控制系统经过历代升级,功能变得越来越强大。但是,伴随而至,故障诊断也更加复杂。那么,如何利用简单的手持式测试工具对楼宇控制系统进行快速排障呢?Part
阅读更多...
Redis 排障:你永远不知道告警和下班,谁先到来?
01 第一个重点,服务排障的基本方法 在岁月静好的一天,正当笔者准备下班工作的时候,突然,告警出现了! 嗯,又是一到下班就会告警! 仔细一看,原来是数据整体处理时间的慢了。 既然慢了,就看看具体哪个链路慢了。 看来是 A 模块的 B 阶段的处理耗时突然慢了。 赶紧确认反向查询哪里出了问题,因为 B 阶段不是 A 模块的第一个阶段,所以基本排除是模块间的网络通信、
阅读更多...
动态页面正文部分中文乱码排障一例
公司网站一部分动态页面,早先使用apache+resin的架构运行,考虑到高并发访问下的响应性能问题,在前不久逐步开始用nginx替换掉了apache。 不过随后发现了一个问题,随意进入某一有分页的网页,第一页是正常的(因为静态化过了);点“下一页”,出来的页面两边正常,中间部分的标题、关键字等也正常,唯独每个标题下的正文无法正常显示。 因为有做过系统调整,所以第一反应就是新上的nginx配置有
阅读更多...