本文主要是介绍全流量分析某企业系统历史疑难问题秒级定位,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
背景
我们收到医院网络管理员的反馈,医生们经常抱怨其主要业务系统的访问变得缓慢。经过排查发现,网络没有异常,开发商也未发现问题,但是这个问题一直没有解决。
因此我们将NetInside流量分析系统部署到医院的机房内,使用流量分析系统提供实时和历史原始流量。本次分析重点针对业务系统性能进行分析,以供安全取证、性能分析、网络质量监测以及深层网络分析。
部署架构
与技术人员沟通了解到,医院的整体流量不是很大,因此在医院大楼的核心交换机进行流量采集,系统采用旁路方式镜像流量,对全院的内部及外网流量进行监控。
详细分析
关键业务整体健康得分
通过业务健康大屏,我们可以快速了解各关键业务在基于用户体验的性能健康状况得分,如下图:
神外临床试验数据研究(研究所)业务分析
通过健康度,我们发现神外临床试验数据研究(研究所)这业务得分较最低(5 分的业务确认为数据不全,排除分析队列),此系统即是医生反馈出现访问慢的系统,鼠标放上去,显示存在大量慢页面:
那么慢页面的原因是什么呢?我们知道影响用户体验延时的因数,包含网络、服务器及业务逻辑等多个因素,所以这么多的慢页面具体原因是我们接下来需要分析确定的。我们直接右击选择“性能问题根本原因定位”:
打开分析页面:
我们可以看到 http://172.16.230.219/IM/onlineRegisterp这个服务的所在请求都是慢的,那么是网络原因导致的吗?接着看展开的数据:
可以看到,网络时间没有问题,但服务器响应时间超过 60 多秒,那看是去是服务器的问题?我们接着看,同一台服务器其他服务:
可以看到,同一台服务器的其他服务,基本没有问题,这说明服务器本身是没有问题的,如此可以确认,该项服务延迟较大,应该是应用本身逻辑所存在的问题,我们需要在应用上去做进一步的分析。
另外,我们可以直接右击,点“应用数据包分析”:
可以直接下载此请求的数据包,以便进一步确认问题:
上图中,1.169 的 IP 发送了一个 post 的请,但 230.219 在 30秒后再回复,然后下一个请求又很快,所以显然,这个服务在响应请求时卡了一个 30 秒,如此可以进一步确认,应用本身存在问题,需要进一步的排查。
人事管理系统分析
人事管理系统影响得分的因素,则只是存在错请求,我们点看查看:
由上图可以看到,在第一个特定请求时,存在 7 次 500,而访问次数是 75 次,这种情况通常需要对中间件或逻辑进行分析,因为本上讲,几十次的访问不太会出现 500 的错误。
快速了解客户访问体验
基于业务分析的模块,我们不仅关注业务本身,还关注客户对业务的访问的体验情况。一般而言,只要业务可用,存在性能问题客户通常不会报告,但大概率会心有抱怨。所以提供主动积极有客户体验关怀,我们的特色功能,如下:
通过上述功能,我们可以知道特定业务,每个客户的的访问体验,并快事了解体验差的来访问者,并主动进行关怀,快速解决用户体验问题。
分析结论
经信息科的全面协助,我们对导入的流量中,测试的关键要素进行了分析,初步得出了以下结果:
1、神外临床试验数据研究(研究所)onlineRegisterp 服务模块出现存在严重性能问题,从发现问题到定位边界不到 5 秒;
2、人事管理系统存在 500 错误信息,这种情况通常需要对中间件或逻辑进行分析;
3、一眼可以看到特定业务客户访问的体验情况,可针对体验较差客户,快速分析具体原因。
用户收益
经过对现场流量的仔细分析,我们对业务系统慢和报错进行提交厂商排查,厂商通过具体的地址,很快处理了慢访问和报错的问题,给医院医生带来更高效的办公环境。
NetInside全流量行为分析技术,能够快速发现业务系统的慢访问和报错原因,帮助用户轻松解决系统体验差的问题,提高用户网络的整体性能,提高业务上的办公效率。
这篇关于全流量分析某企业系统历史疑难问题秒级定位的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!