【测试沉思录】12. 可用性保障平台的自动化测试探索与实践

2024-03-10 19:10

本文主要是介绍【测试沉思录】12. 可用性保障平台的自动化测试探索与实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

欢迎订阅我的新专栏《现代命令行工具指南》,精讲目前最流行的开源命令行工具,大大提升你的工作效率。

作者:张雅瑜 编辑:毕小烦

一. 背景

随着业务的发展,应用越来越多,并且承载的业务量越来越大,对各个业务系统的稳定性可用性带来了新的挑战

  1. 应用之间有很长的调用链路,有时候出问题的是上下游的应用,增加排查难度;
  2. 线上应用均为集群部署,日志量巨大并且会定时清理,历史日志很难追溯及定位;
  3. 通过 Zabbix 来监控机器,无法及时发现应用本身出现的问题。

因此,亟需一个系统来承载全局应用可用性保障能力,也就是 Warden

最初 Warden 的功能仅包含监控报警日志采集两大模块,随着可用性的需求越来越多,在日志和监控的基础上又衍生出来调用链流量分析应用的稳定性指标等更多功能。

本文主要介绍公司自研的可用性保障平台(Warden)的自动化测试探索与实践主要针对监控报警和日志采集两个模块

Warden 主要由两部分组成:

  • Warden Agent(以下简称 Agent):采用无侵入的方式,作为一个单独的进程部署到业务应用所在机器,可以对磁盘上任意位置的日志进行解析,生成结构化日志上传;同时,还可对机器 CPU、内存、JVM 进程进行监控,每分钟上传一次的监控数据;
  • Warden 服务端:下发采集指令和监控指令,收集 Agent 上传的数据并入库,对统计过来的数据进行分析后通过图表展示,发送报警。

系统架构图:
img

二. 如何进行自动化测试?

自动化测试基于功能测试而来,我们从功能测试的思路及校验点出发,然后看其如何转化为自动化用例。

功能测试分为以下三个部分:

  1. 日志采集:对于不同格式的日志配置不同的解析方式,Agent 能正确解析日志并上传到消息中间件,服务端能正常接收消息并入库;
  2. 监控数据采集:监控数据采集分两个部分,一个是基于日志计算出来的聚合数据,一个是对机器本身的监控,两者与日志的采集流程类似;
  3. 报警功能:当某个监控数据的指标超过阈值,则会触发报警信息。

2.1 功能测试

功能测试应该怎么测呢?

结合 Warden 的系统架构,我们再更深入了解一下日志采集的过程:

流程图:

img

在功能测试中遇到的第一个问题便是:日志的来源

在生产环境下,日志是业务应用打印,由 Agent 采集的,每个业务应用打印的日志虽然有框架的规范,但是格式依然很多,甚至有一些自定义的格式,测试要覆盖尽可能多的日志格式,就不可能拿真实的业务应用进行日志打印。

如果拿线上应用的日志文件直接进行测试,也会有以下问题

  1. 日期问题:日期并非实时,而日期是 Agent 采集逻辑的一部分;
  2. 逻辑问题:Agent 对已有日志的采集跟一边打印日志一边采集的逻辑会有所不同;
  3. 格式问题:不同日志的格式虽然能收集齐全,但是对于一些异常情况的构造不够灵活,有一些潜在的非标准日志格式,线上的应用未必会有,但确有可能在某些异常场景下触发。

因此,权衡后的解决方案是:

准备一个测试工程,通过 HTTP 请求触发日志的打印,可以指定打印日志的格式、路径、打印的条数等,这个测试工程收集各种已有的日志格式,并且可以根据未来线上遇到的新场景来构造新的日志打印异常场景。

如下图所示:

img

测试用例要用到的配置:Warden 服务端 URL、测试工程 URL、中间件地址及配置

2.2 自动化测试

解决了功能测试的问题**,要如何进行自动化测试呢?**

先看看我们的自动化测试工程框架:

img

说明:

  • 测试类:每个测试类对应一个测试用例,一般为一个接口或一个功能点;
  • 父类:所有测试类都继承该类,测试类中的一些公用的方法可以提取到父类中,例如登录、配置文件中的参数获取等;
  • Excel:数据驱动,每个测试用例,在不同的入参下会有不同的预期结果,将入参和预期结果填写在 Excel 中,每个测试类对应一个 Excel 文件;
  • 配置文件:存储全局变量,例如用户名、密码、URL 地址等。

由于日志采集是一个完整的流程,为了方便用例的维护,我们抛弃了原先将某个接口作为一个测试类的方式,而是将整个流程作为一个测试用例,并创建一个对应的测试类。这个用例的输入就是不同格式的日志,输出就是服务端处理完之后存到库中的数据。

由于测试工程完全可以定制自己的日志,我们完全能预先知道会获得什么样的结果,也解决了自动化测试的流程中,如何校验服务端存储的日志是否正确的问题。

结合功能测试的流程,我们的自动化测试代码流程也就确定如下:

img

至此,我们有三个测试类,覆盖了日志采集、基于日志的监控和报警三大模块的功能。虽然还有一些其他的场景,比如跨天的日志采集,Agent 重启期间日志的补采等问题,暂时还用手工测试的方式,但已经能解决大部分主要功能的自动化场景。

三. 自动化测试如何提效?

在运行一段时间后,原有的自动化用例的问题也越发明显:耗时长。

耗时长的原因主要有以下两点:

  1. 日志采集/监控的配置下发给 Agent,Agent 需要几秒后才会生效,因此在编辑配置到实际触发日志打印前,增加了 5s 的等待时间;
  2. Agent 日志采集有 10s 左右的延迟监控数据至少要等 1 分钟才会上传,所有数据到上传到中间件后,由服务端进行消费再到入库还有几秒的耗时,另外由于执行报警的定时任务执行时间间隔 1 分钟。

因此报警的触发最快是 1 分钟,最慢可能要 2 分钟,为了尽可能保证用例执行的成功率,在校验最终结果之前会设置较长的等待时间,以确保大部分用例能执行成功,个别失败的用例重试一次之后也能执行成功,执行 96 条用例大约耗时 1 小时 40 钟。

上面监控采集用例仅测试到基于日志的监控数据采集流程没有对于机器的监控数据校验,因为校验监控数据的时候无法事先知道统计结果,而两者监控的处理流程是不同的。

基于以上的痛点,并且根据现实情况来看,服务端的需求较多(因为基于这些统计数据可以衍生出很多功能来),而 Agent 比较稳定,因此决定把 Agent 和服务端的测试用例区分开:

  1. **Agent 自动化测试:**由于 Agent 的改动一般也会涉及到服务端的改动,因此还是保留原先完整流程的测试用例;
  2. **服务端自动化测试:**与 Agent 解绑,通过代码生成模拟的日志数据和监控数据直接上传到中间件供服务端处理。

这样一来,可大大节省等待 Agent 采集日志上的耗时,也不必等 1 分钟再校验监控数据,因为我们可以直接构造出上一分钟的监控数据。

改造后,三个自动化测试的流程如下:

  1. 日志采集:

img

  1. 监控数据采集:

img

  1. 报警功能:

img

改造后,服务端部分的自动化用例 96 条,运行仅需要 30 分钟,主要是因为报警的定时任务 1 分钟执行一次,因此仍然需要最长等待 1 分钟。

四. 总结

在本次自动化用例的实现中,仍有一些不足与待改进的地方,比如耗时还是会偏长,我们可以进一步优化,将用例再行拆分,也许能让耗时更短,但这就需要维护更多的中间数据,前置准备的数据,大大增加了用例的维护成本。反之,用例若拆得太粗,像第一版的自动化用例那样,流程过长,也会导致用例容易失败,耗时长。

因此在不同的测试场景,我们需要平衡用例的稳定性、可靠性、可维护性、执行的便利性等各个方面,让用例真正做到为测试人员提供便利,而不是增加工作量。

(完)

如果文章对你有帮助,记得留言、点赞、加关注哦!

这篇关于【测试沉思录】12. 可用性保障平台的自动化测试探索与实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/795234

相关文章

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理(如 Redis)采用滑动

使用Python实现Word文档的自动化对比方案

《使用Python实现Word文档的自动化对比方案》我们经常需要比较两个Word文档的版本差异,无论是合同修订、论文修改还是代码文档更新,人工比对不仅效率低下,还容易遗漏关键改动,下面通过一个实际案例... 目录引言一、使用python-docx库解析文档结构二、使用difflib进行差异比对三、高级对比方

ShardingProxy读写分离之原理、配置与实践过程

《ShardingProxy读写分离之原理、配置与实践过程》ShardingProxy是ApacheShardingSphere的数据库中间件,通过三层架构实现读写分离,解决高并发场景下数据库性能瓶... 目录一、ShardingProxy技术定位与读写分离核心价值1.1 技术定位1.2 读写分离核心价值二

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

MySQL分库分表的实践示例

《MySQL分库分表的实践示例》MySQL分库分表适用于数据量大或并发压力高的场景,核心技术包括水平/垂直分片和分库,需应对分布式事务、跨库查询等挑战,通过中间件和解决方案实现,最佳实践为合理策略、备... 目录一、分库分表的触发条件1.1 数据量阈值1.2 并发压力二、分库分表的核心技术模块2.1 水平分

Python自动化处理PDF文档的操作完整指南

《Python自动化处理PDF文档的操作完整指南》在办公自动化中,PDF文档处理是一项常见需求,本文将介绍如何使用Python实现PDF文档的自动化处理,感兴趣的小伙伴可以跟随小编一起学习一下... 目录使用pymupdf读写PDF文件基本概念安装pymupdf提取文本内容提取图像添加水印使用pdfplum

基于Python实现自动化邮件发送系统的完整指南

《基于Python实现自动化邮件发送系统的完整指南》在现代软件开发和自动化流程中,邮件通知是一个常见且实用的功能,无论是用于发送报告、告警信息还是用户提醒,通过Python实现自动化的邮件发送功能都能... 目录一、前言:二、项目概述三、配置文件 `.env` 解析四、代码结构解析1. 导入模块2. 加载环