如何交接复杂的遗留系统?

2023-10-10 23:30
文章标签 系统 遗留 复杂 交接

本文主要是介绍如何交接复杂的遗留系统?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章由黄亚铭,郑佳宁,王卫波,王玥,顾浩,高烁,孙萌阳共同完成。

一半以上的新项目,都始于交接。交接期有长有短,交接形式多种多样。不管怎样,从客户关系、团队工作方式等各方面,交接期都奠定了项目进入稳定交付或维护期的基调。

2020年10月,Thoughtworks的C团队从客户团队交接了一个有近20年历史的支付网关系统。这个支付网关主要向英语系地区的企业提供信用卡支付,储蓄卡支付等支付相关的功能,每个月的交易额过亿。

2021年1月起,C团队正式接手该项目的日常运维工作。不仅需要保证系统稳定运行,提供7×24小时On Call支持,还要响应日常业务的需求,同时保证整个支付网关符合支付卡行业数据安全标准(Payment Card Industry Data Security Standard,缩写为 PCI-DSS)。

在交接的过程中,团队面临很多的挑战,尝试了很多办法,同时沉淀了一些经验。我们将通过这篇文章将经验和实践分享出来,希望帮助到更多人。

挑战

作为一个历史悠久的“大龄”支付网关,在交接过程中我们遇到了一系列的挑战,大致可以分为下面两类:

1. 业务复杂度高

业务上,这个支付网关光是在卡支付的场景下就同时支持8种技术,还有信用卡相关的安全功能,数不清的报表和各种增值服务。

技术上,总共有100多个服务和300多个代码库,部署在超过200个EC2上;服务之间耦合严重;许多服务没有部署流水线、没有测试环境甚至没有源代码;经常需要手工操作生产环境数据库来解决问题;操作系统和软件包版本非常陈旧等。

项目管理上,没有总结和沉淀出完整而清晰的业务和技术文档。

2. 交接内容多、时间短、范围不明确

交接开始前,团队接受到的信息只有100多个服务的名字,内容非常有限;交接的时间周期比较紧张(初步计划只有30个工作日),没有足够的时间去了解到系统的所有功能。

实践

1. 分阶段制定目标、建立重点

我们一般如何衡量一个遗留项目维护的质量呢?

  • 短期:至少做到跟前团队一样。也就是说,在客户团队成员离开时,团队能具备足够的知识和技能来处理线上事故和日常业务工作。

  • 长期:体现Thoughtworks不一样的地方。对项目的业务、技术和发展历史有足够了解,足以给出一个改进计划,在未来一个比较长的时间里落地、给客户带来更大价值。

鉴于项目的复杂度,在有限的交接期内达到这个目标基本是不可能的。但是如果将时间轴拉长,分阶段来实施,就比较容易做出一个切实可行的计划;同时,也能最大化交接期的价值,让团队从第一天起就朝着一个方向努力。

基于此,团队从实际情况出发,将项目分为三阶段:

通过对项目不同阶段目标的一致认识,减少了一些团队在交接期的焦虑与慌乱,从而想出更多创造性的点子,并勇敢的尝试、反馈、迭代,达到各个阶段的目标。

2. 利用C4模型梳理系统架构

通常处理的问题都是业务问题,如果不能把一个个服务放在业务流程中去理解就没有意义。因此,我们在交接完一个独立服务或者若干个有关联的服务后,都会试图用C4模型画出他们的C1(System Context Diagram)和 C2(Container Diagram)两个高级别的图,以可视化的方式展示出系统输入、输出和各服务的依赖关系。

实践证明,画图的过程可以帮助大家更好地吸收碎片化知识,有利于整个团队将知识汇总和沉淀。同时,相比于反复的解释说明,图是一种更有效的语言。

有些比较独立的模块相对比较容易画,但是涉及到不同版本API的支付流程,就需要不断地获取更多的信息来完善,反复跟客户确认。有些环节甚至在交接结束后依旧没能打通或者没时间梳理,只能在交接后,作为深入理解期的目标继续完善。


支付系统C1简化图(简化版)

3. 通过结对在团队内部分享上下文

在第一阶段交接的过程中,我们和客户团队是“1+1”的模式进行知识交接,业务知识是像孤岛一样分散在各个成员那里。另外,我们团队又因为每个人加入项目的时间和技能背景的不同,对一些背景信息、业务上下文、技术实现的掌握有一些差距。

因此,在进入项目交接的第二阶段开始,对于大部分的工作内容,我们都通过结对的方式来进行。根据不同的业务和优先级,我们划分了几个重要的主题,比如:日常需求相关的任务,PCI 相关的任务和生产环境的变更等。我们会通过专长和对服务的熟悉程度分工结对,让这两个人可以成为团队内相应领域的专家。

这样的好处有主要有:保证对应的知识能在团队中传播开来,消除知识孤岛;避免某个成员因为请假导致重要的任务不能进行;重要的线上操作可以多一个人帮忙检查。

在安排 Primary On Call 和 Secondary On Call 的时候,采取“Dev + DevOps”的组合,保证有足够的技能应对线上事故。在线上事故发生的时候,两个人一起结对配合处理。

虽然结对在前期会影响效率,但能确保团队中至少两个人熟悉特定的业务,最终可以让整个团队拥有响应事故的能力。从现在的结果来看,正是这种结对的形式,保证了整个团队的“高可用”。

4. 通过线上事故演练提升团队On Call的信心

7 × 24 小时 On Call 对团队来说,无疑会是一个非常大的挑战。在正式接手系统之前,团队感受到了比较大的压力。这些压力一方面是因为大部分项目成员缺少 On Call 的实战经验,另外一方面因为在交接的第一阶段里,我们缺少对业务实现细节和系统的深入了解。

On Call工程师不仅要参照标准处理流程,还需要在短时间内评估线上问题造成的影响并精准地解决,那么用以前发生过的事故来演练就成了我们在深入理解期的最好的学习方式。

在正式承担On Call的职责前,我们每个迭代都会有一个模拟线上事故处理的活动,主要流程为:

  • 组织者会去从过去的线上故障里挑选一个有代表性的事故来模拟,比如是某一个与其他网关集成服务的事故;

  • 团队约定2个小时来模拟线上事故,组织者还原当时场景,其他成员在不知情的情况下按照自己的理解进行适当的追问;

  • 分成两个小组,根据现有的情况定位问题,并给出解决方案;

  • 组织者进行复盘,梳理相关知识点。

通过以上方式,我们得以快速适应On Call的节奏。到现在为止,我们团队的每个成员都有作为Primary On Call的经验了。

结语

在交接的三个月里,我们持续地改进交接方式,最终将项目成功地从客户团队手中接过。无论是交付主管,还是和我们合作的客户团队都对我们的工作提出了称赞。在摸索交接的过程中,
我们尝试了不同的方式让我们的交接平滑顺利,并将对交接有帮助的实践分享出来,希望对大家有所帮助。


文/Thoughtworks王玥
原文链接:https://insights.thoughtworks.cn/legacy-system-handover/
更多精彩洞见,请关注微信公众号Thoughtworks洞见。

这篇关于如何交接复杂的遗留系统?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/183886

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

软考系统规划与管理师考试证书含金量高吗?

2024年软考系统规划与管理师考试报名时间节点: 报名时间:2024年上半年软考将于3月中旬陆续开始报名 考试时间:上半年5月25日到28日,下半年11月9日到12日 分数线:所有科目成绩均须达到45分以上(包括45分)方可通过考试 成绩查询:可在“中国计算机技术职业资格网”上查询软考成绩 出成绩时间:预计在11月左右 证书领取时间:一般在考试成绩公布后3~4个月,各地领取时间有所不同

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景