本文主要是介绍大蕉的第2个双11 No.120,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
20181111,这是大蕉在西厂的第二年,也是第二个双十一。
今天的双十一当天感受其实还挺好的,园区的氛围跟过年似得,发红包,霓虹灯,线下的各种代金券红包,路上形形色色的穿着战服的同学,远处的战鼓声。
还好还好,整个过程我负责的系统没遇到什么大问题,就悠闲地吃着东西刷刷手淘,静静看着早就准备好的各个监控。
就一个字。稳。
这个项目其实从年初就开始投入了,其中有不合理的产品需求,也有感觉很好但是最终上线却很瓜皮的功能。到了后来的后来才知道原来这个项目要投入到双十一之中,才集中很多很多精力去思考这个事情应该怎么处理,怎么去做好准备迎接今年的双十一。毕竟对于这次线下考试,我们都是新手。
反观整个过程其实很多时候压力挺大的,担心自己负责的系统出问题,担心自己的功能给别人带来困扰,担心线下的客户不熟悉这些操作,担心有一部分客户没被考虑到,担心依赖的能力被降级,担心高峰时期网络延迟导致的大规模不可用。有那么多那么多的事情要去考虑,那么多那么多的团队要去协调,那么多那么多的现场问题需要去处理,加不完的班。
但是,所有事情都在双十一当天的稳定运行和业务的捷报中得到欣慰,嗯因为我们做了这么多这么多准备,在当天才能那么自信,不会去害怕它会出什么问题。毕竟我们已经在前期做了一切可以做的准备,产品需求评审、技术方案设计、编码实施、代码重构、链路压测、断网演练、限流降级预案、兜底方案、多地多机房分流和冗余、高峰延迟优化、关联系统稳定评估和确认。这么多这么多准备事情中一步一步扛过来了,在当天能这么稳定其实也是情理之中的事情了。
能参与到双十一这么多重要的技术决策中,本身就是值得激动很久很久的一件事啊!
要使用方案A还是方案B,低延迟方案怎么做?怎么提高系统扩展性?这个产品方案背后有设呢么价值?如果到时候双十一某机房光纤断了咋办?
我们很多时候都叫这叫一次战役,一次大考。毕竟啊平时哪有这种机会,去处理这些场景,很多很多的小细节,小缺陷,都会在量级中被放大,甚至摧毁整个产品。如果不参与到这次作战中,可能这辈子都不会有这种全力保障一个产品稳定性的场景。
有一些事情忘记了,但是有一些事情,印在脑海里是忘不掉的。
我依然记得十月初的时候,我们有一个方案,在缓存中间件多机房同步之间延迟比较高的场景下,可能会雪崩,这会影响到后续所有的操作。我跟浪浪聊了很久很久很久,咨询了一波人,在纸上和脑里演练了很多遍,终于想出了一个能解决根本问题的方案。
第二天一大早,写代码,测试,验证。舒坦。
也许只有在这种Owner感极强的状态下,太会有这种精力、想法和动力吧,毕竟一开始,这个东西像是一个小娃娃,你要投入精力去养它,去升级它,然后慢慢的慢慢的,它也成长为一个可以抗住绝大部分压力的小娃娃。
接下来,该开始对过去做的事情来一个总结了。
双十一考试期间是否遇到了什么没预料到的事情?
遗留的技术债是否要尽早处理?
产品需求是否合理?
接口设计是否合理?
上下行通道是否合理?
底层存储是否合理?
某些能力是否下沉,某些能力是否上浮?
系统应该如何重构适应接下来的业务爆发性增长?
线下弱网场景下要如何增强系统可用性?
积压了多少新的feature,应该如何添加到产品中?
continue , keep fighting , keep thinking.
这篇关于大蕉的第2个双11 No.120的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!