tpuv4专题

规模弹性: 管理谷歌的TPUv4机器学习超级计算机(二)

本文为翻译文章,原文为: Resiliency at Scale: Managing Google’sTPUv4 Machine Learning Supercomputer。 由于字数过长,文章分为两期发布,本片涵盖原文后半部分4~9节,前三章节请参考文章:规模弹性:管理谷歌的TPUv4机器学习超级计算机 4、ICI 路由 我们在高带宽 ICI 链路上使用多跳数据包路由,以提供快速的