mindspore8专题

mindspore8卡分布式训练davinci_model : load task fail, return ret

8卡分布式训练失败,出现HCCL错误。 【操作步骤&问题现象】 1、模型为3D卷积模型,分布式相关设置。 2、出现HCCL报错,Distribute Task Failed。注意:数据处理需要40分钟。 1. 报错信息 ERROR] GE(1530736,ffff4809f1e0,python):2021-10-10-19:36:29.319.926 [mindspore/ccs