滴滴云A100 40G+TensorFlow1.15.2 +Ubuntu 18.04 性能测试

2023-10-25 14:50

本文主要是介绍滴滴云A100 40G+TensorFlow1.15.2 +Ubuntu 18.04 性能测试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今天拿到了滴滴云内测版A100,跑了一下 TensorFlow基准测试,现在把结果记录一下!

 

运行环境

 

平台为:滴滴云

系统为:Ubuntu 18.04

显卡为:A100-SXM4-40GB

Python版本: 3.6

TensorFlow版本:1.15.2 NV编译版

 

系统环境:

 

测试方法

TensorFlow benchmarks测试方法:

https://github.com/tensorflow/benchmarks

 

resnet50_v1.5

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=resnet50_v1.5
Step    Img/sec total_loss
1       images/sec: 602.4 +/- 0.0 (jitter = 0.0)        7.847
10      images/sec: 606.8 +/- 1.2 (jitter = 5.4)        8.053
20      images/sec: 606.3 +/- 0.8 (jitter = 4.4)        8.102
30      images/sec: 605.8 +/- 0.8 (jitter = 3.8)        8.117
40      images/sec: 606.2 +/- 0.7 (jitter = 3.8)        7.893
50      images/sec: 606.1 +/- 0.5 (jitter = 3.0)        7.919
60      images/sec: 606.2 +/- 0.5 (jitter = 2.9)        8.104
70      images/sec: 606.6 +/- 0.5 (jitter = 2.9)        7.985
80      images/sec: 606.6 +/- 0.4 (jitter = 2.8)        7.805
90      images/sec: 606.6 +/- 0.4 (jitter = 2.8)        7.973
100     images/sec: 606.7 +/- 0.4 (jitter = 2.8)        7.644
----------------------------------------------------------------
total images/sec: 606.23
----------------------------------------------------------------

 

--use_fp16

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=resnet50_v1.5 --use_fp16

 

Step    Img/sec total_loss
1       images/sec: 1327.1 +/- 0.0 (jitter = 0.0)       7.972
10      images/sec: 1321.2 +/- 5.7 (jitter = 27.6)      7.885
20      images/sec: 1323.5 +/- 4.4 (jitter = 25.9)      8.073
30      images/sec: 1323.6 +/- 3.7 (jitter = 27.3)      7.934
40      images/sec: 1322.1 +/- 3.3 (jitter = 32.9)      8.102
50      images/sec: 1321.4 +/- 3.0 (jitter = 27.7)      7.876
60      images/sec: 1322.2 +/- 2.8 (jitter = 32.3)      7.883
70      images/sec: 1322.3 +/- 2.5 (jitter = 32.6)      7.962
80      images/sec: 1324.0 +/- 2.4 (jitter = 32.2)      8.049
90      images/sec: 1324.2 +/- 2.2 (jitter = 31.2)      7.909
100     images/sec: 1325.1 +/- 2.1 (jitter = 29.6)      7.874
----------------------------------------------------------------
total images/sec: 1322.76
----------------------------------------------------------------

 

 

 

Resnet50 BS64

 

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=resnet50
Step    Img/sec total_loss
1       images/sec: 653.5 +/- 0.0 (jitter = 0.0)        8.219
10      images/sec: 646.2 +/- 2.0 (jitter = 6.0)        7.879
20      images/sec: 646.1 +/- 1.4 (jitter = 7.2)        7.909
30      images/sec: 646.0 +/- 1.2 (jitter = 6.0)        7.820
40      images/sec: 646.2 +/- 1.0 (jitter = 6.3)        8.006
50      images/sec: 646.0 +/- 1.0 (jitter = 8.6)        7.769
60      images/sec: 646.0 +/- 0.9 (jitter = 8.6)        8.114
70      images/sec: 645.7 +/- 0.9 (jitter = 9.5)        7.811
80      images/sec: 645.8 +/- 0.8 (jitter = 9.5)        7.979
90      images/sec: 645.8 +/- 0.8 (jitter = 8.0)        8.095
100     images/sec: 645.8 +/- 0.7 (jitter = 6.4)        8.038
----------------------------------------------------------------
total images/sec: 645.26
----------------------------------------------------------------

 

--use_fp16

 

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=resnet50 --use_fp16
Step    Img/sec total_loss
1       images/sec: 1300.1 +/- 0.0 (jitter = 0.0)       8.101
10      images/sec: 1310.1 +/- 7.5 (jitter = 7.4)       7.758
20      images/sec: 1309.7 +/- 8.0 (jitter = 42.3)      7.912
30      images/sec: 1315.0 +/- 5.9 (jitter = 32.1)      7.776
40      images/sec: 1315.5 +/- 4.7 (jitter = 28.2)      7.918
50      images/sec: 1317.5 +/- 3.9 (jitter = 27.7)      7.895
60      images/sec: 1316.5 +/- 3.4 (jitter = 18.6)      7.711
70      images/sec: 1317.3 +/- 3.1 (jitter = 16.1)      8.008
80      images/sec: 1316.9 +/- 2.8 (jitter = 11.4)      7.777
90      images/sec: 1317.7 +/- 2.6 (jitter = 11.8)      7.808
100     images/sec: 1317.1 +/- 2.4 (jitter = 9.9)       8.036
----------------------------------------------------------------
total images/sec: 1315.11
----------------------------------------------------------------

 

 

AlexNet BS512

 

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=512 --model=alexnet
Step    Img/sec total_loss
1       images/sec: 8294.2 +/- 0.0 (jitter = 0.0)       nan
10      images/sec: 8290.2 +/- 1.6 (jitter = 5.3)       nan
20      images/sec: 8290.6 +/- 1.0 (jitter = 3.7)       nan
30      images/sec: 8290.8 +/- 0.7 (jitter = 2.8)       nan
40      images/sec: 8291.3 +/- 0.6 (jitter = 2.7)       nan
50      images/sec: 8289.8 +/- 1.4 (jitter = 2.9)       nan
60      images/sec: 8290.2 +/- 1.2 (jitter = 2.9)       nan
70      images/sec: 8290.4 +/- 1.3 (jitter = 3.6)       nan
80      images/sec: 8291.1 +/- 1.1 (jitter = 3.5)       nan
90      images/sec: 8291.9 +/- 1.0 (jitter = 4.4)       nan
100     images/sec: 8291.9 +/- 1.1 (jitter = 5.2)       nan
----------------------------------------------------------------
total images/sec: 8282.46
----------------------------------------------------------------

--use_fp16

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=512 --model=alexnet --use_fp16
Step    Img/sec total_loss
1       images/sec: 10618.6 +/- 0.0 (jitter = 0.0)      7.250
10      images/sec: 10607.7 +/- 4.4 (jitter = 16.3)     7.251
20      images/sec: 10602.5 +/- 3.0 (jitter = 13.1)     7.251
30      images/sec: 10604.1 +/- 2.3 (jitter = 11.2)     7.251
40      images/sec: 10601.0 +/- 2.5 (jitter = 13.4)     7.251
50      images/sec: 10601.7 +/- 2.5 (jitter = 13.8)     7.251
60      images/sec: 10603.0 +/- 2.2 (jitter = 14.0)     7.250
70      images/sec: 10605.1 +/- 2.1 (jitter = 12.5)     7.251
80      images/sec: 10605.4 +/- 1.9 (jitter = 12.2)     7.251
90      images/sec: 10605.4 +/- 1.7 (jitter = 12.1)     7.251
100     images/sec: 10605.8 +/- 1.7 (jitter = 12.3)     7.251
----------------------------------------------------------------
total images/sec: 10587.67
----------------------------------------------------------------

 

Inception v3 BS64

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=inception3
Step    Img/sec total_loss
1       images/sec: 436.8 +/- 0.0 (jitter = 0.0)        7.276
10      images/sec: 437.9 +/- 1.2 (jitter = 0.8)        7.337
20      images/sec: 437.8 +/- 1.0 (jitter = 2.2)        7.269
30      images/sec: 437.9 +/- 0.8 (jitter = 2.2)        7.422
40      images/sec: 437.9 +/- 0.6 (jitter = 3.5)        7.299
50      images/sec: 438.6 +/- 0.6 (jitter = 4.1)        7.277
60      images/sec: 439.2 +/- 0.5 (jitter = 3.7)        7.363
70      images/sec: 439.5 +/- 0.5 (jitter = 4.8)        7.347
80      images/sec: 440.3 +/- 0.5 (jitter = 5.3)        7.410
90      images/sec: 440.3 +/- 0.5 (jitter = 5.2)        7.325
100     images/sec: 440.3 +/- 0.4 (jitter = 5.0)        7.346
----------------------------------------------------------------
total images/sec: 440.01
----------------------------------------------------------------

 

--use_fp16

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=inception3 --use_fp16
Step    Img/sec total_loss
1       images/sec: 901.5 +/- 0.0 (jitter = 0.0)        7.305
10      images/sec: 945.5 +/- 7.0 (jitter = 5.0)        7.354
20      images/sec: 945.6 +/- 4.9 (jitter = 7.1)        7.330
30      images/sec: 945.3 +/- 3.9 (jitter = 6.9)        7.382
40      images/sec: 946.3 +/- 3.2 (jitter = 7.3)        7.278
50      images/sec: 946.6 +/- 2.8 (jitter = 7.5)        7.373
60      images/sec: 946.3 +/- 2.5 (jitter = 7.6)        7.299
70      images/sec: 946.8 +/- 2.3 (jitter = 7.5)        7.323
80      images/sec: 946.5 +/- 2.1 (jitter = 7.6)        7.317
90      images/sec: 946.6 +/- 2.0 (jitter = 7.6)        7.357
100     images/sec: 947.2 +/- 1.8 (jitter = 7.3)        7.327
----------------------------------------------------------------
total images/sec: 946.03
----------------------------------------------------------------

 

VGG16 BS64

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=vgg16
Step    Img/sec total_loss
1       images/sec: 442.1 +/- 0.0 (jitter = 0.0)        7.321
10      images/sec: 442.4 +/- 0.1 (jitter = 0.4)        7.315
20      images/sec: 442.4 +/- 0.1 (jitter = 0.3)        7.269
30      images/sec: 442.4 +/- 0.0 (jitter = 0.2)        7.271
40      images/sec: 442.4 +/- 0.0 (jitter = 0.2)        7.282
50      images/sec: 442.4 +/- 0.0 (jitter = 0.2)        7.291
60      images/sec: 442.4 +/- 0.0 (jitter = 0.2)        7.250
70      images/sec: 442.4 +/- 0.1 (jitter = 0.2)        7.278
80      images/sec: 442.4 +/- 0.0 (jitter = 0.2)        7.274
90      images/sec: 442.4 +/- 0.0 (jitter = 0.2)        7.286
100     images/sec: 442.4 +/- 0.0 (jitter = 0.2)        7.283
----------------------------------------------------------------
total images/sec: 442.20
----------------------------------------------------------------

 

--use_fp16

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=64 --model=vgg16 --use_fp16
Step    Img/sec total_loss
1       images/sec: 687.4 +/- 0.0 (jitter = 0.0)        7.279
10      images/sec: 688.2 +/- 0.2 (jitter = 0.5)        7.255
20      images/sec: 688.0 +/- 0.1 (jitter = 0.5)        7.283
30      images/sec: 688.0 +/- 0.1 (jitter = 0.7)        7.254
40      images/sec: 687.9 +/- 0.1 (jitter = 0.7)        7.283
50      images/sec: 687.8 +/- 0.1 (jitter = 0.7)        7.249
60      images/sec: 687.7 +/- 0.1 (jitter = 0.8)        7.294
70      images/sec: 687.6 +/- 0.1 (jitter = 0.9)        7.278
80      images/sec: 687.6 +/- 0.1 (jitter = 0.9)        7.268
90      images/sec: 687.7 +/- 0.1 (jitter = 0.9)        7.264
100     images/sec: 687.6 +/- 0.1 (jitter = 0.9)        7.268
----------------------------------------------------------------
total images/sec: 687.07
----------------------------------------------------------------

 

GoogLeNet BS128

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=128 --model=googlenet
Step    Img/sec total_loss
1       images/sec: 1577.4 +/- 0.0 (jitter = 0.0)       7.104
10      images/sec: 1565.9 +/- 4.1 (jitter = 12.5)      7.105
20      images/sec: 1561.7 +/- 3.1 (jitter = 20.4)      7.094
30      images/sec: 1562.3 +/- 2.5 (jitter = 15.1)      7.087
40      images/sec: 1561.5 +/- 2.2 (jitter = 16.1)      7.067
50      images/sec: 1561.6 +/- 2.0 (jitter = 15.6)      7.091
60      images/sec: 1561.5 +/- 1.8 (jitter = 15.7)      7.049
70      images/sec: 1560.3 +/- 1.9 (jitter = 15.3)      7.074
80      images/sec: 1558.8 +/- 1.9 (jitter = 17.2)      7.077
90      images/sec: 1558.2 +/- 1.8 (jitter = 17.2)      7.079
100     images/sec: 1557.5 +/- 1.8 (jitter = 17.6)      7.066
----------------------------------------------------------------
total images/sec: 1556.06
----------------------------------------------------------------

 

--use_fp16

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=128 --model=googlenet --use_fp16
Step    Img/sec total_loss
1       images/sec: 2690.1 +/- 0.0 (jitter = 0.0)       7.173
10      images/sec: 2675.3 +/- 13.9 (jitter = 35.5)     7.068
20      images/sec: 2682.4 +/- 9.9 (jitter = 55.4)      7.086
30      images/sec: 2686.6 +/- 8.3 (jitter = 36.6)      7.075
40      images/sec: 2687.8 +/- 6.9 (jitter = 30.6)      7.084
50      images/sec: 2686.7 +/- 6.0 (jitter = 36.4)      7.076
60      images/sec: 2687.5 +/- 5.4 (jitter = 36.4)      7.075
70      images/sec: 2681.0 +/- 6.8 (jitter = 41.6)      7.075
80      images/sec: 2683.2 +/- 6.1 (jitter = 34.0)      7.065
90      images/sec: 2684.1 +/- 5.6 (jitter = 35.6)      7.092
100     images/sec: 2683.9 +/- 5.2 (jitter = 36.1)      7.052
----------------------------------------------------------------
total images/sec: 2680.27
----------------------------------------------------------------

 

ResNet152 BS32

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=32 --model=resnet152
Step    Img/sec total_loss
1       images/sec: 225.6 +/- 0.0 (jitter = 0.0)        9.060
10      images/sec: 228.3 +/- 1.0 (jitter = 2.0)        8.594
20      images/sec: 228.3 +/- 0.6 (jitter = 2.0)        8.635
30      images/sec: 228.2 +/- 0.5 (jitter = 2.5)        8.719
40      images/sec: 227.9 +/- 0.5 (jitter = 2.8)        8.599
50      images/sec: 228.1 +/- 0.5 (jitter = 2.9)        8.791
60      images/sec: 228.3 +/- 0.4 (jitter = 3.6)        8.668
70      images/sec: 228.3 +/- 0.4 (jitter = 3.3)        9.072
80      images/sec: 228.3 +/- 0.4 (jitter = 3.5)        8.874
90      images/sec: 228.4 +/- 0.3 (jitter = 3.7)        9.030
100     images/sec: 228.4 +/- 0.3 (jitter = 3.7)        8.839
----------------------------------------------------------------
total images/sec: 228.29
----------------------------------------------------------------

 

--use_fp16

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=32 --model=resnet152 --use_fp16
Step    Img/sec total_loss
1       images/sec: 392.9 +/- 0.0 (jitter = 0.0)        9.147
10      images/sec: 397.9 +/- 2.8 (jitter = 6.0)        9.000
20      images/sec: 399.0 +/- 2.1 (jitter = 8.6)        8.842
30      images/sec: 393.7 +/- 2.9 (jitter = 14.7)       8.813
40      images/sec: 394.4 +/- 2.3 (jitter = 15.2)       8.984
50      images/sec: 394.9 +/- 2.0 (jitter = 13.9)       8.647
60      images/sec: 395.7 +/- 1.8 (jitter = 13.9)       8.838
70      images/sec: 396.5 +/- 1.6 (jitter = 15.3)       8.941
80      images/sec: 395.9 +/- 1.4 (jitter = 13.4)       8.913
90      images/sec: 396.2 +/- 1.3 (jitter = 14.1)       8.807
100     images/sec: 395.7 +/- 1.3 (jitter = 14.5)       8.729
----------------------------------------------------------------
total images/sec: 395.34
----------------------------------------------------------------

 

性能对比

A100 和V100 和 2080ti 性能对比:

 

https://www.tonyisstark.com/383.html

 

这篇关于滴滴云A100 40G+TensorFlow1.15.2 +Ubuntu 18.04 性能测试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/283283

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

pico2 开发环境搭建-基于ubuntu

pico2 开发环境搭建-基于ubuntu 安装编译工具链下载sdk 和example编译example 安装编译工具链 sudo apt install cmake gcc-arm-none-eabi libnewlib-arm-none-eabi libstdc++-arm-none-eabi-newlib 注意cmake的版本,需要在3.17 以上 下载sdk 和ex

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动