算力-计算量,关于TOPS和FLOPS,及FLOPs

2024-01-06 21:20
文章标签 计算 算力 flops tops

本文主要是介绍算力-计算量,关于TOPS和FLOPS,及FLOPs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、易混淆的三个点

二、芯片算力单位详解

四、模型算力单位详解 

五、算力单位量级变换

六、计算机存储单位换算

七、科学计算单位换算    


一、易混淆的三个点

关于TOPS和FLOPS,及FLOPs,这里有3个易混淆的点。

1、最大的混淆点,上述三个名词是两种东西,注意“S/s”的大小写。TOPS和FLOPS指的是每秒的计算量,算是速度方面的,用在芯片算力性能上。FLOPs指的是自身的计算量,算是体量方面的,用在深度学习模型本身参数计算量上。

2、针对算力速度方面的TOPS和FLOPS,其中OPS指的是每秒处理次数,但通常是默认对INT8整型数的处理次数(INT8省略不写),加上FL后FLOPS指的是对FP32浮点数的处理次数。

3、仍然是针对算力速度方面的TOPS和FLOPS,这里的T指的是量级(Tera ,万亿,10^12),同理TFLOPS专门指每秒对浮点数处理的达到多少万亿次数。

二、芯片算力单位详解

通过缩写就能发现其中的奥妙。

芯片速度类基础单位OPS(operations per second每秒处理次数,通俗是对INT8类型的操作次数,整型默认省略。
FLOPSFloating point number operations per second是指浮点数每秒处理的次数,通常是FP32,浮点着重强调。

量级单位

(万亿次)

TOPSTera operations per second每秒可以处理的整型运算的万亿次数(10^12次)
TFLOPSTera Floating point number operations per second每秒对浮点数处理的达到多少万亿次数

下图为nvidia-A100/H100部分算力信息,可对比TOPS/TFLOPS区别。 

四、模型算力单位详解 

模型体量类FLOPsFloating point number operations模型参数的处理次数。衡量模型参数计算量

以基础的分类卷积神经网络为例:

AlexNet对于AlexNet处理224*224的图像,需要1.4G FLOPS
ResNet-152对于224*224的图像,ResNet-152需要22.6G FLOPS

五、算力单位量级变换

MOPS (Million Operation Per Second)  一百万次(10^6)   兆;百万

GOPS (Giga Operations Per Second)  十亿次     (10^9)   千兆;十亿(billion,B)

TOPS (Tera Operations Per Second)  一万亿次   (10^12) 兆兆

1 MOPS = 10^6 FLOPS一个MFLOPS(megaFLOPS)等于每秒一百万  (=10^6)次的浮点运算,
1 GOPS = 10^9 FLOPS

一个GFLOPS(gigaFLOPS)等于每秒十亿        (=10^9)次的浮点运算,

十亿(部分地方可能会用billion,B)

1 TOPS = 10^12 FLOPS一个TFLOPS(teraFLOPS)等于每秒一万亿      (=10^12)次的浮点运算,(1太拉)
注意:这个地方有时候加不加FL比较含糊,很多厂家和个人有时候没有专门写明,一般先关注量级即可

六、计算机存储单位换算

1Byte=8bit   
1KB=1024Byte(字节)=8*1024bit   
1MB=1024KB   
1GB=1024MB   
1TB=1024GB    tera(梯)单位标示:T/TB   

七、科学计算单位换算

10^15拍[它]Ppeta
10^12太[拉](万亿)Ttera
10^9吉[咖](十亿)Ggiga
10^6兆(百万)Mmega
10^3kkilo

这篇关于算力-计算量,关于TOPS和FLOPS,及FLOPs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/577649

相关文章

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa

如何用GPU算力卡P100玩黑神话悟空?

精力有限,只记录关键信息,希望未来能够有助于其他人。 文章目录 综述背景评估游戏性能需求显卡需求CPU和内存系统需求主机需求显式需求 实操硬件安装安装操作系统Win11安装驱动修改注册表选择程序使用什么GPU 安装黑神话悟空其他 综述 用P100 + PCIe Gen3.0 + Dell720服务器(32C64G),运行黑神话悟空画质中等流畅运行。 背景 假设有一张P100-

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

计算数组的斜率,偏移,R2

模拟Excel中的R2的计算。         public bool fnCheckRear_R2(List<double[]> lRear, int iMinRear, int iMaxRear, ref double dR2)         {             bool bResult = true;             int n = 0;             dou

GPU 计算 CMPS224 2021 学习笔记 02

并行类型 (1)任务并行 (2)数据并行 CPU & GPU CPU和GPU拥有相互独立的内存空间,需要在两者之间相互传输数据。 (1)分配GPU内存 (2)将CPU上的数据复制到GPU上 (3)在GPU上对数据进行计算操作 (4)将计算结果从GPU复制到CPU上 (5)释放GPU内存 CUDA内存管理API (1)分配内存 cudaErro

Java - BigDecimal 计算分位(百分位)

日常开发中,如果使用数据库来直接查询一组数据的分位数,就比较简单,直接使用对应的函数就可以了,例如:         PERCENT_RANK() OVER(PARTITION BY 分组列名 ORDER BY 目标列名) AS 目标列名_分位数         如果是需要在代码逻辑部分进行分位数的计算,就需要我们自己写一个工具类来支持计算了 import static ja

OpenStack离线Train版安装系列—2计算节点-环境准备

本系列文章包含从OpenStack离线源制作到完成OpenStack安装的全部过程。 在本系列教程中使用的OpenStack的安装版本为第20个版本Train(简称T版本),2020年5月13日,OpenStack社区发布了第21个版本Ussuri(简称U版本)。 OpenStack部署系列文章 OpenStack Victoria版 安装部署系列教程 OpenStack Ussuri版