NVIDIA RTX4090,你能用它做什么?

2023-12-12 13:20
文章标签 nvidia rtx4090

本文主要是介绍NVIDIA RTX4090,你能用它做什么?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

都说男生是世界上最简单的动物,为什么呢?举个例子,你要给女朋友送礼,你可以选择包、口红、护肤品、化妆品等,而包的品牌和样式、口红的色号等足以让你挑得眼花缭乱。而男生不一样,如果女生选择给男生送礼,我相信一块 RTX4090 就足以让他高兴得死去活来。

RTX4090 到底是何方神圣?它凭什么赢得所有男生的“芳心”?

了解GTX4090

我们先来看下 NVIDIA 官方对 RTX4090 的介绍。

The NVIDIA® GeForce RTX™ 4090 is the ultimate GeForce GPU. It brings an enormous leap in performance, efficiency, and AI-powered graphics. Experience ultra-high performance gaming, incredibly detailed virtual worlds, unprecedented productivity, and new ways to create. It’s powered by the NVIDIA Ada Lovelace architecture and comes with 24 GB of G6X memory to deliver the ultimate experience for gamers and creators.

RTX4090 是终极的 GeForce GPU。它带来了性能、效率和人工智能驱动的图形方面的巨大飞跃,体验超高性能的游戏、极其详细的虚拟世界、前所未有的生产力和新的创作方式。它采用 NVIDIA Ada Lovelace 架构,并配备 24 GB G6X 显示内存,为游戏玩家和创作者提供终极体验。

RTX4090 采用的是 AD102 核心,拥有 11 组共 16384 个流处理器、512 个 Tensor Core、176 个 RT Core 和 176 个流处理器单元。RTX4090 采用了 NVIDIA Ada Lovelace 架构,致力于打造出色的游戏与创作、专业图形、AI 和计算性能,采用了新型 SM 多单元流处理器、第四代 Tensor Core、第三代 RT core 等多种新技术。

第四代Tensor Core

NVIDIA DLSS 3 是 AI 驱动图形领域的革命性突破,可大幅提升性能。DLSS 3 由 GeForce RTX40 系列 GPU 所搭载的全新第四代 Tensor Core 和光流加速器提供支持,可利用 AI 创造更多高质量帧。

另外,凭借全新的 FP8 Transformer 引擎,Ada 的全新第四代 Tensor Core 拥有不可思议的飞快速度,可将吞吐量提升 4 倍,达到 1.4 Tensor-petaFLOPS。

第三代RT Core

NVIDIA 发明的 RT Core 在视频游戏中实现了实时光线追踪。这种搭载在 GPU 上的特殊核心专为处理性能需求密集的光线追踪工作负载而设计。

Ada 架构采用的第 3 代 RT Core 不仅将光线与三角形求交性能提高了一倍,还将 RT-TFLOP 峰值性能提高了一倍之多。

新款 RT Core 还配备全新 Opacity Micromap (OMM) 引擎和 Displaced Micro-Mesh (DMM) 引擎。OMM 引擎可大幅提升对 alpha 测试纹理进行光线追踪的速度,此类纹理通常应用于树叶、颗粒和围栏。DMM 引擎能够以近乎 9 倍的速度构建光线追踪边界体积层次结构 (BVH),而所占用的显存只有之前的二十分之一。从而实现几何复杂场景的实时光线追踪。

RTX4090的应用场景

RTX4090 这么强,主要应用在哪些方面呢?

游戏

首先毫无疑问是在游戏方面的应用。RTX4090 是能驾驭各种游戏的硬核 GPU,拥有惊人的性能和超大 24GB G6X 显存,能以 8K 分辨率轻松运行多款热门游戏,支持 HDMI 2.1 所提供的 8K 60Hz HDR 和可变刷新率功能。你可以借助 RTX4090 强大的能力,在 8k 分辨率的 HDR 模式下,可以尽情体验游戏大作,尽享视觉盛宴。这也是为什么 RTX4090 是大部分男生的梦想。

相较于 RTX 3090,RTX4090 的性能基本上能达到它的两倍。当然,相应的功耗也大了不少,比 3090 高出了将近100W。下图是 RTX4090 和 RTX3090Ti 在各个游戏中的性能对比,大家可以看到 RTX4090 的表现是相当亮眼的。

△ RTX4090 vs RTX3090Ti 性能对比

AI绘画

Stable Diffusion 是我们常用的 AI 绘画软件,Stable Diffusion 是支持使用 CPU 或 GPU 来完成 AI 绘画。而在 AI 绘画中,RTX4090 展现出它在目前消费级显卡中最强的 AIGC 性能,处理速度要比次顶级的RTX 4080强上约 30%,相较于 RTX3090 Ti 也有接近 2 倍的性能提升。

说到 AI 绘画,也顺便提一下前面已经说过的 NVIDIA DLSS(深度学习超级采样 )。DLSS 是一种神经图形技术,它使用 AI 来提高性能,创建全新的帧,通过图像重建显示更高分辨率,并提高密集光线追踪内容的图像质量,同时提供最佳的一流的图像质量和响应能力,其实这也是一种 AIGC。DLSS 在部分游戏中已经支持,如今一些创作软件也有利用 DLSS 技术来做加速。这对 GPU 的性能要求很高,即使是上一代最强的 RTX3090 Ti 都难以实现,但新一代 RTX 40 系显卡的 DLSS 3 技术加入帧生成技术,使得单张显卡也都可以进行一些中轻度的创作。

深度学习推理

在大模型的训练阶段,RTX4090 是不行的。为什么这么说呢?RTX4090 虽然算力强,性价比也高,但是不支持 NVLink,这就成为了 RTX4090 不能成为大模型训练的主要原因。当然,相较于 A100 40GB、80GB的大显存,RTX4090 只有 24GB 的显存,也显得相对弱了不少。于大模型训练而言,A100 相较于 RTX4090,并不是因为单卡性能强了多少,而是在于拓展性、服务、显存这些方面的优势。

RTX4090 不适用于大模型训练,为什么却可以用于深度学习推理呢?我们来了解下推理和训练有什么区别。

深度学习推理是指在已经完成训练的深度学习模型上进行实际应用和预测的过程。在深度学习中,模型的训练阶段是为了调整模型的参数和权重,以使其能够准确地对训练数据进行分类、预测或生成。一旦深度学习模型完成训练,它就可以用于推理阶段,即对新的输入数据进行处理和预测。

在训练阶段,GPU 不仅需要存储模型参数,还需要存储梯度、优化器状态、正向传播每一层的中间状态(activation)。训练任务是一个整体,流水线并行的正向传播中间结果是需要存下来给反向传播用的。为了节约内存而使用流水线并行,流水级越多,要存储的中间状态也就更多。

而在推理阶段,模型将接收输入数据,并通过前向传播算法计算输出结果。这个过程不涉及参数的更新或反向传播的计算,而是利用模型已经学到的知识来进行预测。推理任务中的各个输入数据之间并没有关系,因此流水线并行不需要存储很多中间状态。

0元体验RTX4090

在了解 RTX4090 的强大后,你可能在为没办法体验到它而感到遗憾。那么我偷偷告诉你,又拍云联合厚德云推出 RTX4090 GPU,新用户完成注册即可 0 元体验 。你只要完成下面 3 个步骤即可:

1. 创建厚德云账号并完成实名认证;

2. 领取体验金

登录厚德云后在 GPU 中选择 NVIDIA 4090,点击免费体验,按步骤领取体验金即可。

3. 开启体验之旅

领取体验金后即可创建 4090 云主机,点击免费体验,选择镜像,镜像根据需要进行选择,比如 “image-gpu-sd_webui_20231018” 已经预装了 stable Diffusion,然后点击立即下单即可,体验金会抵扣掉下单金额哦。

下单后等待创建,显示运行中就可以使用啦。

这篇关于NVIDIA RTX4090,你能用它做什么?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/484798

相关文章

Kubernetes的alpha.kubernetes.io/nvidia-gpu无法限制GPU个数

问题描述: Pod.yaml文件中关于GPU资源的设置如下: 然而在docker中运行GPU程序时,发现宿主机上的两块GPU都在跑。甚至在yaml文件中删除关于GPU的请求,在docker中都可以运行GPU。 原因: 上例说明alpha.kubernetes.io/nvidia-gpu无效。查看yaml文件,发现该docker开启了特权模式(privileged:ture): 而

Ubuntu安装docker及nvidia-docker2

Ubuntu 通过apt安装 Ubuntu安装docker后再安装nvidia-docker2时经常出现版本不匹配的问题,可以分以下两步安装: # 安装dockerexport VERSION=18.06.1-ce && curl -sSL get.docker.com | sh# 安装nvidia-docker2curl -s -L https://nvidia.github.io/nv

AI超周期现状 - NVIDIA、苹果以及人工智能的整体需求

于2024年6月6日在中国杭州拍摄的英伟达和苹果的标志。到6月5日,东部时间,英伟达的市值超过3万亿美元,正式超越苹果的市值,成为全球市值第二大的科技巨头。值得注意的是,短短3个多月时间里,英伟达的市值就从2万亿美元飙升至3万亿美元。(由Costfoto摄于NurPhoto,经盖蒂图片社批准) 在九月初经历了几天的市场动荡后,又有一波关于人工智能超级周期是否已结束的讨论。如果没有结束,那接下来会

centos 安装 nvidia的两种方式

大部分 Linux 发行版都使用开源的显卡驱动 nouveau,对于 nvidia 显卡来说,还是闭源的官方驱动的效果更好。最明显的一点是,在使用 SAC 拾取震相的时候,使用官方显卡驱动在刷新界面的时候要快很多。 对于 CentOS 用户而言,有两种安装 NVIDIA 显卡驱动的方法,从 ELRepo 源中安装或从源码编译驱动。对于一般的 CentOS 用户,建议使用第一种方法。 注意

NVIDIA RTX 50系列大爆料:功耗飙升600W,性能直逼RTX 4090 1.?倍,你准备好了吗?

在科技圈的万众瞩目下,知名硬件爆料大神Kopite7kimi再次为我们揭开了NVIDIA下一代GeForce RTX系列——“Blackwell”阵容的神秘面纱。这次,关于新显卡的功耗信息不再是模糊的概念,而是实实在在的数字,让人不禁对即将到来的性能飞跃充满期待。 功耗飙升,性能也要飞? 据Kopite7kimi确认,RTX 50系列中的旗舰型号RTX 5090将拥有惊人的功耗表现,其最高功

Nvidia扩展AI帝国:从芯片到数据中心设计的全面布局

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ Nvidia正处于人工智能(AI)芯片市场的中心地位,但首席执行官黄

完整指南:CNStream流处理多路并发框架适配到NVIDIA Jetson Orin (二) 源码架构流程梳理、代码编写

目录 1 视频解码代码编写----利用jetson-ffmpeg 1.1 nvstream中视频解码的代码流程框架 1.1.1 类的层次关系 1.1.2 各个类的初始化函数调用层次关系 1.1.3 各个类的process函数调用层次关系 1.2 编写视频解码代码 1.2.1 修改VideoInfo结构体定义 1.2.2 修改解封装代码 1.2.3 decode_impl_nv.h

读取Nvidia驱动版本号

Solution 1 读取注册表信息,不可取。很多电脑的注册表信息丢失不全。 Solution 2 通过dxgi读取显卡版本号。在台式机上正常,双显卡的笔记本电脑端,由于默认的显卡为核显,所以读取的为核显版本号。 Solution 3 通过调用命令行管道,执行Nvidia Driver目录下的exe,截取返回信息中的版本号 #include <string>#include "Windows.

NVIDIA H200与AMD MI300X:前者高利润率是否合理?

近年来,人工智能芯片巨头NVIDIA与AMD的竞争愈发激烈。尽管NVIDIA在AI计算解决方案市场占据主导地位,但在2023年末,AMD推出号称全球最快的AI芯片Instinct MI300X后,开始对NVIDIA构成了挑战。然而,经过一段时间的市场检验,Richard's Research Blog的一项分析表明,虽然AMD的MI300X成本显著高于NVIDIA的H200,但在推理生产应用方

如何在Ubuntu18.04为intel、nvidia双显卡安装驱动

由于Ubuntu自带的nouveau驱动性能特别孱弱,要想发挥NVIDIA显卡最大的性能还是需要安装专用的闭源驱动。由于我的电脑是双显卡,因此在安装驱动的过程走了一些弯路,这里仅介绍对我起作用的方法首先运行 apt install nvidia-driver-version-390 大概会下载700多M的包,安装完毕后,运行 nvidia-smi 显示驱动无法被载入,但输入