如何用CuPy来对Numpy进行700倍加速

2024-06-21 09:18
文章标签 进行 加速 numpy 700 cupy

本文主要是介绍如何用CuPy来对Numpy进行700倍加速,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:George Seif

编译:ronghuaiyang

导读

给大家试试GPU的威力!

640?wx_fmt=jpeg

Numpy是Python社区的一份大礼。它允许数据科学家、机器学习使用者和统计学家以一种简单有效的方式处理矩阵格式的大量数据。

即使就其本身而言,Numpy在速度方面已经比Python有了很大的提升。当你发现自己Python代码运行缓慢,尤其是如果你看到很多的for循环,使用Numpy总是一个好主意,将数据处理成Numpy并让其向量化工作,可以得到最高速度!

尽管如此,Numpy只在CPU上运行。对于通常只有8个或更少内核的消费级cpu,并行处理的数量以及因此可以达到的加速速度是有限的。

这时候,该我们的新朋友CuPy出场了!

什么是CuPy?

CuPy是一个库,它利用CUDA GPU库在Nvidia GPU上实现Numpy数组的运算功能。有了这个实现,由于gpu的CUDA核有很多,可以实现更好的并行加速。

640?wx_fmt=png

CuPy的接口是Numpy的镜像,在大多数情况下,它可以作为直接的替代。只要用兼容的CuPy代码替换你的Numpy代码,你就可以加使用GPU加速了。CuPy支持Numpy的大多数数组操作,包括索引、广播、数组上的数学运算和各种矩阵转换。

你也可以编写自定义的Python代码,利用CUDA和GPU加速,如果你有一些具体的东西还不支持。所需要的只是c++格式的一小段代码,CuPy将自动执行GPU转换,非常类似于使用Cython

要开始与CuPy,我们可以通过pip安装库:

 pip install cupy

使用CuPy跑在GPU上

对于这些基准测试,我将使用以下配置的PC机进行测试:

  • i7-8700k的CPU

  • 1080 Ti GPU

  • 32gb的DDR4 3000MHz内存

  • CUDA 9.0

一旦安装了CuPy,我们可以像Numpy一样导入它:

 import numpy as np
 import cupy as cp
 import time

对于剩下的代码,在Numpy和CuPy之间切换就像用CuPy的cp替换Numpy的np一样简单。下面的代码为Numpy和CuPy创建了一个包含10亿个1的3D数组。为了测量创建数组的速度,我使用了Python的原生“time”库:

 ### Numpy and CPU
 s = time.time()
 x_cpu = np.ones((1000,1000,1000))
 e = time.time()
 print(e - s)
 ### CuPy and GPU
 s = time.time()
 x_gpu = cp.ones((1000,1000,1000))
 e = time.time()
 print(e - s)

非常容易!

令人难以置信的是,即使这只是一个数组创建,CuPy仍然要快得多。Numpy在1.68秒内创建了包含10亿个1的数组,而CuPy只花了0.16秒,这是10.5倍的加速!

但我们还可以做得更多。

让我们试着对数组做一些数学运算。这次我们将整个数组乘以5,再次检查Numpy和CuPy的速度。

 ### Numpy and CPU
 s = time.time()
 x_cpu *= 5
 e = time.time()
 print(e - s)
 ### CuPy and GPU
 s = time.time()
 x_gpu *= 5
 e = time.time()
 print(e - s)

在本例中,CuPy吊打Numpy,Numpy花了0.507s,CuPy只花了0.000710s,这是714.1倍的加速!

现在让我们尝试使用多个数组并执行一些操作。下面的代码将做以下工作:

  1. 将数组乘以5

  2. 将数组与本身相乘

  3. 将数组加上自己

 ### Numpy and CPU
 s = time.time()
 x_cpu *= 5
 x_cpu *= x_cpu
 x_cpu += x_cpu
 e = time.time()
 print(e - s)
 ### CuPy and GPU
 s = time.time()
 x_gpu *= 5
 x_gpu *= x_gpu
 x_gpu += x_gpu
 e = time.time()
 print(e - s)

在本例中,Numpy在CPU上以1.49秒的时间执行完该进程,而CuPy在GPU上以0.0922秒的时间执行完该进程,仍然有16.16倍加速!

是不是超级快?

使用CuPy是在GPU上多次加速Numpy和矩阵运算的好方法。需要注意的是,你将获得的加速高度依赖于你正在处理的数组的大小。下表显示了我们改变数组大小时的速度差异:

640?wx_fmt=png

一旦我们达到大约1000万个数据点,速度就会大大加快,而一旦超过1亿个数据点,速度就会大大加快。在此之下,Numpy实际上更快。此外,请记住,更多的GPU内存将帮助你处理更多的数据,所以很重要的是看看你的GPU是否有足够的内存,以适应足够的数据,CuPy是值得的。

640?wx_fmt=png

—END—

英文原文:https://towardsdatascience.com/heres-how-to-use-cupy-to-make-numpy-700x-faster-4b920dda1f56

640?wx_fmt=jpeg

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧640?wx_fmt=gif

这篇关于如何用CuPy来对Numpy进行700倍加速的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080816

相关文章

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

遮罩,在指定元素上进行遮罩

废话不多说,直接上代码: ps:依赖 jquer.js 1.首先,定义一个 Overlay.js  代码如下: /*遮罩 Overlay js 对象*/function Overlay(options){//{targetId:'',viewHtml:'',viewWidth:'',viewHeight:''}try{this.state=false;//遮罩状态 true 激活,f

利用matlab bar函数绘制较为复杂的柱状图,并在图中进行适当标注

示例代码和结果如下:小疑问:如何自动选择合适的坐标位置对柱状图的数值大小进行标注?😂 clear; close all;x = 1:3;aa=[28.6321521955954 26.2453660695847 21.69102348512086.93747104431360 6.25442246899816 3.342835958564245.51365061796319 4.87

Python脚本:对文件进行批量重命名

字符替换:批量对文件名中指定字符进行替换添加前缀:批量向原文件名添加前缀添加后缀:批量向原文件名添加后缀 import osdef Rename_CharReplace():#对文件名中某字符进行替换(已完结)re_dir = os.getcwd()re_list = os.listdir(re_dir)original_char = input('请输入你要替换的字符:')replace_ch

SSM项目使用AOP技术进行日志记录

本步骤只记录完成切面所需的必要代码 本人开发中遇到的问题: 切面一直切不进去,最后发现需要在springMVC的核心配置文件中中开启注解驱动才可以,只在spring的核心配置文件中开启是不会在web项目中生效的。 之后按照下面的代码进行配置,然后前端在访问controller层中的路径时即可观察到日志已经被正常记录到数据库,代码中有部分注释,看不懂的可以参照注释。接下来进入正题 1、导入m

Temu官方宣导务必将所有的点位材料进行检测-RSL资质检测

关于饰品类产品合规问题宣导: 产品法规RSL要求 RSL测试是根据REACH法规及附录17的要求进行测试。REACH法规是欧洲一项重要的法规,其中包含许多对化学物质进行限制的规定和高度关注物质。 为了确保珠宝首饰的安全性,欧盟REACH法规规定,珠宝首饰上架各大电商平台前必须进行RSLReport(欧盟禁限用化学物质检测报告)资质认证,以确保产品不含对人体有害的化学物质。 RSL-铅,

Python知识点:如何使用Anaconda进行科学计算环境管理

使用 Anaconda 进行科学计算环境管理是一个非常强大且灵活的方式,特别适合处理 Python 和 R 语言的包管理和虚拟环境管理。Anaconda 集成了许多用于科学计算和数据分析的库,并提供了环境隔离的功能,确保不同项目之间不会发生包冲突。以下是使用 Anaconda 进行科学计算环境管理的详细步骤: 1. 安装 Anaconda 首先,你需要在本地机器上安装 Anaconda。你可以

Python知识点:使用Python进行PDF文档处理

使用 Python 进行 PDF 文档处理可以通过多种库来实现,包括 PyPDF2、pdfplumber、reportlab、pdfminer 等。这些库可以处理不同的 PDF 任务,例如 提取文本、拆分合并 PDF、修改 PDF、生成 PDF 等。以下是几种常见操作及对应的库和代码示例。 1. 安装常用库 首先,安装常用的 PDF 处理库: pip install PyPDF2 pdfpl

PyInstaller问题解决 onnxruntime-gpu 使用GPU和CUDA加速模型推理

前言 在模型推理时,需要使用GPU加速,相关的CUDA和CUDNN安装好后,通过onnxruntime-gpu实现。 直接运行python程序是正常使用GPU的,如果使用PyInstaller将.py文件打包为.exe,发现只能使用CPU推理了。 本文分析这个问题和提供解决方案,供大家参考。 问题分析——找不到ONNX Runtime GPU 动态库 首先直接运行python程序