阿里云GPU服务器上Torch安装与测试

2024-08-28 11:32

本文主要是介绍阿里云GPU服务器上Torch安装与测试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • 本文个人博客访问地址: 点击查看

一、介绍

  • 阿里云的GPU也有了竞价服务,每小时大概1块多,还是可以接受的
  • 主要想跑github上的一个论文代码,使用的GPU,(奈何实验室没有GPU), 本来我已经改成CPU版本的了,但是他训练好的模型是基于GPU的,所以还需要重新训练,结果非常的慢…
  • 包含以下内容:
    • 购买竞价GPU
    • 通过SSH连接云服务器
    • 安装Torch、hdf5、cjson、loadcaffe
    • 安装cuda、cudnn、cunn

二、购买GPU服务器

  • 进入阿里云GPU介绍页,点击访问,界面如下,我选择的是GN5(P100)

GPU介绍页
- 选择竞价实例

选择竞价实例
- 选择GPU

选择GPU
- 选择Ubuntu版本和带宽
- 这里按使用流量,所以带宽设置大点没有影响

选择系统和带宽

  • 在控制台可以看到服务器信息,下面需要使用公网IP连接

控制台

三、连接GPU服务器以及软件的安装

1、使用SecureCRT连接服务器

连接服务器

2、安装前准备工作

  • apt clean
  • apt update
  • 安装git命令行:apt install git
  • 生成ssh-key : ssh-keygen -t rsa -C "youremail@example.com"
    • /root/.ssh/id_rsa.pub中内容加入到github

3、安装Torch

  • 网址:http://torch.ch/docs/getting-started.html
  • git clone https://github.com/torch/distro.git ~/torch --recursive
  • cd ~/torch
  • bash install-deps
  • ./install.sh
  • source ~/.bashrc
  • 输入th查看安装是否成功

torch

4、 安装hdf5

  • 地址: https://github.com/deepmind/torch-hdf5/blob/master/doc/usage.md
  • apt-get install libhdf5-serial-dev hdf5-tools
  • git clone https://github.com/deepmind/torch-hdf5
  • cd torch-hdf5
  • luarocks make hdf5-0-0.rockspec LIBHDF5_LIBDIR="/usr/lib/x86_64-linux-gnu/"
    • 注意这里 luarocksTorch 里的,在 /root/torch/install/bin 目录下

5、 安装 cjsonloadcaffe

  • luarocks install lua-cjson
  • apt-get install libprotobuf-dev protobuf-compiler
  • luarocks install loadcaffe

6、安装Cuda

  • 网址:点击查看
  • 选择对应的cuda版本

cuda
- sudo dpkg -i cuda-repo-ubuntu1604-9-1-local_9.1.85-1_amd64.deb
- sudo apt-key add /var/cuda-repo-<version>/7fa2af80.pub
- sudo apt-get update
- sudo apt-get install cuda
- 安装完成后会在/usr/local/目录下出现cuda-9.1的目录
- 加入到环境变量
- echo "export PATH=/usr/local/cuda-9.1/bin/:\$PATH; export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64/:\$LD_LIBRARY_PATH; " >>~/.bashrc && source ~/.bashrc
- 此时cuda已经安装成功,可以通过nvcc -V测试是否安装成功
- nvidia-smi命令查看GPU使用情况

cuda安装测试
- 有时可能需要重启一下

7、安装cudnn

  • 网址1:点击查看
  • 网址2:下载cudnn
    • 需要先注册登录才能下载
  • 注意这里下载的版本,我这里使用的是5.1版本(尝试了最新的7.x版本,有问题)

cudnn版本
- 直接luarocks install cudnn是可以成功安装的,但是有问题
- 下载的是压缩包,里面有两个文件夹

cudnn压缩包
- 将include下的cudnn.h文件拷贝到/usr/local/cuda-9.1/include/文件夹下
- 将lib64下的libcudnn.so.5.1.10文件拷贝到/usr/local/cuda-9.1/lib64/文件夹下
- 并且创建软连接: ln -s libcudnn.so.5.1.10 libcudnn.so.5
- 添加环境变量:export CUDNN_PATH="/usr/local/cuda-9.1/lib64/libcudnn.so.5"

cudnn5.x

四、测试

  • 下面是我跑的一个程序

GPU使用情况

五、其他一些说明

1、rz/sz文件传输

  • wget https://raw.githubusercontent.com/lawlite19/LinuxSoftware/master/rz-sz/lrzsz-0.12.20.tar.gz
  • tar zxvf lrzsz-0.12.20.tar.gz
  • cd lrzsz-0.12.20
  • ./configure && make && make install
  • cd /usr/local/bin
  • ln -s lrz rz
  • ln -s lsz sz

2、使用xftp等工具传输文件

  • 服务器上需要安装ftp服务

3、wget 下载百度云盘文件

  • wget -c ----referer=百度云盘分享地址 -O 要保存的文件名 "百度云文件真实地址"
  • 文件的真实地址获取
    • 浏览器按F12, 点击下载找到download?的信息
    • dlink为真实地址,注意去除转义字符\

获取百度云真实地址
- 比如: wget -c --referer=https://pan.baidu.com/s/1kV7Xo7H -O lstm1_rnn512_bestACC.zip "https://d.pcs.baidu.com/file/4e4cd12ad77d7ac60d2cfcb8e009bf1c?fid=3174489928-250528-212189063946307&time=1514127189&rt=pr&sign=FDTAERVCY-DCb740ccc5511e5e8fedcff06b081203-LWe3VIBsW3foAEVnTUqSROJQ46s%3D&expires=8h&chkv=1&chkbd=1&chkpc=et&dp-logid=8301954057401711855&dp-callid=0&r=884079691"

Reference

  • Cuda:
    • https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1604&target_type=deblocal
    • http://blog.csdn.net/u012235003/article/details/54575758
    • http://blog.csdn.net/hungryof/article/details/51557666
    • https://github.com/facebookarchive/fbcunn/blob/master/INSTALL.md#install-cuda
  • Wget下载百度云:
    • http://blog.csdn.net/zhongdajiajiao/article/details/51917886

这篇关于阿里云GPU服务器上Torch安装与测试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1114636

相关文章

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa

MySQL Workbench 安装教程(保姆级)

《MySQLWorkbench安装教程(保姆级)》MySQLWorkbench是一款强大的数据库设计和管理工具,本文主要介绍了MySQLWorkbench安装教程,文中通过图文介绍的非常详细,对大... 目录前言:详细步骤:一、检查安装的数据库版本二、在官网下载对应的mysql Workbench版本,要是

Linux安装MySQL的教程

《Linux安装MySQL的教程》:本文主要介绍Linux安装MySQL的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux安装mysql1.Mysql官网2.我的存放路径3.解压mysql文件到当前目录4.重命名一下5.创建mysql用户组和用户并修

CentOS 7部署主域名服务器 DNS的方法

《CentOS7部署主域名服务器DNS的方法》文章详细介绍了在CentOS7上部署主域名服务器DNS的步骤,包括安装BIND服务、配置DNS服务、添加域名区域、创建区域文件、配置反向解析、检查配置... 目录1. 安装 BIND 服务和工具2.  配置 BIND 服务3 . 添加你的域名区域配置4.创建区域

pip无法安装osgeo失败的问题解决

《pip无法安装osgeo失败的问题解决》本文主要介绍了pip无法安装osgeo失败的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 进入官方提供的扩展包下载网站寻找版本适配的whl文件注意:要选择cp(python版本)和你py

Windows Server服务器上配置FileZilla后,FTP连接不上?

《WindowsServer服务器上配置FileZilla后,FTP连接不上?》WindowsServer服务器上配置FileZilla后,FTP连接错误和操作超时的问题,应该如何解决?首先,通过... 目录在Windohttp://www.chinasem.cnws防火墙开启的情况下,遇到的错误如下:无法与

Android App安装列表获取方法(实践方案)

《AndroidApp安装列表获取方法(实践方案)》文章介绍了Android11及以上版本获取应用列表的方案调整,包括权限配置、白名单配置和action配置三种方式,并提供了相应的Java和Kotl... 目录前言实现方案         方案概述一、 androidManifest 三种配置方式

Python解析器安装指南分享(Mac/Windows/Linux)

《Python解析器安装指南分享(Mac/Windows/Linux)》:本文主要介绍Python解析器安装指南(Mac/Windows/Linux),具有很好的参考价值,希望对大家有所帮助,如有... 目NMNkN录1js. 安装包下载1.1 python 下载官网2.核心安装方式3. MACOS 系统安