背景
Dell R720
Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz 24 核心 32 GB 内存。
电源 1000 W
Ubuntu 18.04.3 LTS
RTX 2080 Ti 公版,拟安装驱动版本 NVIDIA-Linux-x86_64-440.44,拟安装 CUDA 版本 10.2
准备
安装驱动
官网提供了驱动的安装包,后缀名是 run,是一个可执行文件,我选择 440.44 版本。官方安装指南
注意:
这个安装程序必须使用 root 身份运行
软件依赖:binutils,GNU make,gcc
sudo apt install binutils make gcc g++
1 | wget https://us.download.nvidia.com/XFree86/Linux-x86_64/440.44/NVIDIA-Linux-x86_64-440.44.run |
安装完成后尝试使用命令nvidia-smi
查看显卡信息,能正常显示则说明安装成功。
因为我使用的是 ubuntu server 版本,本身没有 xserver,官方安装指南里说需要,但是我没有装,虽然安装过程中有相关的提示,但是安装还是成功了,不行再说吧。
安装 CUDA
官网上提供了几种按装方法,我选择了下载离线 run 安装包的方法,版本是 10.2.89_440.33.01
1 | wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run |
这个安装包有 2.5 G,需要 1 个多小时,所以换成了 aria2,发现快了不少,12分钟就下好了。或许可以试试用在线的 run 包,不知道能不能快,但是我怕不稳定,没试。
安装
sudo sh cuda_10.2.89_440.33.01_linux.run
结果
1 | user@server:~$ sudo sh cuda_10.2.89_440.33.01_linux.run |
安装 cuDNN
7.6.5.32
官网提供了 deb 格式的安装包,有三个:
libcudnn7_7.6.5.32-1+cuda10.2_amd64.deb
libcudnn7-dev_7.6.5.32-1+cuda10.2_amd64.deb
libcudnn7-doc_7.6.5.32-1+cuda10.2_amd64.deb
先装 libcudnn7_7.6.5.32-1+cuda10.2_amd64.deb,再装 dev,再装 doc,doc 可以不装(如果要验证安装的话还是得装)。
验证安装
1 | cp -r /usr/src/cudnn_samples_v7/ $HOME |
正常的话最后显示 Test passed!
安装 Tensorflow
1 | sudo apt update |
python3 -c "import tensorflow as tf; print(tf.reduce_sum(tf.random.normal([1000, 1000])))"
python3 -c "import tensorflow as tf;print('GPU:', tf.test.is_gpu_available())"
测试不行,错误见问题解决,决定编译安装,官方文档
具体操作在这里
问题解决
Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.
有可能是 CUDA 版本和这个 tensorflow 版本对不上。