ubuntu22.04LTS安装NVIDIA官方4090D驱动CUDA CUDNN Anaconda Pytorch2等

前言:

一键部署驱动coda脚本

curl -fLO https://onenote.zznnwn.cloudns.biz/api/raw/?path=/%E8%84%9A%E6%9C%AC/ubuntu%E4%B8%80%E9%94%AE%E9%83%A8%E7%BD%B2NVIDIA%E9%A9%B1%E5%8A%A8/nvidia-gpu.sh

1. 安装依赖

1
2
3
4
sudo apt-get update   #更新软件列表
sudo apt-get install g++
sudo apt-get install gcc
sudo apt-get install make

1
sudo apt-get install build-essential gcc-multilib dkms

如果遇到无法下载的情况,可能是因为安装完系统后源不可用,可以先更换国内镜像源后在进行本步骤(换源方法:写给工程师的 Ubuntu 20.04 最佳配置指南2、3步)

2. 卸载原有驱动

1
2
sudo apt-get remove --purge nvidia*   # 或者nvidia-*

3. 官网下载对应驱动

下载好之后,注意把nvidia驱动放在英文名文件夹下,比如mkdir driver 新建文件夹“driver”
官网地址:Nvidia驱动下载地址
我这里显卡是4090,官网推荐驱动版本为535.54.03

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_a82106785b61bc2f12e3efa9b941936c.png

4. 禁用nouveau

1
2
sudo gedit /etc/modprobe.d/blacklist.conf 或者(blacklist-nouveau.conf)

(如果没有gedit输入以上指令会报错,可以 sudo apt-get install gedit 安装 gedit 或使用 nano 代替 gedit )

在打开的blacklist.conf末尾添加如下,保存文本关闭

1
2
3
blacklist nouveau
options nouveau modeset=0

在终端输入如下命令,进行更新

1
sudo update-initramfs -u

更新结束后重启电脑

1
sudo reboot

重启后在终端输入如下命令,如果没有输出则说明成功禁用nouveau

1
lsmod | grep nouveau

5. 停止当前的显示服务器

最简单的方法是使用telinit命令更改为运行级别3。在终端输入以下linux命令后,显示服务器将停止。

1
2
sudo telinit 3

一般执行完上述命令后,系统自动进入文本界面tty;
如果进不去,就按Ctrl + Alt + F1~F6中的一个 (分别对应进入tty1~tty6)
然后输入用户名和密码

6. 在文本界面中,禁用X-window服务

在终端输入

1
2
sudo /etc/init.d/gdm3 stop或者(sudo service gdm3 stop)

7. 安装驱动

cd命令进入到存放驱动的目录,输入命令(命令中的文件名以你下载的驱动为准)

1
2
sudo chmod 777 NVIDIA-Linux-x86_64-535.54.03.run   #给你下载的驱动赋予可执行权限,才可以安装
sudo ./NVIDIA-Linux-x86_64-535.54.03.run –no-opengl-files #安装

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_f8b9841992eaa256d8d224a8a53f064a.png

以上问题并非按我写的顺序出现,但是当时没有截图所以忘记顺序了。表格中最后一个问题需要注意,在其它的教程中,这个问题选yes,但是在我安装系统的过程中,选yes会导致电脑重启后无法正常开机。所以这里我选了No,重启后能够正常开机。(Ubuntu20.04 、显卡4090)

8. 重启图形界面

安装完成后退回图形界面:

1
sudo init 5 

or

1
ctrl + alt + f7 

or

1
sudo service gdm3 restart

或者终端输入 reboot 重启

9. 测试显卡驱动是否安装成功

终端输入:

1
2
nvidia-smi

出现类似下图的界面,说明成功安装驱动

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_faf7c52e1453ed6831feafd08733747a.png

四. 安装CUDA

为了能够使用pytorch2,我在这里安装的CUDA11.8版本。
参考教程:CUDA_11.8安装-知乎

1. 官网下载CUDA

CUDA Toolkit 11.8 Downloads

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_a3e710d1f0efc1cd8aa0c09ba852954c.png

2. 下载CUDA

终端输入上一步获得的命令,下载runfile文件

1
2
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run

3. 安装

执行上一条命令下载runfile文件后,cd到文件所在路径,执行下面的命令,安装cuda

1
sudo sh cuda_11.8.0_520.61.05_linux.run

执行后稍微等待,会出现如下画面

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_75d6fd3264f5a14aea3d46eb7188bfad.png

上下移动光标到Driver位置,按空格取消选择;用相同的操作取消另外三个选项,只安装CUDA Toolkit 11.8主体(如图)

继续移动光标到Options,按回车,进入安装配置界面(如下)

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_137f5444520fc1ba1ec212be997df3a5.png

光标移动到Toolkit Options,按回车,进入CUDA安装配置界面 取消选择所有选项

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_0067f24a438738730d4d902abcec20ce.png

如上图,去掉所有选项,特别是Create symbolic link from /usr/local/cuda选项,最好是去掉。这样安装完成后,是不会在/usr/local/下生成cuda软链接目录。这个软链接目录在安装过程中是不可修改的,当我们安装多版本CUDA时,会重复覆盖这个软链接目录,对我们使用CUDA会产生不必要的麻烦。

CUDA默认安装在/usr/local/目录下,一般Change Toolkit Install Path可以不做修改。但如果是普通用户安装,需设定安装路径为用户主目录下,光标移动到Change Toolkit Install Path按回车,手动修改安装路径后按回车退出路径配置界面

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_7384d8d55a365e5df7705a52eaba2a81.png

——————————————

此时如果想要修改路径,可以设置为自己想要放在的位置,如 /home/用户名/app/cuda-11.8/

此时选择完成 done处回车 直到回到第一步选择 install 此时选择Upgrade all 即可 安装完成后 下方设置系统变量即可配置完成

4. 设置CUDA环境

可配置在~/.bashrc目录或者系统变量路径/etc/profile

如果上一步选择用root用户安装在默认路径,则root用户环境变量配置如下示例:

1
2
export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.8/lib64

如果是普通用户安装在自己的用户目录下,环境变量配置如下示例:

1
2
export PATH=/home/duyong/apps/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/duyong/apps/cuda-11.8/lib64

使用户配置文件即刻生效

1
source ~/.bashrc

验证CUDA是否安装成功

1
nvcc -V

如果有类似如下输出说明安装成功

nvcc: NVIDIA ® Cuda complier driver
Copyright © 2005-2022 NVIDIA Coropration
Bulit on Wed_Jun__8_16:49:14_PDT_2022
Cuda copiltation tools, release 11.7, V11.7.99
Build cuda_11.7.r11.7/compiler .31442593_0

安装完成后重启

五. 安装CUDNN

官网下载地址:(需要注册)

https://developer.nvidia.com/cudnn

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_255bdd3027c994186d2ab7d232c048d6.png

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_a00f30ce85ee7aea5ba4008845c2697a.png

点击下载,下载完成后解压文件,在当前文件夹下打开终端,输入:

1
2
3
4
5
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

此步操作为拷贝文件到指定位置,并赋予权限

验证是否安装成功,输入:

1
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

安装成功会有类似下图的输出

https://github.com/zznn-cloud/zznn-cloud-blog-images/raw/main/Qexo/24/6/image_2a150aaca0cc6b1bfd635806439e0210.png

六. 安装Anaconda

参考:Ubuntu 20.04安装Anaconda3及简单使用

七. 安装Pytorch2

参考:超详细 Ubuntu安装PyTorch步骤

参考文章

https://zhuanlan.zhihu.com/p/590877041
https://blog.csdn.net/hwh295/article/details/113409389
https://blog.csdn.net/Perfect886/article/details/119109380
https://zhuanlan.zhihu.com/p/61255639
https://blog.csdn.net/m0_50117360/article/details/108403586
https://blog.csdn.net/KRISNAT/article/details/124068391
————————————————

本文参考:

https://blog.csdn.net/qq_43775794/article/details/131770933