一、主机配置
ecs.gn6i-c8g1.2xlarge
GPU 计算型 gn6i
8 vCPU
31 GiB
1 NVIDIA T4
1 16 GB
二、检查环境
1、检查GPU硬件是否存在
正常情况(硬件已成功挂载)执行后会输出类似这样的信息,能看到你的 T4 显卡设备 ID:
00:07.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)
TU104GL [Tesla T4]是显卡硬件的id编号,后续可以凭借此信息,找到合适的驱动版本。
只要有输出,就说明系统已经识别到了 GPU 硬件,后续安装驱动就有基础了。
异常情况(无输出)说明:
实例创建时未成功挂载 GPU
共享 GPU 实例的虚拟化配置异常。这种情况下,再怎么装驱动也没用,必须先检查实例配置或联系阿里云技术支持。
lspci | grep -i nvidia
2、检查是否安装好了GPU驱动
如果能看到包含显卡型号(T4)、显存、驱动版本的表格,就说明驱动安装成功,可以直接使用了。
如果报错:Command ‘nvidia-smi’ not found,就说明:
系统里还没安装 NVIDIA 显卡驱动,所以找不到 nvidia-smi 这个命令。
nvidia-smi
3、检查驱动版本
3.1 手动查询 GPU 型号,再找对应驱动
3.1.1、 查找gpu型号
lspci | grep -i nvidia
这里的 TU104GL [Tesla T4] 就是你的 GPU 型号。
3.1.2、根据型号找官方推荐的驱动版本
T4官方推荐的驱动名称与版本
完整名称:NVIDIA Tesla Driver 535.x 系列(长期支持版)
在 Ubuntu 包管理器里的名称:nvidia-driver-535-server
这是数据中心 / 服务器专用的驱动包,专门为 Tesla 系列
3.2 安装推荐的驱动
用 ubuntu-drivers 工具自动推荐(最省事,官方适配)
这是 Ubuntu 自带的驱动适配工具,会根据你的硬件型号,自动推荐兼容的驱动版本。
3.2.1:安装工具并更新源
apt update && apt install ubuntu-drivers-common -y
3.2.2:查看适配的驱动列表
输出解读:
会列出你的 GPU 型号(比如 NVIDIA T4)
下面会标注 recommended: nvidia-driver-535-server-open,这就是系统推荐的、最适配你的硬件的驱动版本。
ubuntu-drivers devices
4、安装推荐的驱动(以 535-server 为例)
4.1、安装推荐版本
apt install nvidia-driver-*** -y
4.2、重启生效
reboot
重启后用 nvidia-smi 验证,能看到 GPU 信息就说明适配成功了。
4.3、检查是否已经安装好了
如果有输出(比如 nvidia-driver-595-open),说明驱动包已经装了,只是没加载;如果没有输出,说明安装失败了,需要重新安装。
dpkg -l | grep nvidia-driver
4.4、如果驱动已经安装了,尝试手动加载模块
加载NVIDIA驱动模块
modprobe nvidia
检查模块是否加载成功
lsmod | grep nvidia
如果有输出,说明模块加载成功了
再执行 nvidia-smi 试试。
nvidia-smi