-
[Linux] Failed to initialize NVML: Driver/library version mismatch (feat. nvidia-smi 오류)linux/오류해결 2024. 3. 4. 15:35
ubuntu 서버를 사용해서 딥러닝 코드를 실행하는데 아래와 같은 warning이 발생하였다
(gpu를 활용한 딥러닝 연산보조는 정상작동함)
UserWarning: Can't initialize NVML warnings.warn("Can't initialize NVML")
터미널에서 nvidia-smi를 입력하여 보았는데 아래와 같이 나오며 오류가 발생하였다
Failed to initialize NVML: Driver/library version mismatch
여기서 말하는 NVML이 뭔가 해서 찾아보니
NVML(NVIDIA Management Library)이란 NVIDIA GPU를 모니터링하고 제어하는 도구로, 보통 CUDA 프로그램에서 GPU 상태를 확인하거나 제어할 때 사용된다고 한다
이 문제는 아마도 드라이버 문제일 거라 생각되어 아래의 순서로 명령어를 입력해 보았다
1. 현재 설치된 그래픽 드라이버를 확인
ubuntu-drivers devices
== /sys/devices/pci0000:10/1100:00:01.1/0000:01:11.1 ==
modalias : pci:xxxxxxxxxxxxxxxxxxxxxxxx
vendor : NVIDIA Corporation
model : GA102GL [RTX A6000]
driver : nvidia-driver-535-server - distro non-free
driver : nvidia-driver-535-server-open - distro non-free
driver : nvidia-driver-545 - distro non-free
driver : nvidia-driver-535 - distro non-free recommended
driver : nvidia-driver-525-open - distro non-free
driver : nvidia-driver-525 - distro non-free
driver : nvidia-driver-550 - third-party non-free
driver : nvidia-driver-550-open - third-party non-free
driver : nvidia-driver-470 - distro non-free
driver : nvidia-driver-535-open - distro non-free
driver : nvidia-driver-545-open - distro non-free
driver : nvidia-driver-525-server - distro non-free
driver : nvidia-driver-470-server - distro non-free
driver : xserver-xorg-video-nouveau - distro free builtin
현재 사용 중인 그래픽카드에는 nvidia-driver-535 드라이버를 recommended 한다고 나타남2. 설치된 드라이버를 확인한 후, 해당 드라이버를 완전히 제거
sudo apt-get purge nvidia-driver-535
3. 드라이버를 제거한 후 시스템을 재부팅
sudo reboot
4. 시스템이 다시 부팅되면 새로운 그래픽 드라이버 설치
(recommended 버전인 nvidia-driver-535 버전 설치)
sudo apt-get install nvidia-driver-535
5. 다시 시스템 재부팅
sudo reboot
6. nvidia-smi 확인
nvidia-smi
짜잔~ 해결완료!
'linux > 오류해결' 카테고리의 다른 글
[Linux]ERROR: The nvidia kernel module was not created. (1) 2024.07.16