ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Linux] Failed to initialize NVML: Driver/library version mismatch (feat. nvidia-smi 오류)
    linux/오류해결 2024. 3. 4. 15:35

    ubuntu 서버를 사용해서 딥러닝 코드를 실행하는데 아래와 같은 warning이 발생하였다

    (gpu를 활용한 딥러닝 연산보조는 정상작동함)

    UserWarning: Can't initialize NVML warnings.warn("Can't initialize NVML")

     

     

    터미널에서 nvidia-smi를 입력하여 보았는데 아래와 같이 나오며 오류가 발생하였다 

    Failed to initialize NVML: Driver/library version mismatch 

     

    여기서 말하는 NVML이 뭔가 해서 찾아보니

    NVML(NVIDIA Management Library)이란 NVIDIA GPU를 모니터링하고 제어하는 도구로, 보통 CUDA 프로그램에서 GPU 상태를 확인하거나 제어할 때 사용된다고 한다

     

    이 문제는 아마도 드라이버 문제일 거라 생각되어 아래의 순서로 명령어를 입력해 보았다 

    1. 현재 설치된 그래픽 드라이버를 확인
    ubuntu-drivers devices
    == /sys/devices/pci0000:10/1100:00:01.1/0000:01:11.1 ==
    modalias : pci:xxxxxxxxxxxxxxxxxxxxxxxx
    vendor   : NVIDIA Corporation
    model    : GA102GL [RTX A6000]
    driver   : nvidia-driver-535-server - distro non-free
    driver   : nvidia-driver-535-server-open - distro non-free
    driver   : nvidia-driver-545 - distro non-free
    driver   : nvidia-driver-535 - distro non-free recommended
    driver   : nvidia-driver-525-open - distro non-free
    driver   : nvidia-driver-525 - distro non-free
    driver   : nvidia-driver-550 - third-party non-free
    driver   : nvidia-driver-550-open - third-party non-free
    driver   : nvidia-driver-470 - distro non-free
    driver   : nvidia-driver-535-open - distro non-free
    driver   : nvidia-driver-545-open - distro non-free
    driver   : nvidia-driver-525-server - distro non-free
    driver   : nvidia-driver-470-server - distro non-free
    driver   : xserver-xorg-video-nouveau - distro free builtin

    현재 사용 중인 그래픽카드에는 nvidia-driver-535 드라이버를 recommended 한다고 나타남
    2. 설치된 드라이버를 확인한 후, 해당 드라이버를 완전히 제거 
    sudo apt-get purge nvidia-driver-535
    3. 드라이버를 제거한 후 시스템을 재부팅
    sudo reboot
    4. 시스템이 다시 부팅되면 새로운 그래픽 드라이버 설치

    (recommended 버전인 nvidia-driver-535 버전 설치)

    sudo apt-get install nvidia-driver-535
    5. 다시 시스템 재부팅
    sudo reboot
    6. nvidia-smi 확인
    nvidia-smi

     

    짜잔~ 해결완료!

    'linux > 오류해결' 카테고리의 다른 글

    [Linux]ERROR: The nvidia kernel module was not created.  (1) 2024.07.16
Designed by Tistory.