약 1년 전 RTX TITAN 2-way 워크스테이션을 구매했습니다.
업체를 끼고 구매하였고 Ubuntu 18.04 및 각종 nvidia 드라이버, cuda, docker, anaconda 등 모두 설치된 상태로 받았습니다.
1년간 까먹고 있다가 최근에 파워 꽂고, 인터넷 연결해서 상태를 확인해보는데
SSH가 간헐적으로 끊기는겁니다... timeout 뜨면서요.
이것저것 만져보다가 결국 해결하지 못해서 아이피 충돌 혹은 내부망 불안정으로 잠정 결론내리고 1개월정도 방치했습니다.
그러다 어제 gpu 돌릴 일이 있어 서버를 다시 확인해봤습니다.
이때만 해도 nvidia-smi가 매우 잘 작동하는 상태였고 드라이버 및 쿠다 버전도 확인할 수 있었습니다.
(운좋게 이 화면을 찍어놔서 천만다행이었고 아니었으면 컴알못으로 몰릴뻔 했습니다...)
몇 분동안 핑 날려서 인터넷 안정적인지 확인한 후,
네트워크 스토리지 mount 잘 됐는지 확인하고...
모든게 순조로워서 이제 쓰면 되겠구나! 하고 리붓을 했습니다.
그런데 마운트 도와주시던 분이 급하게 연락을 하시는겁니다...
"nvidia-smi 명령어가 안되는데요?"
확인해보니...
띠용?
원인은 모르겠으나 어쨌든 드라이버가 안보입니다.
구글 선생님께 물어본 결과...
https://forums.developer.nvidia.com/t/nvidia-drivers-mysteriously-disappearing/55702
드라이버가 갑자기 사라졌다고 호소하는 분들을 발견...
"드라이버 설치 후 아무 패키지나 단 하나라도 설치하면 드라이버가 사라진다."
아이피 충돌 확인하려고 "nmblookup" 명령어 사용하기 위해 "samba-common-bin" 패키지 하나 설치했었습니다.
어제 하루종일 제 탓으로 몰리다가 오늘 겨우 원인을 발견했네요...
(사실 따지고 보면 패키지 설치한 제 탓이 맞긴 합니다만...)
어느날 엔비디아 드라이버가 갑자기 사라지신 분들께 도움 되라고 글 올립니다.