Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

레이지버드 https://gigglehd.com/gg/8273221
i5-8400 / EVGA Z370 Classified K / G.Skill DDR4 3600MHz CL15 XMP
조회 수 3019 댓글 20
Extra Form
참고/링크 https://forums.developer.nvidia.com/t/nv...ring/55702

약 1년 전 RTX TITAN 2-way 워크스테이션을 구매했습니다.

 

업체를 끼고 구매하였고 Ubuntu 18.04 및 각종 nvidia 드라이버, cuda, docker, anaconda 등 모두 설치된 상태로 받았습니다.

 

1년간 까먹고 있다가 최근에 파워 꽂고, 인터넷 연결해서 상태를 확인해보는데

 

SSH가 간헐적으로 끊기는겁니다... timeout 뜨면서요.

 

이것저것 만져보다가 결국 해결하지 못해서 아이피 충돌 혹은 내부망 불안정으로 잠정 결론내리고 1개월정도 방치했습니다.

 

 

 

그러다 어제 gpu 돌릴 일이 있어 서버를 다시 확인해봤습니다.

 

1.png

 

이때만 해도 nvidia-smi가 매우 잘 작동하는 상태였고 드라이버 및 쿠다 버전도 확인할 수 있었습니다.

(운좋게 이 화면을 찍어놔서 천만다행이었고 아니었으면 컴알못으로 몰릴뻔 했습니다...)

 

몇 분동안 핑 날려서 인터넷 안정적인지 확인한 후,

 

네트워크 스토리지 mount 잘 됐는지 확인하고...

 

모든게 순조로워서 이제 쓰면 되겠구나! 하고 리붓을 했습니다.

 

 

 

그런데 마운트 도와주시던 분이 급하게 연락을 하시는겁니다...

 

"nvidia-smi 명령어가 안되는데요?"

 

확인해보니...

 

2.png

 

띠용?

 

3.png

 

4.png

 

원인은 모르겠으나 어쨌든 드라이버가 안보입니다.

 

구글 선생님께 물어본 결과...

 

https://forums.developer.nvidia.com/t/nvidia-drivers-mysteriously-disappearing/55702

 

드라이버가 갑자기 사라졌다고 호소하는 분들을 발견...

 

"드라이버 설치 후 아무 패키지나 단 하나라도 설치하면 드라이버가 사라진다."

 

아이피 충돌 확인하려고 "nmblookup" 명령어 사용하기 위해 "samba-common-bin" 패키지 하나 설치했었습니다.

 

어제 하루종일 제 탓으로 몰리다가 오늘 겨우 원인을 발견했네요...

(사실 따지고 보면 패키지 설치한 제 탓이 맞긴 합니다만...)

 

 

 

어느날 엔비디아 드라이버가 갑자기 사라지신 분들께 도움 되라고 글 올립니다.



  • profile
    qua1121      대학원 후 스타트업의 길을 걷습니다. 날 죽여줘... 2020.09.22 11:18
    이게 이 문제였군요. 매번 쓸때마다 저 난리가 나서 결국 사용할때마다 새로운 도커 디플로이하는 식으로 처리했는데...
  • ?
    퉁퉁이 2020.09.22 11:22
    엔비디아 드라이버를 엔비디아에서 제공하는 설치파일 대신
    Apt를 통해서 설치하면 저는 저런 문제가 없더군요...
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 11:34
    레포에 올라오는 드라이버는 구버전이라 최신 CUDA 설치가 안됩니다...
  • ?
    퉁퉁이 2020.09.22 11:49
    cuda11이 필요하신건가요?
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 14:11
    CUDA 10.1이 필요한데, 우분투 공식 레포 드라이버는 10까지만 입니다..
  • profile
    Koasing      PROBLEM? 2020.09.22 12:39
    엔비디아 레포에도 늦게 올라오나요? 프로덕션 환경이 CUDA 10.2이긴 한데 엔비디아 레포로 설치해서 문제는 없었습니다.
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 14:09
    nvidia 레포나 run파일로 설치하나 똑같더라구요..
  • profile
    깻잎 2020.09.22 13:37
    dkms 패키지만 설치하시고 컨테이너로 나머지 지옥도를 격리하시는것도 쓸만한 방법이에요.
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 14:12
    이번에 개발 웍스 오면 가두려구요.,..
  • profile
    슬렌네터      Human is just the biological boot loader for A.I. 2020.09.22 11:31
    리누스 토발즈: F U 엔비디아
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 11:36
    매번 재부팅할때마다 드라이버 사라져서, 구형 커널로 부팅햇는데 저래서 그렇군요..

    덤으로 NVIDIA 드라이버만 깔면 컴퓨터 종료가 안되서 매번 강제 종료해야되는 버그좀..;;
  • ?
    록키베어 2020.09.22 12:42
    F를 눌러 조의를 표하세요.
  • profile
    낄낄 2020.09.22 12:49
    리눅스 서버 운용과 윈도우 PC는 사용 방법이 다르지만.. 이거 좀 큰 문제 아닌가요?
  • profile
    zlzleking      쌈마이 5.1.2 굴리고 있습니다 (...) 2020.09.22 12:58
    리눅스 사용하는 사람은 앤비디아를 비토해야.....
  • profile
    ForGoTTen      결제중.... 2020.09.22 13:08
    약간 다른 이야기지만... 드라이버 + CUDA +cuDNN버전 맞추다... 세번 연속으로 포멧한 적이 있습니다(...)
  • profile
    깻잎 2020.09.22 13:36
    Nvidia LKM 은 대충 잘 돌아가니 /dev/nvidia-* 만 컨테이너 안으로 포워딩해서 엔비디아 지옥도를 따로 운용하는 것도 방법입니다. 바로 엔비디아 지옥도 설치하기 시작하면 진짜 각 안 나와요 유지보수도 지옥같고...

    역시 지옥도는 컨테이너 안에 가둬야...
  • ?
    달가락 2020.09.22 13:53
    우분투 쓰시면 그냥 엔비댜 리포지터리 쓰시는 것을 권장합니다. 수년동안 수십대를 다뤄왔지만 드라이버로 애 먹은적 없습니다. 아... 애 먹긴 합니다. gpu가 뻗는다던지 아니면 갑자기 nvidia-smi에서 ERR이 뜬다던지... 그냥 설치에서 애를 안먹었다고만 이해를.

    18.04, CUDA 11 기준.

    >> (1) 18.04 설치, 서버 버전, X.org 잡을 필요 없이 네트워크만 세팅하고 ssh만 올립니다. 디바이스를 잡거나 nouveau blacklisting, 다른 nvidia-driver 설치 같은건 안해도 됩니다. 그냥 하지 마세요. 해서 좋을게 없습니다.
    >> (2) 엔비댜 리파지터리를 잡습니다.
    $ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
    $ sudo dpkg -i cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
    $ sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
    $ sudo apt-get update
    >> (2-1, Optional) nvinfer나 cudnn 필요하면 nvidia-machine-learning-repo도 세팅
    $ wget http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64/nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
    $ sudo apt install ./nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
    $ sudo apt-get update
    (일부 .deb 패키지는 out-dated 되었을 수 있으니, 대충 경로로 가면 인덱스 나오니 패키지 명만 보고 최신 버전 받습니다.)
    >> (3) 이제 대충 설치 걸어놓고 1~30분간 딴짓. 이 과정에서 Xorg도 설치되니 데스크탑 필요하면 이거 끝나고 ubuntu-desktop 같은 메타 패키지 설치하면 됩니다.
    $ sudo apt install cuda cuda-11-0
    >> (4) 재부팅 (nouveau를 빼야 해서 어쩔 수 없음. 자동으로 blacklisting 되니까 /etc/modprobe.* 같은거 건드리지 않아도 됩니다.)

    이제 거기서 cuda-10.2 같은거 깔아야 한다면 그냥 sudo apt install cuda-toolkit-10-2으로 설치하면 됩니다. 런타임만 필요하면 아래 메타 패키지 이름을 참고해서 필요한거 설치하면 됩니다.
    (참고, 메타 패키지 명명 방법: https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#package-manager-metas)

    머신러닝 repo를 잡으면 libcudnn도 그냥 대충 search해서 설치하시면 됩니다. 버전 지정 설치는 apt install libcudnn7=7.6.5.32-1+cuda10.2 과 같이 = 뒤에 버전을 붙여주면 됩니다.

    팁 1) 그리고 nvinfer나 libcudnn7 같이 설치 후에 특정 버전을 홀드해야 하는 경우에는 다음과 같이, apt-mark 명령어를 쓰세요. apt update 할 때 마다 근본없이 다른 버전꺼 설치한다고 애 먹지 마시고...
    $ sudo apt-mark hold libcudnn7 libcudnn7-dev

    버전 올려야 하면 unhold로 풀어주면 됩니다.

    팁 2) 가끔 거지같은 경우가 새 major 버전 나올 때 nvidia-drivers 버전 충돌(혹은 드라이버 패키지 명이 바뀐다던지)이 생길 수 있는데, 그 때는 그냥 새 major 버전으로 full 패키지를 설치하면 대개 해소됩니다. e.g. sudo apt install cuda-11-1

    팁 3) 업데이트하고 NVML version mismatch 나왔을 때 재부팅하기 싫으면, 다른 프로세스 다 죽이고 (lightdm/Xorg 포함) sudo rmmod nvidia nvidia_drm nvidia_uvm nvidia_modeset 해서 모듈 4개 다 내리고 modprobe nvidia 때리고 nvidia-smi 쳐보면 대부분 해결됩니다. 문제는 모듈이 안내려가는게 문제겠지요.

    ps. 한 페이지 덧글 달아서 죄송합니다. 게시글로 따로 뽑기에는 민망한 내용이라..
  • profile
    유우나      7460 2020.09.22 15:16
    리누스 토발즈: F U 엔비디아(2)
    최근 깔다가 넵 인스톨하고 세팅하다가 터져보니 정말 혈압 오르더군요
    지옥도를 따로 관리안하고 깔려고 했던 자의 최후...를 맞이하니 으악 그자체더군요
  • ?
    nsys 2020.09.22 15:20
    아주 예전에 우분투에서 겪었었는데 지금도 그런진 모르겠어서 확실하진 않습니다만
    DKMS 제대로 안돈 상태에서 커널은 업데이트 되고 이 상태에서 재부팅 된거 아닌가 하는 생각이 듭니다.
    데탑환경이라 몇번 그러고나서 살리는거 짜증나서 이후로 그냥 nouveau 쓰곤 했었죠...
  • profile
    title: 몰?루유키나      자, 부탁드립니다! / 블로그 https://randomstar.blog 2020.09.22 16:44
    리누스 토발즈: F U 엔비디아(3)

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 윈도우 10 October 2020 업데이트 완성

    윈도우 10 October 2020(20H2)에 해당되는 빌드 19042.508이 인사이더 업데이트로 전달됐습니다. 이 버전의 업데이트가 완성됐다는 소리죠. 당분간은 업데이트 강제 적용이 아니라 수동으로 설치만 가능합니다.
    Date2020.09.24 소식 By낄낄 Reply0 Views920 file
    Read More
  2. No Image

    시놀로지 모바일 앱은 원래 리버스프록시 주소를 사용하지 못하나요?

      그 왜, 시놀로지에서 정식으로 제공하는 DS Audio니, DS File이니 하는 앱들 있잖아요?   예전부터 그랬는데, 시놀로지 자체 기능으로 제공되는 리버스 프록시를 이용하여 포트번호를 숨기고 서브도메인으로   원래 사용하던 도메인이 A...
    Date2020.09.23 질문 By노예MS호 Reply7 Views1071
    Read More
  3. No Image

    마소는 이제 윈도우7을 버린건가요?

    2020년 1월 지원 종료 후는 딱히 별 문제가 없었는데 어느 달부터 공식 사이트에서 서비스팩 1 설치하는 페이지가 없어지고 업데이트를 하려니 계속 오류코드만 뜨고 나아가지 않습니다. 이러면 마소에서 아예 7에서 손을 완전히 놓아버린...
    Date2020.09.23 질문 BySunyerid Reply8 Views1243
    Read More
  4. No Image

    VEGAS MOVIE STUDIO 15 무료 배포

    아는 분들은 아실 영상 편집 프로그램인 VEGAS MOVIE STUDIO 15를 무료로 배포합니다. 계속해서 무료는 아니고 일정 기간 동안만 무료입니다. 회원 가입을 해야 하는데 뭐 그 정도야... 로그인/가입하고 다운로드를 누르면 메일로 키와 다...
    Date2020.09.23 소식 By낄낄 Reply15 Views6513
    Read More
  5. No Image

    윈도우 서버의 취약점, 미국 정부가 긴급 대응

    미국 CISA 국토 안보부는 윈도우 서버 취약점 CVE-2020-1472의 보안 업데이트를 적용하라고 정부 기관에 긴급 통보했습니다. CVE-2020-1472은 Windows Active Directory에서 사용하는 Netlogon 원격 프로토콜(MS-NRPC)을 악용하는 취약점...
    Date2020.09.23 소식 By낄낄 Reply0 Views1019
    Read More
  6. No Image

    포토샵, 하늘을 간단하게 바꾸는 기능

    어도비 포토샵에 곧 추가될 Sky Replacement라는 기능입니다. 말 그대로 사진의 하늘만 바꿔주는 기능이죠. 표준 프리셋 뿐만 아니라 사용자가 원하는 사진을 넣을 수도 있으며, 하늘 색상에 맞춰 전체 색감까지 바꿔줍니다. 어도비 센세...
    Date2020.09.23 소식 By낄낄 Reply7 Views1073
    Read More
  7. No Image

    Ryzen Clock Tuner 29일 공개 예정

    Ryzen 성능을 올려줄 수 있는 Tool이 곧 정식 공개될 예정이라고 합니다. 기다리는 분들 많을 듯 해서 올려봅니다.
    Date2020.09.22 소식 ByAlexa Reply5 Views730
    Read More
  8. 공유기 업글 질문입니다 (살짝 장문입니다)

    제가 현재 사용중인 공유기가 Asus사의 RT-AC68U 모델입니다 그 전까지는 단순히 Wi-Fi를 터지게 하는 용도로만 쓰다가 네트워크에 대해 조금 공부하고 나서야 이 녀석을 가정내 네트워크 최상단에 배치해서 하나의 망으로 묶어버려야 프...
    Date2020.09.22 질문 ByOtter Reply11 Views1145 file
    Read More
  9. Ubuntu 엔비디아 드라이버가 갑자기 사라지는 현상

    약 1년 전 RTX TITAN 2-way 워크스테이션을 구매했습니다.   업체를 끼고 구매하였고 Ubuntu 18.04 및 각종 nvidia 드라이버, cuda, docker, anaconda 등 모두 설치된 상태로 받았습니다.   1년간 까먹고 있다가 최근에 파워 꽂고, 인터넷...
    Date2020.09.22 일반 By레이지버드 Reply20 Views3019 file
    Read More
  10. No Image

    크롬 OS, UI에서 크롬 브라우저를 분리하는 프로젝트

    Lacros는 크롬 OS 윈도우 관리/시스템 UI에서 크롬 브라우저를 분리하는 프로젝트입니다. 크롬 OS의 시스템 UI와 웹 브라우저는 똑같은 바이너리지만, Lacros에서는 이걸 두 개의 바이너리로 분리합니다. 이렇게 분리하면 무슨 의미가 있...
    Date2020.09.22 소식 By낄낄 Reply2 Views811
    Read More
  11. No Image

    개인적인 Windows 설치법, 설정

    0. USB 플래시 드라이브를 구입하고, Windows 10 설치 미디어 제작 및 필수 소프트웨어 설치 파일 복사 1. CMOS 설정에 들어가 EFI 부팅이 되지 않도록 설정, 부트 미디어 설정 2. 옵션이 필요하다면 적절히 선택해준 뒤 다음 누르고 키 ...
    Date2020.09.21 일반 Bytitle: 컴맹임시닉네임 Reply13 Views1535
    Read More
  12. 윈도우10 20H2 버전으로 올렸습니다.

      일단 메인으로 쓰는 노트북에다 올렸고, 인사이더 릴리즈 프리뷰 링입니다. (링크 참조. 정식 업데이트는 아마도 다음달 중 예정)   오늘 업데이트를 체크해보니 올라와 있어서 바로 업뎃을 올렸는데 일단 작년 1909 버전처럼 (서비스...
    Date2020.09.21 일반 Bytitle: 몰?루유키나 Reply5 Views1686 file
    Read More
  13. No Image

    Windows 10 20H2는 언제쯤 나올까요? 외 1

    링크된 글을 보니 조금 있으면 Windows 10 19H1 지원이 끊긴다던데, 제 YouTube 영상 다운로드용 컴퓨터가 19H1이 설치되어 있습니다. 어차피 C: 크기 때문에 모든 압데이트가 설치되지 않지만, 인터넷에 계속 연결되어 있는데 1년 넘게 ...
    Date2020.09.20 질문 Bytitle: 컴맹임시닉네임 Reply6 Views804
    Read More
  14. No Image

    트럼프 '틱톡·오라클·월마트' 매각협상 합의 승인

    도널드 트럼프 미국 대통령이 인기 동영상 앱 틱톡과 미국의 오라클·월마트 간 매각협상 합의를 승인함으로써 틱톡은 미국에서 새로운 회사를 설립해 새 출발 할 수 있게 됐다. 미국 정부는 20일(현지시간)부터 틱톡을 미국에서 사...
    Date2020.09.20 소식 By낄낄 Reply1 Views566
    Read More
  15. 태어나서 처음으로 Windows 10 20H1을 설치했습니다.

        금일 가족이 사용할 데스크톱을 조립했습니다. 주기억장치만 없는 반본체에서 시작해서 조립 시간보다 부품 찾는 시간이 더 길었습니다. 소프트웨어 설치하는 데 시간을 다 썼네요. 간단한 설치기 적어둡니다.   참고/링크에서 미디...
    Date2020.09.20 일반 Bytitle: 컴맹임시닉네임 Reply17 Views871 file
    Read More
목록
Board Pagination Prev 1 ... 318 319 320 321 322 323 324 325 326 327 ... 577 Next
/ 577

더함
한미마이크로닉스
AMD
MSI 코리아

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소