Skip to content

기글하드웨어기글하드웨어

인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

레이지버드 https://gigglehd.com/gg/8273221
i5-8400 / EVGA Z370 Classified K / G.Skill DDR4 3600MHz CL15 XMP
조회 수 3019 댓글 20
Extra Form
참고/링크 https://forums.developer.nvidia.com/t/nv...ring/55702

약 1년 전 RTX TITAN 2-way 워크스테이션을 구매했습니다.

 

업체를 끼고 구매하였고 Ubuntu 18.04 및 각종 nvidia 드라이버, cuda, docker, anaconda 등 모두 설치된 상태로 받았습니다.

 

1년간 까먹고 있다가 최근에 파워 꽂고, 인터넷 연결해서 상태를 확인해보는데

 

SSH가 간헐적으로 끊기는겁니다... timeout 뜨면서요.

 

이것저것 만져보다가 결국 해결하지 못해서 아이피 충돌 혹은 내부망 불안정으로 잠정 결론내리고 1개월정도 방치했습니다.

 

 

 

그러다 어제 gpu 돌릴 일이 있어 서버를 다시 확인해봤습니다.

 

1.png

 

이때만 해도 nvidia-smi가 매우 잘 작동하는 상태였고 드라이버 및 쿠다 버전도 확인할 수 있었습니다.

(운좋게 이 화면을 찍어놔서 천만다행이었고 아니었으면 컴알못으로 몰릴뻔 했습니다...)

 

몇 분동안 핑 날려서 인터넷 안정적인지 확인한 후,

 

네트워크 스토리지 mount 잘 됐는지 확인하고...

 

모든게 순조로워서 이제 쓰면 되겠구나! 하고 리붓을 했습니다.

 

 

 

그런데 마운트 도와주시던 분이 급하게 연락을 하시는겁니다...

 

"nvidia-smi 명령어가 안되는데요?"

 

확인해보니...

 

2.png

 

띠용?

 

3.png

 

4.png

 

원인은 모르겠으나 어쨌든 드라이버가 안보입니다.

 

구글 선생님께 물어본 결과...

 

https://forums.developer.nvidia.com/t/nvidia-drivers-mysteriously-disappearing/55702

 

드라이버가 갑자기 사라졌다고 호소하는 분들을 발견...

 

"드라이버 설치 후 아무 패키지나 단 하나라도 설치하면 드라이버가 사라진다."

 

아이피 충돌 확인하려고 "nmblookup" 명령어 사용하기 위해 "samba-common-bin" 패키지 하나 설치했었습니다.

 

어제 하루종일 제 탓으로 몰리다가 오늘 겨우 원인을 발견했네요...

(사실 따지고 보면 패키지 설치한 제 탓이 맞긴 합니다만...)

 

 

 

어느날 엔비디아 드라이버가 갑자기 사라지신 분들께 도움 되라고 글 올립니다.



  • profile
    qua1121      대학원 후 스타트업의 길을 걷습니다. 날 죽여줘... 2020.09.22 11:18
    이게 이 문제였군요. 매번 쓸때마다 저 난리가 나서 결국 사용할때마다 새로운 도커 디플로이하는 식으로 처리했는데...
  • ?
    퉁퉁이 2020.09.22 11:22
    엔비디아 드라이버를 엔비디아에서 제공하는 설치파일 대신
    Apt를 통해서 설치하면 저는 저런 문제가 없더군요...
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 11:34
    레포에 올라오는 드라이버는 구버전이라 최신 CUDA 설치가 안됩니다...
  • ?
    퉁퉁이 2020.09.22 11:49
    cuda11이 필요하신건가요?
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 14:11
    CUDA 10.1이 필요한데, 우분투 공식 레포 드라이버는 10까지만 입니다..
  • profile
    Koasing      PROBLEM? 2020.09.22 12:39
    엔비디아 레포에도 늦게 올라오나요? 프로덕션 환경이 CUDA 10.2이긴 한데 엔비디아 레포로 설치해서 문제는 없었습니다.
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 14:09
    nvidia 레포나 run파일로 설치하나 똑같더라구요..
  • profile
    깻잎 2020.09.22 13:37
    dkms 패키지만 설치하시고 컨테이너로 나머지 지옥도를 격리하시는것도 쓸만한 방법이에요.
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 14:12
    이번에 개발 웍스 오면 가두려구요.,..
  • profile
    슬렌네터      Human is just the biological boot loader for A.I. 2020.09.22 11:31
    리누스 토발즈: F U 엔비디아
  • profile
    int20h      메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2020.09.22 11:36
    매번 재부팅할때마다 드라이버 사라져서, 구형 커널로 부팅햇는데 저래서 그렇군요..

    덤으로 NVIDIA 드라이버만 깔면 컴퓨터 종료가 안되서 매번 강제 종료해야되는 버그좀..;;
  • ?
    록키베어 2020.09.22 12:42
    F를 눌러 조의를 표하세요.
  • profile
    낄낄 2020.09.22 12:49
    리눅스 서버 운용과 윈도우 PC는 사용 방법이 다르지만.. 이거 좀 큰 문제 아닌가요?
  • profile
    zlzleking      쌈마이 5.1.2 굴리고 있습니다 (...) 2020.09.22 12:58
    리눅스 사용하는 사람은 앤비디아를 비토해야.....
  • profile
    ForGoTTen      결제중.... 2020.09.22 13:08
    약간 다른 이야기지만... 드라이버 + CUDA +cuDNN버전 맞추다... 세번 연속으로 포멧한 적이 있습니다(...)
  • profile
    깻잎 2020.09.22 13:36
    Nvidia LKM 은 대충 잘 돌아가니 /dev/nvidia-* 만 컨테이너 안으로 포워딩해서 엔비디아 지옥도를 따로 운용하는 것도 방법입니다. 바로 엔비디아 지옥도 설치하기 시작하면 진짜 각 안 나와요 유지보수도 지옥같고...

    역시 지옥도는 컨테이너 안에 가둬야...
  • ?
    달가락 2020.09.22 13:53
    우분투 쓰시면 그냥 엔비댜 리포지터리 쓰시는 것을 권장합니다. 수년동안 수십대를 다뤄왔지만 드라이버로 애 먹은적 없습니다. 아... 애 먹긴 합니다. gpu가 뻗는다던지 아니면 갑자기 nvidia-smi에서 ERR이 뜬다던지... 그냥 설치에서 애를 안먹었다고만 이해를.

    18.04, CUDA 11 기준.

    >> (1) 18.04 설치, 서버 버전, X.org 잡을 필요 없이 네트워크만 세팅하고 ssh만 올립니다. 디바이스를 잡거나 nouveau blacklisting, 다른 nvidia-driver 설치 같은건 안해도 됩니다. 그냥 하지 마세요. 해서 좋을게 없습니다.
    >> (2) 엔비댜 리파지터리를 잡습니다.
    $ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
    $ sudo dpkg -i cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
    $ sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
    $ sudo apt-get update
    >> (2-1, Optional) nvinfer나 cudnn 필요하면 nvidia-machine-learning-repo도 세팅
    $ wget http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64/nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
    $ sudo apt install ./nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
    $ sudo apt-get update
    (일부 .deb 패키지는 out-dated 되었을 수 있으니, 대충 경로로 가면 인덱스 나오니 패키지 명만 보고 최신 버전 받습니다.)
    >> (3) 이제 대충 설치 걸어놓고 1~30분간 딴짓. 이 과정에서 Xorg도 설치되니 데스크탑 필요하면 이거 끝나고 ubuntu-desktop 같은 메타 패키지 설치하면 됩니다.
    $ sudo apt install cuda cuda-11-0
    >> (4) 재부팅 (nouveau를 빼야 해서 어쩔 수 없음. 자동으로 blacklisting 되니까 /etc/modprobe.* 같은거 건드리지 않아도 됩니다.)

    이제 거기서 cuda-10.2 같은거 깔아야 한다면 그냥 sudo apt install cuda-toolkit-10-2으로 설치하면 됩니다. 런타임만 필요하면 아래 메타 패키지 이름을 참고해서 필요한거 설치하면 됩니다.
    (참고, 메타 패키지 명명 방법: https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#package-manager-metas)

    머신러닝 repo를 잡으면 libcudnn도 그냥 대충 search해서 설치하시면 됩니다. 버전 지정 설치는 apt install libcudnn7=7.6.5.32-1+cuda10.2 과 같이 = 뒤에 버전을 붙여주면 됩니다.

    팁 1) 그리고 nvinfer나 libcudnn7 같이 설치 후에 특정 버전을 홀드해야 하는 경우에는 다음과 같이, apt-mark 명령어를 쓰세요. apt update 할 때 마다 근본없이 다른 버전꺼 설치한다고 애 먹지 마시고...
    $ sudo apt-mark hold libcudnn7 libcudnn7-dev

    버전 올려야 하면 unhold로 풀어주면 됩니다.

    팁 2) 가끔 거지같은 경우가 새 major 버전 나올 때 nvidia-drivers 버전 충돌(혹은 드라이버 패키지 명이 바뀐다던지)이 생길 수 있는데, 그 때는 그냥 새 major 버전으로 full 패키지를 설치하면 대개 해소됩니다. e.g. sudo apt install cuda-11-1

    팁 3) 업데이트하고 NVML version mismatch 나왔을 때 재부팅하기 싫으면, 다른 프로세스 다 죽이고 (lightdm/Xorg 포함) sudo rmmod nvidia nvidia_drm nvidia_uvm nvidia_modeset 해서 모듈 4개 다 내리고 modprobe nvidia 때리고 nvidia-smi 쳐보면 대부분 해결됩니다. 문제는 모듈이 안내려가는게 문제겠지요.

    ps. 한 페이지 덧글 달아서 죄송합니다. 게시글로 따로 뽑기에는 민망한 내용이라..
  • profile
    유우나      7460 2020.09.22 15:16
    리누스 토발즈: F U 엔비디아(2)
    최근 깔다가 넵 인스톨하고 세팅하다가 터져보니 정말 혈압 오르더군요
    지옥도를 따로 관리안하고 깔려고 했던 자의 최후...를 맞이하니 으악 그자체더군요
  • ?
    nsys 2020.09.22 15:20
    아주 예전에 우분투에서 겪었었는데 지금도 그런진 모르겠어서 확실하진 않습니다만
    DKMS 제대로 안돈 상태에서 커널은 업데이트 되고 이 상태에서 재부팅 된거 아닌가 하는 생각이 듭니다.
    데탑환경이라 몇번 그러고나서 살리는거 짜증나서 이후로 그냥 nouveau 쓰곤 했었죠...
  • profile
    title: 몰?루유키나      자, 부탁드립니다! / 블로그 https://randomstar.blog 2020.09.22 16:44
    리누스 토발즈: F U 엔비디아(3)

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    스타링크를 무료 제공하는 항공사가 등장

    하와이안 항공의 비행기에서 스타링크 Wi-fi를 무료로 제공합니다. 모든 비행편에서 다 무료는 아니고 A321 네오 비행기 일부에서 서비스를 시작합니다. 등록이나 결제 없이 탑승할 때부터 무료입니다. 연말가지는 적용 기종을 A330으로 ...
    Date2024.02.15 소식 By낄낄 Reply0 Views351
    Read More
  2. 유니코드 16.0 알파, 이집트 상형문자와 고전 게임 추가

    유니코드 16.0 버전에 3995개의 이집트 상형 문자가 추가됩니다. https://www.unicode.org/charts/PDF/Unicode-16.0/U160-13460.pdf 이집트 상형문자는 2009년의 유니코드 5.2 버전부터 추가됐지만 그때는 1000개를 조금 넘는 수준이었습...
    Date2024.02.14 소식 By낄낄 Reply3 Views625 file
    Read More
  3. 인텔 OpenVINO 플러그인을 사용한 AI 편집 기능

    Audacity가 인텔의 OpenVINO 무료 플러그인을 사용해 AI 오디오 편집 기능을 추가했습니다. Music Generation: 문장으로 설명을 입력하면 AI가 최대 60초 길이의 짧은 오디오 클립을 생성해 줌 Music Style Remix: 트랙에서 음악을 가져와...
    Date2024.02.14 소식 By낄낄 Reply4 Views423 file
    Read More
  4. NVIDIA의 로컬 AI 챗봇, Chat With RTX

    NVIDIA가 Chat With RTX를 발표했습니다. 텐서RT-LLM 대규모 언어 모델을 사용하고 지포스 RTX 시리즈 그래픽카드가 탑재된 로컬 시스템에서 실행해, 인터넷에 연결할 필요 없이 개인화된 GPT 챗봇을 쓸 수 있습니다. 요구 조건은 비디오 ...
    Date2024.02.14 소식 By낄낄 Reply0 Views582 file
    Read More
  5. Ai 기반 렌더링 툴 - Airen 4D

    3D 프로그램 Cinema 4D 용 플러그인.   Stable Diffusion AI 모델을 사용하여 단순한 블록 아웃 지오메트리를 사실적인 렌더링으로 변환하여 "복잡한 디테일, 조명 효과 및 사실적인 텍스처"를 추가합니다. 소프트웨어는 오프라인으로 실...
    Date2024.02.13 소식 Bytitle: AI아무개 Reply5 Views1205 file
    Read More
  6. AMD, 라데온 GPU에서 '수정되지 않은 NVIDIA CUDA' 바이너리 실행을 위한 ROCm S/W 솔루션 개발(ZLUDA)

    ▶ AMD, 라데온 GPU에서 '수정되지 않은 NVIDIA CUDA' 바이너리 호환성 실행을 위한 'ROCm S/W' 솔루션을 조용히 개발 - AMD : 지난 2년 동안 ROCm S/W 스택에서 'NVIDIA CUDA 애플리케이션'의 바이너리 호환성을 활성화하고자 조용히 개...
    Date2024.02.13 소식 By블레이더영혼 Reply8 Views1107 file
    Read More
  7. 캐논의 i-Sensys 시리즈 프린터에 7가지 보안 취약점 발견

    캐논 i-Sensys MF750, LBP670, X 시리즈 프린터에 7가지 보안 취약점이 발견됐습니다. 3.07 버전 펌웨어에 취약점이 존재하며 등급은 심각입니다. 캐논은 이를 수정한 새 펌웨어를 배포 중입니다.
    Date2024.02.12 소식 By낄낄 Reply0 Views261 file
    Read More
  8. 윈도우 11 24H2, AI 초해상 설정 추가

    윈도우 11 24H2 버전의 인사이더 빌드에 AI 초해상 설정이 추가됐습니다. DLSS나 FSR 같은 그 초해상 기술이 맞습니다. 윈도우에 이 기능이 추가될 경우 게임에서 따로 설정할 필요가 없거나, 동영상도 일괄적으로 초해상 기술을 적용할 ...
    Date2024.02.12 소식 By낄낄 Reply8 Views1831 file
    Read More
  9. No Image

    유튜브 기존계정 이민 정지사례가있나요?

    꼴에 기존사용자랍시고 4월달까지 8,900원이긴한데 그냥 시간날때 미리 이민갈려고합니다. 근데 새계정파서 옮기면 알고리즘도 많이 달라지고 유튜브 뮤직 플레이스트도 아까워서 기존계정 이민보내고싶은데   기존계정에 하면 정지된다 "...
    Date2024.02.12 질문 Bytitle: 몰?루스와마망 Reply13 Views966
    Read More
  10. AMD, GCC에 젠5 아키텍처 지원 추가

    AMD가 리눅스 GNU 컴파일러 컬렉션에 젠5 아키텍처 활성화를 추가했습니다. 'znver5 스케줄러 모델을 사용해 차세대 AMD 젠5 CPU 지원 활성화'라는 메일링 리스트가 나왔습니다. 또 AVXVNNI, MOVDIRI, MOVDIR64B, AVX512VP2INTERS...
    Date2024.02.12 소식 By낄낄 Reply1 Views737 file
    Read More
  11. No Image

    제프 베조스, 아마존 주식 1200만 주 매각

    아마존의 설립자인 제프 베조스가 회사 주식 1200만 주를 20억 달러에 매각했습니다. 제프 베조스는 최대 5천만 주를 매각하겠다는 계획을 이미 밝힌 바 있습니다. 지난 금요일 기준 제프 베조스의 자산은 1995억 달러이며 올해 226억 달...
    Date2024.02.11 소식 By낄낄 Reply0 Views678
    Read More
  12. No Image

    구글 원, 가입자 1억 명 돌파

    구글의 CEO인 순다 파차이는 구글 원의 가입자가 1억 명을 넘겼다고 발표했습니다. 또 AI 프리미엄 요금제를 통해 가입자 수를 더욱 늘려 나가겠다고 밝혔습니다. 구글 원은 클라우드 스토리지, 백업, VPN, 사진 편집 기능 등을 제공하며 ...
    Date2024.02.11 소식 By낄낄 Reply1 Views574
    Read More
  13. 통신 데이터 무제한 사용자 핫스팟 용량 걱정없이 사용

    "위 참고 링크 확인" 저도 유투브 보다가 발견한건데 핫스팟 용량에 신경쓰이는 분들은 유용할 것 같습니다. 우선 저는 핫스팟을 많이 사용할 일이 거의 없어서 신경안쓰고 살았는데 병원에서 제대로된(속도 빠르고 안끊기는). 와이파이가...
    Date2024.02.11 일반 By아엠푸 Reply7 Views1686 file
    Read More
  14. 삼성 매지션 8.0.1, 심각한 취약점을 패치

    삼성 매지션 8.0.0 버전의 CVE-2024-23769 취약점을 패치한 8.0.1 버전이 나왔습니다. 이 취약점은 부적절한 권한 제어를 허용해, 더 높은 수준의 권한을 가진 사용자 정보에 접근, 로컬 공격자가 데이터를 취득할 수 있습니다.
    Date2024.02.11 소식 By낄낄 Reply1 Views794 file
    Read More
  15. 스욍 킥보드/자전거 고객센터는 report.swingmobility.kr 입니다

    시작하기 전에, 공유 킥보드, 공유 자전거라고 말하는 서비스들은 탈것을 공유하는 게 아니라 주차 공간을 무단 점유하는 강도들입니다. 부모님 집에 가니 주차장 입구에 공유 자전거가 한 대 세워져 있네요. 공유 킥보드 신고는 전에도 ...
    Date2024.02.10 일반 By낄낄 Reply9 Views593 file
    Read More
목록
Board Pagination Prev 1 ... 13 14 15 16 17 18 19 20 21 22 ... 578 Next
/ 578

최근 코멘트 30개
딱풀
08:27
허태재정
08:19
아라
08:16
설아
08:08
툴라
07:55
마라톤
07:55
마라톤
07:54
툴라
07:53
툴라
07:49
GPT
07:49
GPT
07:47
툴라
07:37
360Ghz
07:27
소스케
07:15
GENESIS
06:52
MUGEN
06:52
포인트 팡팡!
06:50
GENESIS
06:49
보문산타이거
05:06
보문산타이거
05:04
슬렌네터
04:49
라데니안
03:40
포인트 팡팡!
03:16
Lynen
03:16
유카
03:08
린네
02:29
린네
02:24
이수용
02:22
카에데
02:21
별밤전원주택
02:15

한미마이크로닉스
더함
MSI 코리아
AMD

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소