인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

질문

2023.05.17 02:43

도커 컨테이너에서 Nvidia GPU 사용 시 nvidia-smi 명령어에서 할당한 GPU만 보이도록 하고싶습니다.

허허허

조회 수 1298 댓글 7

어쩌다보니 GPU 서버를 운용중인데 jupyter notebook(lab)을 사용해서 친구와 같이 모델 개발하려고 합니다. 서버가 멀티 GPU라서 잘 돌아가고있는 GPU를 아예 사용 못하게 하고싶어서(혹시나 서비스 되고있던게 브램 부족으로 터질까 싶어서 아예 안보이게 하고싶습니다.) 이것저것 시도중인데 잘 안됩니다. 즉, 도커 컨테이너 내부에서 nvidia-smi 명령어를 사용했을 때 호스트에 있는 모든 GPU가 표시되지 않고 컨테이너에 할당되어있는 GPU만 보이도록 하고싶습니다.

OS: Ubuntu 20.04 LTS

Nvidia Driver: 530.30.02

sudo apt install nvidia-docker2 로 커널 설치 되어있습니다.(2.13.0-1)

docker-compose는 v2로 업데이트 되어있습니다.(v2.17.2)

ChatGPT에게도 이것저것 해결 방법을 물어봤는데 딱히 맞는 답변이 없네요.

ChatGPT가 알려준 방법:

version: "3.9"
services:
myservice:
image: myimage
runtime: nvidia
devices:
- /dev/nvidiactl
- /dev/nvidia-uvm
- /dev/nvidia0
- /dev/nvidia1
environment:
- NVIDIA_VISIBLE_DEVICES=0 # 첫 번째 GPU만 사용하도록 설정

위의 docker-compose.yml 파일 양식으로 환경 변수 사용하기

--> 결과

nvidia-smi 명령 실행 시 동일하게 모든 GPU가 출력됨.

죄송합니다. 이전에 제공한 정보가 부정확했습니다. `NVIDIA_VISIBLE_DEVICES` 환경 변수를 사용하여도 컨테이너 내부에서 `nvidia-smi`를 실행할 때 모든 GPU가 표시될 수 있습니다. `NVIDIA_VISIBLE_DEVICES` 환경 변수는 컨테이너 내부에서만 가시성을 제어할 뿐, `nvidia-smi` 명령어가 호스트 시스템의 Nvidia 드라이버를 사용하기 때문에 호스트 시스템의 GPU 가시성에 영향을 주지 않습니다.

만약 컨테이너 내부에서 특정 GPU만 표시하도록 하려면 추가적인 설정이 필요합니다. 아래의 단계를 따라 진행해주세요:

1. 호스트 시스템의 Nvidia 드라이버를 최신 버전으로 업데이트합니다.
2. 호스트 시스템의 Nvidia 드라이버 설정 파일(`/etc/nvidia-container-runtime/config.toml`)을 엽니다.
3. 설정 파일에서 `[nvidia-container-runtime]` 섹션을 찾습니다.
4. 해당 섹션에 `no-cgroups = true`라는 줄을 추가합니다.
5. Docker를 재시작합니다.

이렇게 설정을 변경하면 컨테이너 내부에서 `nvidia-smi`를 실행했을 때, `NVIDIA_VISIBLE_DEVICES` 환경 변수로 지정한 GPU만 표시될 것입니다.

다시 한 번 사과드리며, 이전에 제공한 부정확한 정보로 혼동을 드려 죄송합니다.

--> 결과

nvidia-smi 명령 실행 시 동일하게 모든 GPU가 출력됨.

죄송합니다. 다시 한 번 정확한 정보를 전달하지 못한 것 같습니다. `no-cgroups = true`를 설정하여도 `nvidia-smi`에서의 GPU 표시에는 영향을 주지 않습니다.

일반적으로 Docker 컨테이너 내부에서 `nvidia-smi`를 실행하면 호스트 시스템의 Nvidia 드라이버를 사용하게 됩니다. 따라서 호스트 시스템에서 GPU 가시성을 변경하거나 제한하는 설정을 적용해야 원하는 결과를 얻을 수 있습니다.

GPU 가시성을 제한하려면 Nvidia 드라이버 설정을 변경해야 합니다. Nvidia 드라이버가 설치된 호스트 시스템에서 다음과 같은 단계를 수행하여 GPU 가시성을 제어할 수 있습니다:

1. `/etc/nvidia-container-runtime/config.toml` 파일을 엽니다.
2. `[nvidia-container-cli]` 섹션을 찾습니다.
3. 해당 섹션에 `ldconfig = "/usr/local/nvidia/lib:/usr/local/nvidia/lib64"`라는 줄을 추가합니다. 이렇게 하면 컨테이너 내에서 Nvidia 라이브러리가 올바르게 로드됩니다.
4. 설정 파일을 저장하고 닫습니다.
5. 호스트 시스템에서 Docker를 재시작합니다. 이는 앞서 설명한 방법을 사용하여 수행할 수 있습니다. (예: `sudo systemctl restart docker`)

이렇게 설정을 변경하고 Docker를 재시작한 후 컨테이너를 시작하면 `NVIDIA_VISIBLE_DEVICES` 환경 변수로 지정한 GPU만 컨테이너 내에서 `nvidia-smi`를 실행할 때 표시될 것입니다.

다시 한 번 사과드리며, 이전에 제공한 잘못된 정보로 혼동을 드려 죄송합니다.

--> 결과

NVIDIA-SMI couldn't find libnvidia-ml.so library in your system. Please make sure that the NVIDIA Display Driver is properly installed and present in your system. Please also try adding directory that contains libnvidia-ml.so to your system PATH.

라는 오류가 발생.

---------

현재 docker-compose.yml

version: "3.1"
services:
jupyter:
image: jupyter/datascience-notebook:python-3.9.13
runtime: nvidia
restart: unless-stopped
container_name: Jupyter_Notebook
environment:
- NVIDIA_VISIBLE_DEVICES=0
- UID=1000
- GID=1000
volumes:
- ./jun_jupyter:/home/jovyan/
- ./.jupyter-jun:/home/jovyan/.jupyter
ports:
- 8888:8888
privileged: true
deploy:
resources:
reservations:
devices:
- driver: nvidia
device_ids: ['0']
capabilities: [gpu]

일단 이렇게 놔뒀는데 뭘 어떻게 해야할지 감도 안잡히는 상황입니다..

추가적인 정보가 필요하다면 댓글 부탁드립니다.

감사합니다.

삭제 요청

목록 스크랩

위로 아래로 댓글로 가기

Comments '7'

?
Neons 2023.05.17 05:30

https://docs.docker.com/compose/gpu-support/ 에 따르면 device_ids로 설정이 가능해야 한다는데... 제가 일단 GPU 하나밖에 없어서 잘 모르겠네요.

다만 NVIDIA_VISIBLE_DEVICES는 docker 명령어로 직접 컨테이너를 실행하는 경우에만 잘 될 것 같다는 느낌입니다. 해당 인자는 nvidia-docker에서 받아야 하는데, docker-compose를 통해 실행하는 경우 그렇지 않을 것 같아서요.
?
Lorenz 2023.05.17 09:24

가장 기본적인 docker 명령어 옵션으로
docker run --gpus '"device=0"' -> nvidia-smi 상 0번 GPU 할당
docker run --gpus '"device=1,2"' -> nvidia-smi 상 1번,2번 GPU 할당

단일 이미지라 컴포즈 안써는게 쉬울거같네요.
?
포인트 팡팡! 2023.05.17 09:24

Lorenz님 축하합니다.
팡팡!에 당첨되어 5포인트를 보너스로 받으셨습니다.

수정 삭제
?
Lorenz 2023.05.17 09:28

root@nvidia:/data/mlperf/bert2/phase1# nvidia-smi
Wed May 17 09:25:38 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Driver Version: 525.105.17 CUDA Version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA H100 PCIe On | 00000000:01:00.0 Off | 0 |
| N/A 32C P0 49W / 350W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 1 NVIDIA A100 80G... On | 00000000:C1:00.0 Off | 0 |
| N/A 32C P0 43W / 300W | 0MiB / 81920MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
root@nvidia:/data/mlperf/bert2/phase1# docker run -it --gpus '"device=0"' nvidia/cuda
nvidia/cuda nvidia/cuda:12.1.1-cudnn8-devel-ubuntu20.04
root@nvidia:/data/mlperf/bert2/phase1# docker run -it --gpus '"device=0"' nvidia/cuda:12.1.1-cudnn8-devel-ubuntu20.04 bash

==========
== CUDA ==
==========

CUDA Version 12.1.1

Container image Copyright (c) 2016-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.

This container image and its contents are governed by the NVIDIA Deep Learning Container License.
By pulling and using the container, you accept the terms and conditions of this license:
https://developer.nvidia.com/ngc/nvidia-deep-learning-container-license

A copy of this license is made available in this container at /NGC-DL-CONTAINER-LICENSE for your convenience.

root@04fbccd2b611:/# nvidia-smi
Wed May 17 00:26:29 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Driver Version: 525.105.17 CUDA Version: 12.1 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA H100 PCIe On | 00000000:01:00.0 Off | 0 |
| N/A 32C P0 50W / 350W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
root@04fbccd2b611:/#
?
Lorenz 2023.05.17 09:48

docker-composer.yaml 도 잘되던데...
services:
test:
image: nvidia/cuda:12.1.1-cudnn8-devel-ubuntu20.04
command: nvidia-smi
deploy:
resources:
reservations:
devices:
- driver: nvidia
device_ids: ['0']
capabilities: [gpu]
ExpBox 허허허 2023.05.17 16:48

오잉? cuda 이미지 사용하니까 저도 잘 되네요. jupyter 이미지에서는 따로 cuda를 넣어서 빌드해줘야하나 싶습니다. ㅠ
ExpBox 허허허 2023.05.17 16:54

아하! 위에 런타임을 Nvidia로 잡아준 것 때문에 일어난 일이었네요 ㄷㄷ; 지금은 주피터 노트북에서도 정상적으로 잘 작동합니다. 감사합니다!!

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

전원설정에서 고성능 옵션이 나타났다 사라졌습니다...?

최고오성능은 무시하십쇼ㄷㄷ 그러니까 방금 노트북을 켰을때 이러한 "고성능" 옵션이보였습니다. 이게... 원래는 없었거든요? 근데 근래 업데이트를 해서 그런가... 아무튼 보이길레 업데이트 해서 그런갑다 하고 있었는데 ...

Date2023.07.19 질문 By포도맛계란 Reply6 Views824

Read More
No Image

하.. 외장 SSD 사용하던걸 포맷했는데 복구 가능할까요?

어떤 포럼에 올려야할지 긴가민가해서 어찌되었든 복구 소프트웨어를 찾는 글이니 일단 소프트웨어 포럼에 올립니다. 제가 고민없이 명정보에 의뢰할 만큼의 재력은 없다보니 이것저것 시도하거나 가능성이라도 확인하고 싶어서 질문합...

Date2023.07.15 질문 ByExpBox Reply14 Views937

Read More
No Image

기알못, 기린이 질문 드려요.

기글에서 유튜브 삽입을 하는 법을 잘 모르겠습니다. 그리고 사진을 삽입하면 수루룩 위에 올라 오는 것은 좋은데 사진마다 코멘트를 달고 싶은데 하나씩 올리면서 한 땀 한 땀 편집을 해야 하는가요?

Date2023.07.04 질문 By슈퍼선데이 Reply5 Views434

Read More
공유기 간 연결 질문

안녕하세요. 네트워크 초짜입니다. 파란색은 지금 공유기 연결이고, 보라색은 제가 추가할 것들입니다. 할머니 댁에 있는 기존 공유기로는 설정이 불편해 남는 공유기를 여기에 물려서 서버를 열려고 합니다. 1) 이것을 위해 기존 ...

Date2023.07.03 질문 By초싸이언급컴맹 Reply5 Views538

Read More
맥북에어 M1 단축어에서 QR 코드 스캔이 안됩니다.

요즘에 와이파이 접속이나 웹 사이트를 접속하는 등의 일을 할때 간단하게 공유하는 방법 중에 하나가 QR 코드를 생성하고 그걸 카메라로 찍는 방법이 있습니다. 그 방법을 휴대기기(아이폰, 갤럭시폰, 각종 태블릿 등)에서는 카메라만 켜...

Date2023.07.02 질문 ByExpBox Reply2 Views1381

Read More
모니터 절전모드 복귀후 창이 난리나요.

운영체제 윈10 글카 3070 1번 모니터(기본모니터) 32인치 QHD 144Hz DP포트 2번 24인치 FHD 60Hz HDMI 3번 포터블 FHD 60Hz DP -> HDMI 전더 사용 HDMI 모니터 절전모드에서 해제되면.(PC절전모드가 아니라 모니터만 꺼지는) 열어놓...

Date2023.06.29 질문 By_랑_ Reply14 Views947

Read More
실내 통신에서 CAT6의 효용성

현재 공사하고 있는 곳의 시방서에 천장 AP는 CAT6로 배선한다고 되어있습니다 따로 전기 공사는 안잡혀 있고 UTP만 들어가니까 POE 장비인거 같은데 천장형 POE AP중에 유선 1Gbps 초과, 2.5, 5, 10Gbps를 지원하는 장비가 있나요? 그리...

Date2023.06.25 질문 By공탱이 Reply18 Views2375

Read More
No Image

PDF 편집 방지 저장

타인이 편집을 할 수 없게 할려고 하면 인쇄에서 한컴PDF 나 마소PDF 로 선택채서 인쇄(출력)해서 저장하면 된다고 하던데... 알PDF 에서 편집사용하니 그냥 다 편집되네요? ;;;; PDF 에서 편집 안되게 저장(?)을 할려면 어떻게 하면 ...

Date2023.06.19 질문 By투명드래곤 Reply13 Views917

Read More
윈도우10 groove 음악이 업데이트후 미디어플레이어로 바뀌었는데

너무나도 구려졌습니다 이전버전으로 음악앱만 되돌리거나 다른 플레이어 추천해주실수있으신가요

Date2023.06.18 질문 By단또 Reply15 Views1164

Read More
No Image

동영상 화질개선관련 간단한 방법이 있나요?

오래된 일부 영상의 경우, 살포시 안개처럼 해야할까 뿌옇게 나오는 영상이 있습니다. 원본 영상자체가 그래서 AI든 뭐든 이부분을 보정할만한 프로그램이나 기술을 찾습니다. 구독 형태 유료는 딱히 바라지 않고, 1회구매는 금액에 ...

Date2023.06.18 질문 ByAKG-3 Reply10 Views1032

Read More
No Image

아이폰 아이패드 웹 디버깅 하려면 맥이 필수인가요?

웹 페이지를 개발하고 있는데, 윈도우나 안드로이드에서는 정상작동하고, 아이폰 아이패드 환경에서만 나타나는 버그가 있어서 그런데, 디버깅 모드 들어가려면, 맥이 필수인지 궁금합니다. 아마 자바스크립트 오류인 것 같은데 확인 할 ...

Date2023.06.16 질문 By부녀자 Reply11 Views1092

Read More
No Image

펜린 노트북에서 쓸만한 가벼운 브라우저는 뭐가 좋을까요?

그저께, 핸드폰 동호회에서 저려미 노트북들에 대해서 이야기가 나온 김에, 저도 문득 옛날에 처박아 버린 ThinkPad T400이 떠올라서, 어제 퇴근 후에 Win 10을 설치해줘 봤는데.. 레노버가 구형 모델들의 드라이버는 더 이상 지원을 안...

Date2023.06.16 질문 By랩탑 Reply16 Views1104

Read More
No Image

맥에서 엣지 확장프로그램 동기화

안녕하세요 제목 그대로 맥에서 엣지를 설치하고 로그인 후 동기화를 하면, 확장프로그램들도 모두 호환되어 자동으로 설치되나요? 윈도우는 자동으로 설치가 되거든요. 제가 맥을 사용해본적이 없어서 질문드립니다.

Date2023.06.13 질문 By방황하는물고기 Reply4 Views474

Read More
No Image

비스타, 윈도우8 키로 윈도우10 사용

가능한지 질문 여쭙습니다. 일단 윈도우 7 키는 버전에 따라 윈도우 10 홈이나 프로로 갈리긴 합니다. 비스타 키나 윈도우 8 키는 궁금합니다. 아시는 선배님들 선생님들 고견 여쭙습니다. 가르침을 주세요~

Date2023.06.12 질문 By슈퍼선데이 Reply22 Views1189

Read More
No Image

F1~12 중 가장 쓸모없는 키는 어떤걸까요?

F1~12 중 가장 쓸모없는 키는 어떤거라고 생각하시나용? 왜냐면... 전 한지키 or 오른쪽 컨트롤 키 가 필요해서 F1~12 중 가장 쓸모없는 녀석을 샤프키로 바꿔버릴 꺼라서요 이게 "윈도우 + . " 조합으로 특수 문자띄우...

Date2023.06.07 질문 By포도맛계란 Reply26 Views1062

Read More
No Image

Fn 키에 두가지 기능 할당 혹은 Fn키 + @ 를 설정 하는 방법??

흠... 그러니까 말입죠 제 키보드에는 Fn 키가 있습니다. Fn + @ 를 이용해서 특정 기능을 구현하는게 되는데요 이게 보통 키보드에 기본 세팅으로 되어있는데... 윈도우 상에서 이 Fn + @ 를 특정 기능으로 구현 할 수 있...

Date2023.06.06 질문 By포도맛계란 Reply6 Views445

Read More
No Image

[해결] 한자키, 오른쪽 컨트롤키 가 없을때 특수 문자를 쓰는방법?

그러니까 ㅁ+"한자키" 를 누르면 화살표랑 특수문자 이것저것을 쓸 수 있잖아요? 근데 키보드에 "한자키" 가 없으면 "오른쪽 컨트롤 키" 를 이용해서 특수문자를 이용 할 수가 있다는건 아는데... 근데 이 "오른쪽 ...

Date2023.06.01 질문 By포도맛계란 Reply10 Views1595

Read More
윈도우의 SMB상에서 리눅스의 마운트된 폴더가 제대로 표시되지 않습니다.

안드로이드 스마트폰 / 아이패드 / 윈도우 데스크탑을 사용하다보니 자료들을 공유하거나 백업 등등의 목적으로 시놀로지 NAS를 쓰고있습니다. (Android/iOS/Windows/Linux 라니 이제 macOS랑 얹으면 일반 사용자용 OS콜렉션 완성..!) ...

Date2023.05.29 질문 By아르테안 Reply4 Views913

Read More
No Image

노트북 와이파이의 DNS주소가 자동임에도 하나로 고정됩니다.

참고/링크란의 글 이후로, 윈도우 자체기능 중 특정 와이파이에 연결했을때만 수동으로 IP설정을 해주는 기능을 십분 활용중이었습니다. 문제는 이 노트북에서 발생했습니다. 어느순간부터, 네트워크 어댑터의 설정은 모두 자동으로...

Date2023.05.21 질문 By노예MS호 Reply4 Views987

Read More
No Image

signal rgb 문의

razer 시냅스가 지금 상황에서 너무 문제가 많아 https://gigglehd.com/gg/14192219 참조 시냅스에 질려 서드파티앱을 찾다가 시그널 알지비라는걸 알게 되었습니다 https://signalrgb.com/ 참조 실제로 사용하고 계신 분이 ...

Date2023.05.18 질문 By911 Reply0 Views548

Read More