컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2018.06.10 02:42

NVIDIA HGX-2. NVLink의 미래와 GPU의 CPU 통합

조회 수 4694 댓글 4

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...26022.html

NVIDIA의 HGX-2

NVIDIA가 NVSwitch를 사용한 HGX-2를 발표
　

NVIDIA CEO 겸 설립자인 젠슨황은 컴퓨텍스 타이페이에 맞춰 GTC 타이완에서 발표한 최대 16 GPU 구성의 GPU 가속장치 HGX-2를 공개했습니다.

HGX-2 자체는 GTC 2018에서 공개한 GPU 컴퓨터 DGX-2의 GPU 노드 보드를 뽑아낸 것입니다. 볼타 아키텍처의 테슬라 V100(GV100), 32GB HBM 메모리 8개에, NVLink 스위치 칩인 NVSwitch 6개를 하나의 GPU 기판에 통합했습니다.

하나의 보드에서 8개의 GPU, 2개의 보드를 NVSwitch를 통해 NVLink로 연결하면 16개의 GPU 구성이 나옵니다. 서버를 위한 GPU 가속입니다.

NVIDIA의 DGX-2

AI에서 HPC(High Performance Computing)까지 다양한 시장을 노리는 HGX-2

먼저 발표된 DGX-2는 16개의 볼타 GV100 GPU와 2개의 제온 CPU를 조합한 원 박스 서버입니다. 반면 HGX-2 보드는 CPU 부분이 없이 GPU로만 구성된 가속 보드입니다.

DGX-2는 2개의 GPU 보드와 1개의 CPU 보드, NVLink 백플레인으로 구성되는데, 여기에서 GPU 보드만 따로 떼어 판매하는것이 HGX-2라고 생각하면 됩니다.

사실 HGX-2 보드와 CPU를 조합한 제품은 서버 파트너가 판매합니다. 딥 러닝과 HPC를 주요 시장으로 하며, 8 GPU의 HGX-T1과 16 GPU의 HGX-T2가 있습니다.

HGX-T1은 HGX-2 보드 1장, HGX-T2는 HGX-2 보드 2장을 NVLink로 연결합니다. 또 HGX-2 보드를 쓰지 않는 GPU 서버 제품군도 포함됩니다.

슈퍼 컴퓨팅 용으로는 SCX-E 시리즈가 있으며, SCX-E1에서 E3는 PCI-E 기반, SCX-E4는 NVLink 기반입니다. 딥 러닝의 추론 처리를 위한 HGX-I1 / I2도 있습니다.

NVIDIA의 서버 라인업

NVIDIA의 서버 제공 업체

HGX-2의 특징은 NVIDIA가 NVLink과 NVSwitch로 밀접하게 통합된 GPU 노드를 파트너에게 제공한다는 데 있습니다.

앞으로는 NVLink 노드를 활용해 더 큰 GPU 컴퓨터도 가능할 것입니다. 하나의 컴퓨팅 노드 연결해 NVLink를 사용하는 것이 아니라 노드 사이의 연결에도 NVLink를 사용합니다. 인텔의 Omni-Path처럼 쓰는 방법도 가능합니다.

초 광대역 NVLink로 GPU를 상호 연결

NVIDIA의 테슬라 V100(GV100)는 1개의 GPU에 6포트 NVLink를 구현합니다. NVLink는 차동 신호(Differential Signaling) 방식의 좁은 인터페이스로 각 포트마다 단방향 8쌍, 양방향 16쌍으로 구성됩니다.

현재 세대의 NVLink 전송 속도는 1쌍 단방향이 25Gbps, 8쌍으로 구성된 단방향 링크는 25GB/s의 대역폭, 1포트는 양방향 50GB/s의 대역폭이 나옵니다. 6포트 NVLink을 구현한 GV100은 총 300GB/s의 NVLink IO 대역폭을 갖춥니다.

기존의 GPU와 비교하면 NVIDIA GV100의 I/O 대역폭이 월등히 넓습니다.

NVLink의 1링크 구성

NVIDIA GPU의 I/O 및 메모리 대역폭

DGX-2/HGX-2는 하나의 보드에 8개의 GV100 GPU를 탑재하며, 각 GPU가 각각 6개의 NVSwitch로 1링크의 NVLink에 연결됩니다.

NVSwitch는 18포트 NVLink를 구현하며 18포트 모두에 논 블러킹 크로스바 연결을 제공합니다. 18포트가 각각 양방향 50GB/s, 총 900GB/s의 스위칭 능력을 갖습니다. HGX-2는 NVSwitch를 사용해 16개의 GPU가 모두 300GB/s의 상호 연결 대역으로 이어집니다.

구체적으로는 HGX-2의 베이스 보드 1장에 NVSwitch를 통해 300GB/s로 서로 연결되며, 두 개의 베이스 보드가 NVSwitch끼리 연결됩니다. 보드 사이의 대역은 2.4TB/s입니다.

HGX-2의 연결 구성. 8 GPU라면 한쪽 보드만.

또 DGX-2/HGX-2는 x86 CPU 보드와도 연결합니다. CPU에 NVLink가 없으니 PCI-E를 씁니다. DGX-2와 HGX-2 HGX-T2는 16개의 GPU에 2개의 CPU가 됩니다. GPU에 크게 치우쳐진 18개의 컴퓨팅 노드 시스템이 됩니다.

컴퓨팅 노드 사이의 연결에 NVLink을 확장하는 방향

NVIDIA는 NVLink를 컴퓨팅 노드의 프로세서를 연결하는데 씁니다. 지금은 NVSwitch가 나왔지만 이는 GPU끼리 전체 대역폭을 확장하는데 쓰고 있습니다. 하나의 노드에 6개의 스위치를 넣는 건 꽤나 호화로운 방법입니다.

잘 생각해보면 이는 상당히 이례적입니다. 노드의 전체 대역폭 연결에 스위치를 도입할 필요성은 바뀌어 나가고 있습니다. 예전에는 스위치가 없었으니 NVLink를 노드의 상효 연결에 쓸 수밖에 없었습니다. 하지만 지금은 스위치가 있으니까 NVLink 노드 사이의 패브릭으로 사용할 수 있습니다. 앞으로 NVLink를 노드 사이의 연결에 쓰진 않을까요?

젠슨 황은 거기에 대해 이렇게 말합니다. "(HGX-2) 보드에 8개의 GPU와 6개의 스위치가 300GB/s의 대역폭으로 연결됩니다. 이 보드는 컴퓨팅 노드입니다. 우리는 이 노드를 넘어서는 백플레인이 있고, HGX-2 보드 2개를 전체 대역으로 연결합니다. 서로 다른 컴퓨팅 노드를 백플레인에 연결하면 그 시간이 길이접니다."

예를 들어 4개의 DGX-2/HGX-2 보드를 NVSwitch를 통해 연결할 수 있습니다. 이 경우 보드 사이의 대역폭은 줄어듭니다. NVSwitch의 GPU와 연결하지 않은 10 개의 NVLink 포트 중 9 포트를 각각 3개의 보드 연결에 사용하면 각각의 보드 사이는 900GB/s로 연결됩니다. 이것도 꽤 큰 대역입니다. 또는 노드 사이이의 연결해 NVSwitch을 넣는다면 더 큰 구성에서도 광대역이 유지됩니다.

4개의 보드에 32 GPU를 연결

HGX-2 보드. 오른쪽에 백플레인 보드가 있어 메인보드를 연결합니다.

인텔의 Omni-Path와 NVIDIA의 NVLink

NVLink를 컴퓨팅 노드 사이의 연결해 사용하는 또 다른 패브릭인 인텔 Omni-Path와 비교해 봅시다. Omni-Path는 기본적으로 노드 사이의 연결에 사용합니다. 1쌍의 차동 전송은 25Gbps의 속도를 내며, 단방향 4쌍에서 양방향 8쌍으로 NVLink보다 더 긴 거리를 상정해 만들어졌습니다.

1 포트의 대역폭은 단방향 12.5GB/s, 양방향 25GB/s. 인텔의 Omni-Path Edge Switch 100 스위치는 총 48포트의 크로스바 스위치로 스위칭 대역폭은 총 1.2TB/s가 되어 NVSwitch를 넘어섭니다.

NVSwitch가 나오지 않았을 때 설계된 일본 도쿄 공업대학의 슈퍼 컴퓨터 TSUBAME 3.0은 NVLink와 Omni-Path를 모두 사용합니다. 컴퓨팅 노드에 4 GPU를 NVLink로 연결하고, CPU와 GPU는 PCI Express 연결. 컴퓨팅 노드 사이를 PCI Express 스위치를 통한 Omni-Path 4포트로 연결하는 구성입니다.

도쿄 공업 대학의 TSUBAME 3.0

그럼 NVSwitch가 도입된 지금은 NVSwitch만으로 어느 정도의 노드를 연결할 수 있을까요? 여기에는 한가지 장애물이 있습니다. 바로 CPU입니다. NVIDIA의 현재 아키텍처는 x86 CPU와 연결하는데 PCI-E를 씁니다. NVLink로 서로 연결되는 건 GPU 뿐이며 GPU 제어에 필요한 CPU는 NVLink로 연결되지 않습니다.

즉, NVLink만으로 컴퓨팅 노드를 연결하면 CPU끼리 연결되지 않는다는 이야기입니다. CPU도 포함한 완전한 컴퓨팅 노드라면 NVLink만으로 노드 사이를 연결하지 못하는 것이 현실입니다.

물론 IBM의 Power 시리즈 프로세서는 NVLink로 GPU와 직접 연결합니다. NVSwitch에는 여유포트가 있으며 Power는 NVSwitch에 연결할 수 있으니 컴퓨팅 노드를 NVLink로만 접속할 수 있습니다.

그러나 x86 CPU에선 아직 불가능합니다. Powr 외에 다른 CPU에서 NVLink로만 연결하기 위해선 NVLink를 PCI Express로 바꿔주는 ASIC가 필요합니다.

GPU로 CPU 코어의 통합

또 다른 방법으로는 NVIDIA GPU에 CPU 코어를 통합하는 것입니다. 컴퓨팅 노드가 CPU를 통합한 GPU만으로 구성되면 문제가 해결됩니다.

실제로 NVIDIA는 하이엔드 GPU와 CPU 코어를 통합하는 구상을 갖고 있었습니다. 그러나 현재는 그 구상은 후퇴했습니다. 이러한 경향은 NVIDIA만이 아닙니다.

예를 들어 CPU와 GPU를 통합한 APU (Accelerated Processing Unit)로 서버까지 커버하려 했던 AMD도 하이엔드에서는 별도의 GPU를 쓰는 방향으로 나가고 있습니다.

NVIDIA의 Xavier

NVIDIA 제품 중 CPU 코어를 통합하는 자동차와 임베디드용 SoC 계열 뿐입니다. 최신 Xavier는 8개의 NVIDIA 아키텍쳐 Arm CPU 코어와 볼타 아키텍처의 GPU 코어에 딥 러닝 가속 장치 DLA (Deep Learning Accelerator)등 다양한 코어를 탑재합니다.

젠슨황은 이렇게 설명합니다. "Xavier 같은 제품은 통합이 적합합니다. 또 CPU와 GPU만으로는 부족하지요 Xavier는 6종류의 서로 다른 프로세서를 통합합니다.

그러나 볼타 GV100 기반 HGX-2에서 통합은 별로입니다. 그 이유는 다른 구성이 필요하기 때문입나다. 어떤 때에는 1개의 CPU와 1개의 GPU, 다른 경우에는 1개의 CPU와 8개의 GPU가 필요한 식입니다.

소금과 후춧가루의 조합을 생각해 봅시다. 요리마다 각각 다른 소금과 후춧가루의 조절이 필요합니다. 소금과 후추가루를 섞어두면 사용이 제한됩니다. 이처럼 CPU와 GPU도 1종류의 구성은 제한이 많습니다. "

HGX-2를 가지고 설명하는 젠슨황

실제로 NVIDIA가 제공하는 DGX 등의 GPU 컴퓨터 솔루션을 보면 CPU에 비해 GPU의 비율이 점점 높아지고 있습니다. 지금은 CPU가 2에 GPU가 16입니다.

하지만 스칼라 CPU의 연산 능력도 유지하고 싶은 컴퓨터도 있습니다. 단일 GPU로 이러한 요구에 대응하기 위해선 CPU를 분리하는 쪽이 좋습니다.

또한, 이 배경에는 워크로드가 GPU에서 병렬 연산에 치우쳐져 있다는 상황이 있습니다. 단일 GPU에서 요구되는 성능 요구가 높고, GPU로 자원을 늘리는 것이 먼저라는 사정도 있습니다.

이런 상황에서 일단 NVIDIA는 PCI Express 및 NVLink 를 합친 칩에서 x86 CPU를 NVLink에 연결하고 있습니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '4'

파팟파파팟 슈슉슈슈슉이 아닙니다. 파팟파파팟 이죠. 2018.06.10 12:25

이걸보면 HSA가 생각나네요. AMD가 APU로 꿈꿨던 시스템이었지만 결국 묻혀버렸지만요...
조금 모양새는 다르지만 어쩌고보면 엔비디아도 그런 방향으로 시스템을 개발하는 것 같습니다.
GPU와 ARM CPU와 x86 CPU를 모두 묶음으로서 모든 처리 상황에서 유리하고 효율적인 시스템을 도모하려고 하니...
파팟파파팟 슈슉슈슈슉이 아닙니다. 파팟파파팟 이죠. 2018.06.10 12:38

그러고보니 이 글에도 언급 되어있군요. AMD APU와 HSA...
?
odessr 2018.06.11 15:53

이 정도 혁신에는 시간이 더 필요하겠죠
아무래도 지금 구조로 이어진 개발과 시간이 하도 길다보니...
Astro 2018.06.12 02:47

GPU가 아닌 CPU는 왜 이런 대형 클러스터를 만들어서 병렬 연산 모듈을 만들지 않는지 궁금해지네요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

75000TB 용량의 테이프 스토리지 라이브러리

스펙트라 로직의 스펙트라 큐브입니다. 최대 75PB(75000TB)의 용량을 제공하는 테이프 스토리지 라이브러리입니다. 전원을 끄지 않고도 새 테이프 카트리지를 넣을 수 있습니다. LTO-6부터 LTO-9까지의 테이프를 지원하며, 압축 안하고 30...

Date2024.04.16 소식 By낄낄 Reply10 Views1802

Read More
V-COLOR, 8600MHz DDR5 오버클럭 메모리 출시

V-COLOR가 Manta XFinity 오버클럭 메모리에 DDR5 8600MHz 모델을 추가했습니다. 14세대 코어 프로세서 최적화, 인텔 XMP 3.0 지원, 16개의 ARGB LED가 장착된 방열판. 24GB 모듈 2개, 타이밍은 40-54-54-132, 애즈락의 미니 ITX 메인보드...

Date2024.04.16 소식 By낄낄 Reply0 Views418

Read More
No Image

삼성, 이달 중 290단 낸드 양산, 내년에 430단 양산

삼성전자가 이달 중에 290단 적층한 9세대 V낸드를 양산합니다. 여기에는 채널 홀을 두번 뚫는 더블 스택을 씁니다. 트리플 스택을 쓸 거란 예상보다 더 발전한 것입니다. 내년 하반기에는 430단을 양산합니다. 300단 중후반을 건너뛰고 ...

Date2024.04.16 소식 By낄낄 Reply8 Views1054

Read More
인텔 제온 6 검증 플랫폼, 비치넛 시티

인텔 제온 6 시리즈 프로세서(그래닛 래피드, 시에라 포레스트)의 테스트용 플랫폼인 비치넛 시티입니다. LGA-7529 소켓 2개, 소켓 1개당 최대 288개의 코어, 제온 6 6900E/P(플래티넘), 제온 6 6700E/P(골드), 제온 6 6500P(실버), 제온 ...

Date2024.04.16 소식 By낄낄 Reply4 Views641

Read More
러시아에서 사용하는 칩의 90%는 중국에서 가져옴

2022년의 우크라이나 침공 이후 러시아 기업은 고급 반도체를 직접 살 수가 없게 됐습니다. 그래서 중국 유통업체를 거쳐서 제품들을 입수하고 있다네요. 물론 이게 그냥 되는 건 아니고 보통의 방법으로 구입하는 것보다 가격이 오르게 ...

Date2024.04.15 소식 By낄낄 Reply9 Views1603

Read More
MSI 최신 바이오스에서 차세대 라이젠 프로세서를 지원

MSI MPG B650 카본 WiFi 메인보드에 7D74v1D2 베타 버전 바이오스가 등록됐습니다. 여기에선 AGESA ComoFi 1.1.7.0 마이크로코드를 사용하는데, 차세대 프로세서를 지원한다는 설명이 있습니다. 라이젠 9000 시리즈 젠5로 보입니다.

Date2024.04.15 소식 By낄낄 Reply1 Views575

Read More
인텔 코어 울트라 애로우레이크 24코어가 발견

인텔 코어 울트라 200 시리즈, 애로우레이크 2개 모델이 유출됐습니다. 하나는 20코어 20스레드 2.3GHz, 다른 하나는 24코어 24스레드 2.3GHz입니다. 하이퍼스레딩은 없고, 샘플이라서 클럭이 높진 않습니다.

Date2024.04.15 소식 By낄낄 Reply2 Views754

Read More
BGA2540의 팬서레이크-U 테스트 툴이 공식 사이트에 등록

인텔 디자인 인 툴 스토어에 팬서레이크-U의 테스트 툴이 등록됐습니다. 팬서레이크는 애로우레이크의 후속작에 해당되는 클라이언트 CPU로 인텔 18A로 생산된다고 알려져 있습니다. 팬서레이크-U니까 저전력 모델일테고 BGA 2540으로 패...

Date2024.04.15 소식 By낄낄 Reply0 Views321

Read More
No Image

국내에 01005 smd 커패시터 파는 곳 있을까요?

01005 10pf 캐패시터가 급히 필요한데 국내에서 구할 수 있는 곳이 있을까요? 알리에서 시키기엔 시간이 너무 오래 걸려서요 ㅠㅠ

Date2024.04.15 질문 By뉴시리즈9 Reply13 Views681

Read More
스트릭스 포인트, 라데온 RX 6400 정도의 내장 그래픽?

스트릭스 포인트는 젠5 CPU와 RDNA3+ GPU로 구성된 APU입니다. 여기에는 16CU와 12CU의 두 가지 모델이 있는데 그 3D마크 성능은 아래에 나온 대로입니다. 16CU는 지포스 RTX 2050 이상이고 12CU는 라데온 RX 6400보다 조금 낮네요.

Date2024.04.15 소식 By낄낄 Reply9 Views1063

Read More
No Image

NVIDIA 주식으로 갑부가 된 직원 사례

NVIDIA에서 직원이 급여 일부를 공제해 주식을 구매할 수 있는 플랜(ESPP, 근로자 주식 매입 제도)를 활용한 전설같은 사례가 하나 있다고 합니다. https://twitter.com/firstadopter/status/1778536699221672052 18년 동안 NVIDIA에서 일...

Date2024.04.15 소식 By낄낄 Reply4 Views2579

Read More
하드디스크를 분리해서 재활용할 수 있게 해주는 장비

하드디스크를 분리해서 재활용할 수 있게 해주는 장비인 디스크맨틀러입니다. 80~90초면 일반 하드디스크 1개를 분해하며, 밀봉된 헬륨 충전 하드디스크는 120초가 걸립니다. 충격, 고조파, 진동을 가해 하드디스크의 데이터를 소거하고 ...

Date2024.04.15 소식 By낄낄 Reply6 Views1789

Read More
웨스턴 디지털 서류가방 스토리지 서버

웨스턴 디지털이 서류가방 형태의 스토리지 서버인 울트라스타 트랜스포터를 발표했습니다. TAA 보안 규격, 386TB의 NVMe SSD 탑재, 듀얼 200Gb 이더넷 포트, 12코어 아이스레이크 프로세서인 제온 4310, 128GB DDR4 메모리, 1300W 티타늄...

Date2024.04.15 소식 By낄낄 Reply8 Views1348

Read More
9.5mm 외장 ODD 케이스와 블루레이 ODD

2022년에 파이오니아 외장형 블루레이 ODD를 구매해서 CD 리핑 및 라이브 블루레이 리핑용으로 잘 쓰고 있었습니다. (모델명 BDR-XD08MB-S / 탑로딩 방식 / 공식 4K UHD 블루레이 지원) 2년쯤 잘 쓰다보니 쓰다가 고장날 걸 대비해서 새...

Date2024.04.15 일반 By유지니1203 Reply2 Views434

Read More
AM4와 AM5의 리텐션 프레임은 좀 다르게 생겼네요

시작하기 전에 우선 대전제 2가지. 1. AMD의 AM4와 AM5는 쿨러 호환이 완벽하게 됩니다. 2. AMD 메인보드는 리텐션 프레임이 달려 나오지만, 대부분의 사제 쿨러는 이걸 떼고 장착합니다. 심지어 정품 쿨러인 레이스 스파이어 같은 애들도...

Date2024.04.14 일반 By낄낄 Reply8 Views839

Read More