2024년 3월 19일 오전 5시, '엔비디아, GTC 2024 컨퍼런스'가 생중계 되었는데요.
당시 게시자 본인도 댓글 생방송 중계를 진행 및 댓글 내용을 전체 취합 및 정리하여 '엔비디아, GTC 2024(상반기) 컨퍼런스 전체 정리본'을 올려드립니다.
많은 도움이 되셨으면 좋겠습니다.
※ 본래 2024년 3월 19일 오전 5시부터 시작했었으나, 유튜브 되감기가 안되서 부득이하게 댓글 재방송중계로 대체할 수 밖에 없었습니다.
이 부분은 넓은 양해를 부탁드립니다^^;;
※ 이번 컨퍼런스 전체 정리본은 '내용 보강 및 발표된 내용'이 상당해서 3부작으로 분리 게시합니다.
1. 엔비디아 GTC 2024 컨퍼런스(상반기) 전체 정리본 - 1. 키워드(GTC 2024, 파트너쉽)
☞ 2. 엔비디아 GTC 2024 컨퍼런스(상반기) 전체 정리본 - 2. H/W[서버(데이터센터) GPU] ☜
3. 엔비디아 GTC 2024 컨퍼런스(상반기) 전체 정리본 - 3. S/W(클라우드, 옴니버스, 로봇공학)
[엔비디아 - H/W(서버 - 데이터센터) GPU] - 마이크로아키텍처 ▶ 엔비디아[차세대 서버(데이터센터 GPU)] 공식 발표! - 코드명 선정자 : David Harold BlackWell(데이빗 해럴드 블랙웰) → 미국 국립과학원에 입학한 최초의 흑인학자 - 트랜지스터 : 1,040억개(단일 다이) + 1,040억개(단일 다이) = 결합(총 2,080억개) - 제조공정 : 대만 TSMC(4NP) - GPU 메모리(용량) : 192GB(HBM3e), 메모리 다이(8개) - GPU 메모리(대역폭) : 8TB/s - GPU 대역폭 : 10TB/s(고대역폭 인터페이스) - AI(인공지능) 성능 : 20 PETA-Flops(페타플롭스) - 캐시 메모리 : 전체 일관성 유지 - 전체 스택 탑재, CUDA API 기능 지원
※ 2개의 GPU 다이를 '하나의 GPU' 통합 설계
★ 젠슨 황 CEO가 'GH100(호퍼)' GPU 및 'GB200(블랙웰)' GPU 다이를 동시에 선보였습니다! |
[엔비디아 - H/W(서버 - 데이터센터) GPU] - 벤치마크 & 성능 비교 ▶ 이전 서버(데이터센터 GPU)] 비교 - H100 서버(데이터센터) GPU : 호퍼 마이크로아키텍처 - 트랜지스터 탑재 개수 : H100 비교 대비 1,280억개 추가 - AI(인공지능) 성능 비교 : H100 비교 대비 5배 향상 - 메모리 다이 통합 비교 : H100 비교 대비 4배 확장 ※ 2배의 GPU 크기, 컴퓨팅의 엄청난 도약
▶ 블랙웰 GPU 마이크로아키텍처(비교 GPU 마이크로아키텍처 : 호퍼) 1. FP4(신규) : 40 PFLOPS(페타플롭스) → 5배 성능 차이(컨텐츠 토큰 생성 - 중요한 부분) 2. FP6(신규) : 20 PFLOPS(페타플롭스) → 2.5배 성능 차이 3. FP8 : 40 PFLOPS(페타플롭스) → 2.5배 성능 차이 4. HBM 메모리(모델 사이즈) : 7,400억개 매개변수 → 6배 크기 차이 5. HBM 메모리(대역폭) : 34조 매개변수 → 5배 크기 차이 6. NV링크(전체 감소 & SHARP) : 7.2TB/s → 4배 크기 차이
|
[엔비디아 - H/W(서버 - 데이터센터) GPU 마이크로아키텍처] - 훈련 비교 ▶ 'GPT-MoE-1.8T'(조건값 ☞ seqlen=32K 1K, FTL=5s) - 그래프(수직) : GPU당 처리량(초당 토큰) - 그래프(수평) : 상호작용 사용자 토큰(초당) ※ 다차원 최적화(병렬) : 텐서, 파이프라인, 전문가, 데이터
① GB200 슈퍼 반도체(FP4) - 140s & 2s(TP2, EP8, DP4) - 120s & 20s(TP2, EP16, PP2) - 100S & 41s(TP4, EP16)
② B200 GPU(FP8) - 60s & 5s(TP4, EP2, PP2, DP4) - 38s & 15s(TP8, PP2, DP4) - 100s & 2s(TP64)
③ H200 GPU(FP8) - 30s & 4s(TP8, PP4, DP2) - 2s & 20s(TP8, PP2, DP4) ★ H200(호퍼) 서버(데이터센터) GPU의 성능 비교 대비 : 30배 성능 자랑함
|
[엔비디아 - H/W(서버 - 데이터센터) GPU 마이크로아키텍처] - GPU 플랫폼 구성기준 ▶ 훈련 대상 : GPT-MoE-1.8T'[90일(3개월) 기간] ① 기존 GPU 플랫폼 - H100(호퍼) 서버(데이터센터) GPU : 8,000개 - 소모 전력 : 15MW(메가와트)
② 신규 '슈퍼 반도체' 플랫폼 - GB200(그레이스 블랙웰 200) '슈퍼 반도체' NVL72 - B200(블랙웰) 서버(데이터센터) GPU : 2,000개 - 소모전력 : 1/4th 전력 |
♣ 엔비디아[블랙웰 서버(데이터센터) GPU 주요 벤더사] ♣ - 클라우드 벤더사 : AWS, 구글 클라우드, 마이크로소프트 애저, 오라클 클라우드 - 첫번째 줄 : ADETP, AI21labs, Character.AI, Cohere, essential-AI, Hugging Face, Inflection - 두번째 줄 : 메타, Mistral-AI, 오픈AI, perplexity, Recursion, 테슬라, together.AI, 트위터(X) - 세번째 줄 : AiVRES, Applied Digital, 애즈락, 아수스, 시스코 시스템, Core-Weave, Crusoe, 델 테크놀로지 - 네번째 줄 : EVIDEN, 폭스콘, 후지쯔, 기가바이트, HPE, IBM 클라우드, indosat, Inventec - 다섯번째 줄 : Lambda, 레노버, Northen 데이터 그룹, 페가트론, QCT, ScaleWay, Singtel, 소프트뱅크 - 여섯번쨰 줄 : 슈퍼마이크론, 위스트론, Wiwynn, YOTTA, YTL, zt-Systems |
[엔비디아 - H/W(서버 - 데이터센터) GPU] - 플랫폼(DGX, HGX) |
①-1. HGX(엔비디아 HGX B100) ▶ 서버(데이터센터) GPU(H/W) - GPU 마이크로아키텍처 : 블랙웰 - '블랙웰' 서버(데이터센터) GPU(H/W) : 8개 - '블랙웰' 서버(데이터센터) GPU(폼팩터) : SXM(Super Chip Module - 슈퍼 칩 모듈) - '블랙웰' 서버(데이터센터) GPU[TDP(전력 사용량)] : 700W
▶ 서버(데이터센터) GPU(메모리) - GPU 메모리(종류) : HBM3e - GPU 메모리(용량) : 192GB - GPU 메모리(대역폭) : 8TB/s
▶ 메모리 & 대역폭 - 메모리(고속) : 1.5TB - 메모리[양방향(대역폭)] : 64TB/s - NV링크[양방향(대역폭)] : 14.4TB/s - 인터커넥트 대역폭(NV링크) : 1.8TB/s - 인터커넥트 대역폭(PCI-익스프레스 6.0) : 256GB/s
|
①-2. HGX(엔비디아 HGX B200) ▶ 서버(데이터센터) GPU(H/W) - GPU 마이크로아키텍처 : 블랙웰 - '블랙웰' 서버(데이터센터) GPU(H/W) : 8개 - '블랙웰' 서버(데이터센터) GPU(폼팩터) : SXM(Super Chip Module - 슈퍼 칩 모듈) - '블랙웰' 서버(데이터센터) GPU[TDP(전력 사용량)] : 1,000W
▶ 서버(데이터센터) GPU(메모리) - GPU 메모리(종류) : HBM3e - GPU 메모리(용량) : 192GB - GPU 메모리(대역폭) : 8TB/s
▶ 메모리 & 대역폭 - 메모리(고속) : 1.5TB - 메모리[양방향(대역폭)] : 64TB/s - NV링크[양방향(대역폭)] : 14.4TB/s - 인터커넥트 대역폭(NV링크) : 1.8TB/s - 인터커넥트 대역폭(PCI-익스프레스 6.0) : 256GB/s |
- 서버(데이터센터) CPU(인텔) : 5세대 제온(에메랄드 라피드) * 2개[56 코어 * 2개 = 112 코어 / 112 코어 * 2개(224 스레드)], 클럭[베이스(2.1Ghz) / 부스트(4Ghz)] - 서버(데이터센터) GPU(엔비디아) : '블랙웰' 마이크로아키텍처 * 8개[GPU 메모리(전체 1,440GB(1.44TB))] - 서버(데이터센터) 메모리 : 4TB - 스토리지 : NVMe SSD[OS 메인 부분(1.9TB * 2개 - M.2 규격) / 내부 스토리지 부분(3.84TB * 8개 - U.2 규격)] - 서버(데이터센터) 랙 유닛 : 10 RU - 네트워킹 속도(싱글 포트 * 8개) : 'Connect-X(CX)-7 VPI' 포트 제공 기반의 OSFP 포트(4개) → [이더넷 속도(인피니밴드) : 400GB/s] - 네트워킹 속도(듀얼 포트 * 2개) : 'BlueField(블루필드)-3 - QSFP112' → [이더넷 속도(인피니밴드) : 400GB/s] |
[엔비디아 - 서버(데이터센터) H/W 플랫폼] ▶ 엔비디아[서버(데이터센터) 플랫폼] - 블랙웰 플랫폼(공식 발표!) - AI(인공지능) 슈퍼반도체(트랜지스터) : 2,080억개 - 2세대 트랜스포머 엔진 : FP4, FP6 텐서 코어(AI가 동적 및 자동으로 '숫자 형식 크기'를 조정 및 낮은 정밀로도 재변환하는 기능 탑재) - 5세대 NV링크 : 576개 GPU 연결 규모(호퍼 마이크로아키텍처 대비 2배 빠름) - RAS 엔진 : 100% 시스템 내 자체 테스트 - 보안-AI : 전체 성능 암호화 및 TEE 지원 - 압축 해제 엔진 성능 : 800GB/s |
▶ 엔비디아[서버(데이터센터) H/W 플랫폼] 실물 공개 1. HGX 타입 : HGX B100 GPU(8개) 2. 슈퍼반도체 보드 : 2개 → [서버(데이터센터) CPU(그레이스, 72개 ARM-Neoverse V2) 1개 + 서버(데이터센터) GPU(블랙웰) 2개] |
[엔비디아 - H/W(슈퍼 반도체 - 'CPU + GPU')] ①-1. 엔비디아[차세대 슈퍼 반도체(CPU + GPU)] - 단일 반도체 구성 - 제품 모델명: GB200(그레이스 블렉웰 200) 슈퍼반도체 - 반도체 구성 : '그레이스' 서버(데이터센터) CPU['ARM-Neoverse V2', 72개 코어) * 1개 + '블랙웰' [서버(데이터센터) GPU] * 2개 - 슈퍼반도체 메모리(용량) : 384GB(HBM3e) - 슈퍼반도체 대역폭(NV링크 C2C) : 900GB/s |
①-2. 엔비디아[차세대 슈퍼 반도체(CPU + GPU)] - 반도체 혼합 장착 - 제품 모델명: GB200(그레이스 블렉웰 200) 슈퍼반도체 - 반도체 구성 : 서버(데이터센터) CPU(그레이스, 72개 ARM-Neoverse V2) 1개 + 서버(데이터센터) GPU(블랙웰) 2개 - AI 성능 : 40 PETA-Flops(페타플롭스) - 슈퍼 반도체 메모리(용량) : 864GB - 슈퍼 반도체 메모리(HBM) : 16TB/s - 슈퍼 반도체 대역폭(NV링크) : 3.6TB/s |
①-3. 엔비디아[차세대 슈퍼 반도체(CPU + GPU)] - 전체 세부 스펙[GB200(그레이스-블랙웰) 슈퍼 반도체] ▶ CPU(ARM-Holdings) - 그레이스 - CPU 마이크로아키텍처 : ARM Neoverse V2 - CPU 코어 : 72개 - CPU 캐시 메모리(1차) : 64KB(인스트럭션) + 64KB(데이터) - CPU 캐시 메모리(2차) : 코어 당 1MB - CPU 캐시 메모리(3차) : 114MB
▶ GPU(엔비디아) - 블랙웰 - GPU 코드명 : B200 - GPU 탑재 개수 : 2개
▶ 메모리 - CPU(메모리) - '용량 / 대역폭' : LPDDR5X(480GB / 512GB/s) - GPU(메모리) - '다이 / 용량 / 대역폭' : HBM3e(8개 다이 / 384GB / 16TB/s)
▶ 스위치(NV링크) - 스위치(버전) : 5세대 NV링크 - 스위치[대역폭(양방향)] : 2 * 1.8TB/s |
[엔비디아 - H/W(서버 - 데이터센터)] ① 엔비디아[차세대 슈퍼 반도체(CPU + GPU)] - '컴퓨팅 노드 서버 랙'(구성) - 반도체 구성 : 서버(데이터센터) CPU(그레이스, 72개 ARM-Neoverse V2) 2개 + 서버(데이터센터) GPU(블랙웰) 4개 - AI(인공지능) 성능 : 80 PFlops(페타플롭스) - 슈퍼 반도체 메모리(용량) : 1.7TB(HBM3e) - 슈퍼 반도체 메모리(대역폭) : 32TB/s - 발열 쿨링 디자인 : 액체 냉각 방식(MGX 규격)
▶ DPU(데이터 처리 유닛) - 제품명 : BlueField(블루필드)-3 * 1개 - 특정 부문별 처리속도 특화(네트워킹, 스토리지, 사이버 보안) - 내부 네트워크 컴퓨팅 지원 - 메모리 대역폭 : 80GB/s
▶ 네트워크 스위치 반도체 - 제품명 : ConnectX(CX)-800G 인피니밴드 SuperNIC * 4개 - 업계 최고의 GPU RDMA, 적응형 라우팅 지원 - 프로그래밍 가능한 혼잡 제어 기반 설계 - AI(인공지능) 처리 최적화 |
②-1. 엔비디아[차세대 슈퍼 반도체(CPU + GPU)] - '서버 랙 구성' - 제품 모델명 : GB200(그레이스 블랙웰 200) NVL72 - 1개 서버랙 당 탑재된 컴퓨트 트레이 : 18개 - '그레이스' 서버(데이터센터) CPU : 36개 - '블랙웰' 서버(데이터센터) GPU : 72개 ※ 최신 '서버(데이터센터)'를 위한 컴퓨팅 |
②-2. 엔비디아[차세대 슈퍼 반도체(CPU + GPU)] - 전체 세부 스펙[GB200(그레이스 블랙웰 200) NVL72] ▶ CPU(ARM-Holdings) - 그레이스 - '그레이스' 서버(데이터센터) CPU 코어 개수(ARM-Neoverse V2) : 2,592개
▶ GPU - 블랙웰 - '블랙웰' 서버(데이터센터) GPU : 72개
▶ CPU + GPU(슈퍼 반도체) - 반도체 구성 : GB200(그레이스 블랙웰 200) 슈퍼 반도체 * 36개 - 컴퓨팅 노드 : GB200(그레이스 블랙웰 200) 슈퍼 반도체 * 18개
▶ 메모리 - 메모리 구성(아키텍처) : HBM3e - 메모리 구성(용량) : 13.5TB - 메모리 구성(대역폭) : 576TB/s - 메모리 구성(고속) : 30TB
▶ 스위치(NV링크) - NV링크 스위치(반도체) : 5세대(9개) - NV링크 스위치[대역폭(양방향)] : 130TB |
③ 엔비디아[차세대 서버(데이터센터) 스위치] - 제품명 : 5세대 NV링크 스위치 반도체 * 2개 - 블랙웰 '서버(데이터센터) GPU'의 멀티 패브릭 연결 - 포트 구성 : 8개(최대 1.8TB/s) - 최대 총 대역폭 : 14.4TB/s
★ 엔비디아 - 'GPU 연결 기술' 세부 제원(5세대 NV링크 스위치 반도체) - 제품명 : '5세대 NV링크 스위치 반도체' - 제조공정 : 대만 TSMC(4NP) - 트랜지스터 : 500억개(호퍼 마이크로아키텍처 사이즈와 비슷함) - 포트당 대역폭(72 포트) : 듀얼 200GB/s(SerDes 지원) - NV링크(4개) : 1.8TB/s - 전체 이중 대역폭 : 7.2TB/s - SHARP 내부 네트워크 컴퓨팅 성능 : 3.6 TFLOPS(FP8 기준)
※ '5세대 NV링크 스위치 반도체' 다이 내부 구성 - I/O 다이(SerDes) : 2개 - 포트(36개) 다이 : 2개 - 코어 로직 다이 : 1개 - 관리 로직 다이 : 2개 |
④ 엔비디아[차세대 서버(데이터센터) 시스템] - 제품명 : 5세대 NV링크 스위치 시스템 - 블랙웰 '서버(데이터센터) GPU'의 멀티 패브릭 연결 - 반도체 구성(스위치 반도체) : 2개 * 9개 : 18개 - 포트 구성 : 8개(최대 1.8TB/s) * 9개 : 72개 - 최대 총 대역폭 : 130TB/s(전체 의사소통 간 통신) |
⑤ 엔비디아[차세대 서버(데이터센터)] - 척추 - 구성 : GB200(그레이스 블랙웰 200) 슈퍼 반도체[컴퓨팅 노드 서버 랙] - 서버(데이터센터) GPU : 블랙웰(72개) ☞ NV링크로 연결 구성 - 구리 케이블링 비용 : 6배 더 적은 비용으로 구축 - 생성-AI 기반의 대규모 GPU - 설치 편의성 : 쉬운 설치 및 서비스 가능성 기반의 '블라인드 메이트 커넥터' 탑재 |
⑥ 엔비디아[차세대 서버(데이터센터)] - 서버 랙 - 제품 모델명 : GB200(그레이스 블랙웰 200) NVL72 - 하나의 거대한 '엔비디아 CUDA' GPU - AI 성능 : 1.4 EXA-Flops(엑사-플롭스) - 슈퍼반도체 메모리(용량) : 30TB(HBM3e) ※ '1조 매개변수'의 '생성-AI(인공지능)' 규모급 컴퓨팅 서버 랙 |
⑦ 엔비디아[차세대 서버(데이터센터)] - 네트워킹 스위치 - 제품 모델명 : 퀀텀 인피니밴드 스위치 - 포트당 대역폭 : 800GB/s - 집계 처리량(양방향) : 230.4TB/s ※ 비교 불가능할 '데이터 처리량 & 밀도' |
⑧ 엔비디아[차세대 서버(데이터센터)] - 네트워킹 플랫폼 - 제품 모델명(인피니밴드) : 퀀텀-X800 - 제품 모델명(네트워킹 스위치) : 스펙트럼-X800 - 접속 용량 : 800GB/s - 대역폭 용량 : 최대 5배 확장 - 내부 네트워크 컴퓨팅 성능 : 14.4 Tera-Flops(테라플롭스) ※ 최고의 AI(인공지능) 성능을 위한 네트워킹 플랫폼! |
⑨ 엔비디아[차세대 서버(데이터센터)] - '서버(데이터센터)' 컴퓨팅 랙 - 제품 모델명 : GB200(그레이스 블랙웰 200) NVL72 - 제품 구성 : GB200 NVL72(8개) + 그레이스 서버(데이터센터) CPU(288개) + 블랙웰 서버(데이터센터) GPU(576개) ※ 액체 냉각 방식 : 최고의 에너지 효율성을 자랑함(컴퓨팅 랙의 냉각 전력이 2배 감소함) ★ 엔비디아의 '차세대 DGX Super-POD' 플랫폼 : 엔비디아 'DGX GB200 Super-POD' |
⑩ 엔비디아[차세대 서버(데이터센터)] - 전체 '서버(데이터센터)' - 탑재 서버(데이터센터) GPU(블랙웰) : 32,000개 - AI(인공지능) 성능 : 645 EXA-Flops(엑사-플롭스) - 메모리 용량 : 13PB(페타바이트) - 대역폭(NV링크) : 58PB/s(페타바이트) - 내부 네트워크 컴퓨팅 성능 : 16.4 PETA-Flops(페타플롭스) ※ 새로운 산업혁명을 위한 AI(인공지능)-공장 인프라스트럭쳐 |
▶엔비디아['슈퍼 반도체(CPU + GPU)' 플랫폼 성능 비교] - DGX 플랫폼(DGX GB200 NVL72) 1. FP8 훈련 성능 : 720 PFLOPS(페타플롭스) → 22배 2. FP4 추론 성능 : 1.44 EXA-Flops(엑사플롭스) → 45배 3. 멀티노드(All-To-All) : 130TB/s → 18배 4. 멀티노드(All-Reduce) : 260TB/s → 36배 ※ 하나의 거대한 GPU ※ 뒷면 세부 구성 : DGX NV링크 케이블(5,000개)가 포함됨(2마일에 걸침) |
[엔비디아 - 슈퍼 컴퓨터 시스템] ① Selend(셀린) : 2021년 - 서버(데이터센터) GPU : A100(암페어 마이크로아키텍처) ☞ 4,480개 탑재 - AI 컴퓨팅 성능 : 3 엑사플롭스(EXA-Flops) - 인터커넥터 대역폭 : 112TB/s
② EOS(에오스) : 2022년(공식 발표) & 2023년(공개) - 서버(데이터센터) GPU : H100(호퍼 마이크로아키텍처) ☞ 10,752개 탑재 - AI 컴퓨팅 성능 : 43 엑사플롭스(EXA-Flops) - 인터커넥터 대역폭 : 1,100TB/s
③ 네트워킹 및 연결 기술 - 네트워킹 : 멜라녹스 인피니밴드 - GPU 연결 기술 : NV링크 ※ 여러 개의 GPU를 '하나의 GPU'로 연결하여 전체를 혁신하는 슈퍼컴퓨터 |