Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/column/ubiq/1577897.html

NVIDIA는 블랙웰을 발표하고 스펙을 공개했으나 아키텍처에 대해서는 거의 아무것도 말하지 않았습니다. 호퍼와 완전히 다르지만 현재로선 밝힐 수 없다고 하네요.

 

블랙웰은 2개의 다이를 1개의 패키징에 패키징했습니다. 어떤 칩렛 기술(2D, 2.5D, 3D)를 썼는지도 공개하지 않았습니다. 다만 다이 사이즈를 줄여 수율을 높이는 것이 목적이 아니라, 현재 생산 기술로 만들 수 있는 크기의 한계에 가까운 칩을 함게 패키징했다고 강조했습니다. 즉, 수율이나 효율, 설계의 장점 때문에 칩렛을 쓴 게 아니라 성능 향상이 목적이라는 겁니다. 

 

001_o.jpg

 

  블랙웰(풀버전) 호퍼(H100 SXM)
프로세스 노드 TSMC 4NP TSMC 4N
다이/패키지 2 1
FP64 45TFLOPS 34TFLOPS
TF32 (텐서코어) 2.5PFLOPS 989TFLOPS
FP16/BF16(텐서 코어) 5PFLOPS 1979TLOPS
FP8/FP6(B200 전용)/INT8(텐서 코어) 10PFLOPS 3958TFLOPS
FP4(텐서 코어) 20PFLOPS
GPU 메모리 192GB(HBM3e) 80GB(HBM3)
GPU 메모리 대역폭 8TB/초 3.35TB/초
NV링크 5세대 4세대
NVLink 대역폭 1.8TB/s(양방향) 900GB/s(양방향)
NV-Switch 이용시 최대 스케일업 수 576 256
TDP 1200W 700W

 

 

 NVIDIA Blackwell Architecture Technical Brief에서 공개한 블랙웰의 상세 스펙입니다. FP64, TF32, FP16/BF16까지 3가지 값을 새로 발표했는데요. 텐서 코어를 활용해 연산하는 성능이 대폭 향상되어, TF32, FP16/BF16, FP8/INT8이 2.5배가 됐습니다. 하지만 FP64는 32%가 올랐습니다. 암페어(A100)에서 호퍼(H100)으로 오면서 3.5배가 오른 것과 비교하면 향상폭이 적습니다. 블랙웰은 일반적인 HPC보다 AI 처리에 초점을 맞춰 설계됐음을 알 수 있습니다. 

 

블랙웰은 2세대 트랜스포머 엔진이라는 새로운 텐서 코어가 탑재되어, TF32, FP16, BF16, FP8, INT8 등의 기존 제품에서 지원한 정확도 외에도 FP6, FP4를 새로 지원합니다. 정밀도가 결과 값에 큰 영향을 주지 않는 AI 추론에서 효과적인 방법으로, 정밀도를 낮출수록 연산 성능은 높아집니다. 다만 FP6은 F8과 별 차이가 없고 FP4는 성능에 영향이 큽니다.

 

003_o.jpg

 

또 TDP도 크게 올랐습니다. 블랙웰 풀버전인 B200은 1200W로, H100 XSM(DGX에 들어가는 전용 모듈)의 700W와 비교하면 500W가 오른 것입니다. 블랙웰은 크게 3가지 제품이 있는데 나머지는 1000W와 700W입니다. 

 

  B200(GB200 버전) B200(DGX/HGX 버전) B100(HGX 버전) 호퍼(H100 SXM)
다이/패키지 2 2 2 1
FP64 45TFLOPS 40TFOPS 30TFOPS 34TFLOPS
TF32 2.5PFLOPS 2.2PFLOPS 1.8PFLOPS 989TFLOPS
FP16/BF16(Tensor 코어) 5PFLOPS 4.5PFLOPS 3.5PFLOPS 1.979PFLOPS
FP8/FP6/INT8(Tensor 코어) 10PFLOPS 9PFLOPS 7PFLOPS 3.958PFLOPS
FP4(Tensor 코어) 20PFLOPS 18PFLOPS 14PFLOPS
GPU 메모리 최대 192GB(HBM3e) 최대 192GB(HBM3e) 최대 192GB(HBM3e) 80GB(HBM3)
GPU 메모리 대역폭 8TB/초 8TB/초 8TB/초 3.35TB/초
NV링크 5세대 5세대 5세대 4세대
NVLink 대역폭 1.8TB/s(양방향) 1.8TB/s(양방향) 1.8TB/s(양방향) 900GB/s(양방향)
TDP 1,200W 1,000W 700W 700W

 

TDP가 줄었으니 코어 수나 클럭도 조정했으리라 보이는데 구체적으로 어떻게 했는지는 아직 알려지지 않았습니다. 또 이렇게 3개 외에 다른 버전이 추가될 가능성도 있습니다.

 
블랙웰은 2개의 다이를 1개로 패키징했습니다. 소프트웨어 레벨에선 2개의 다이를 1개의 GPU로 인식하기에 기본적인 프로그래밍 모델은 바뀌지 않습니다. 또 NVIDIA GPU는 하드웨어가 바뀌어도 CUDA 레벨에서 커버를 하기에 프로그래머 입장에선 달라진 게 없습니다. 
 
005_o.jpg

 

GPT 같은 대규모 언어 모델에서 학습을 병렬 실행하는 구조인 트랜포머 모델입니다. 여기에선 MoE(mixture of experts)를 도입해 병렬성을 높여 실행합니다.

 

006_o.jpg

 

MOE로 연산할 경우 하나의 GPU가 연산을 끝낼 때까지 다른 GPU는 기다려야 합니다. 또 GPU 사이에 데이터 교환을 하는데 처리 능력의 60%를 소비합니다. 대규모 병렬 GPU에서 이런 낭비를 줄이는 것이 중요합니다. NVIDIA는 새로운 트랜스포머 모델의 병렬성 향상 기법(EP:Expert Parallelism, TP:Tensor Parallelism)을 2개로 나눠 병령성을 높여 AI 학습을 효율적으로 연산하고, GPU 사이의 통신을 줄일 수 있다고 설명합니다. 

 


TAG •

  • profile
    슬렌네터      Human is just the biological boot loader for A.I. 2024.03.27 00:27
    스펙은 모르겟고 황통수 답게 컷팅해서 높은 가격에 책정한다에 제 발톱을 겁니다.
  • ?
    photino65 2024.03.27 01:21
    GPT-4가 얼마나 큰지 MoE인지 비밀이었는데 이제서야 엔비디아가 공개하네요
  • ?
    고자되기 2024.03.27 10:41
    메모리가 마이크론제품이네요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 삼성 GDDR7 23Gbps와 32Gbps 메모리를 홈페이지에 등록

    삼성이 GDDR7 23Gbps와 32Gbps 메모리를 홈페이지에 등록했습니다. 메모리 용량은 16Gb(2GB)입니다. SK 하이닉스는 40Gbps에 24Gb 짜리도 언급하고 있던데, 거기도 언급만 할 뿐이지 초기 물량은 32Gbps 16Gb겠지요.
    Date2024.03.27 소식 By낄낄 Reply2 Views579 file
    Read More
  2. 인텔 아크 A750E, A580E 임베디드 그래픽 준비 중

    인텔이 리눅스 그래픽 커널에 보낸 패치에 의하면 아크 A750E, A580E를 출시할 것으로 보입니다. 이들 제품은 아크 임베디드 시리즈에 속합니다. A770M, A580M과 스펙은 비슷할 것 같습니다.
    Date2024.03.27 소식 By낄낄 Reply1 Views413 file
    Read More
  3. AI에 특화된 설계, NVIDIA 블랙웰. 병렬성을 향상

    NVIDIA는 블랙웰을 발표하고 스펙을 공개했으나 아키텍처에 대해서는 거의 아무것도 말하지 않았습니다. 호퍼와 완전히 다르지만 현재로선 밝힐 수 없다고 하네요. 블랙웰은 2개의 다이를 1개의 패키징에 패키징했습니다. 어떤 칩렛 기술(...
    Date2024.03.26 소식 By낄낄 Reply3 Views1691 file
    Read More
  4. 서피스고4 일반판매를 하는군요?

      서피스고4는 비즈니스용 제품만 출시한것으로 알고있는데 일반소비자도 구매가능하군요? 가격이 상당히 아쉽긴 하지만 사이즈는 상당히 매력적인것 같습니다
    Date2024.03.26 일반 By마카 Reply21 Views1673 file
    Read More
  5. 남는 m.2 sata 여러 개를 하나로 합쳐보았습니다.

    남는 m.2 sata SSD가 몇 개 있어 이걸 어떻게 굴릴까 생각하던 중 알리의 알고리즘이 이 제품을 소개해 줬습니다. m.2 sata 규격의 SSD를 2개 연결할 수 있는 2.5 인치 규격의 인클로저더라구요.     글 올리기 직전에 찾아보니 3.5인치 ...
    Date2024.03.26 일반 Bytitle: 가난한Eriol Reply13 Views1320 file
    Read More
  6. 브로드컴이 공개한 거대한 AI 칩

    브로드컴이 공개한 거대한 AI 칩입니다. CoWoS 패키징과 래티클의 한계(858제곱mm)에 가까운 멀티 칩렛 ㅍㅍ로세서 되겠습니다. 2개의 XPU 컴퓨팅 유닛이 중앙에 있고, 양 옆에는 HBM 메모리가 있습니다.
    Date2024.03.26 소식 By낄낄 Reply2 Views2447 file
    Read More
  7. 지포스 1060, 2060, 3060, 4060의 게임 성능 비교

    지포스 1060, 2060, 3060, 4060의 게임 성능을 비교한 것입니다. GTX 1060에서 RTX 2060으로 올 때 향상폭이 가장 컸습니다. 3060은 차이가 크지 않지만 그래도 여긴 메모리 용량이라도 늘었으니.. 다만 60 시리즈에서 새로운 제품이 나...
    Date2024.03.26 소식 By낄낄 Reply10 Views2194 file
    Read More
  8. 중국에서 더러운 RX 580 44장을 밀수하려다 적발

    중국 상하이 푸둥 공항 세관에서 라데온 RX 580 중고 그래픽카드 44장을 밀수하려다가 적발된 사건이 있었습니다. 이게 배도 아니고 국제선 비행기를 태워서 밀수할만한 가치가 있는 물건인가 싶네요. 얘네들은 돈이 되니까 밀수하는 게 ...
    Date2024.03.26 소식 By낄낄 Reply10 Views1741 file
    Read More
  9. No Image

    EVGA 파워의 핀 레이아웃이 바뀌면서 하드디스크를 죽임

    EVGA GQ 1000W 골드 파워를 쓰던 사람이 올린 글입니다. 파워에서 코일 소리가 나서 자비로 수리를 보냈습니다. EVGA는 케이블을 함께 보낼 경우 돌려 보내지 않으니 잘 갖고 있으라고 답변했습니다. 이는 파워 리퍼 과정에서 특별한 일이...
    Date2024.03.26 소식 By낄낄 Reply13 Views838
    Read More
  10. 2.5기가 이더넷 포트 8개가 달린 미니 ITX 메인보드

    2.5기가 이더넷 포트 8개가 달린 미니 ITX 메인보드인 Topton N9입니다. 인텔 i226-V 컨트롤러 8개, 미니 ITX 폼펙터, 코어 i7-8705G(카비레이크 G) 프로세서 기본 탑재, 20달러로 쿨러 추가 구매 가능, 12-19V DC 전원 입력, DDR4 SO-DIM...
    Date2024.03.26 소식 By낄낄 Reply12 Views852 file
    Read More
  11. 팻 겔싱어, 일론 머스크에게 팹을 보여줄 수 있다고 함

    인텔의 팻 겔싱어 CEO는 CHIPS/과학법의 보조금을 받았음을 강조하면서, 일론 머스크에게 팹을 보여줄 수 있다고 말했습니다. 새 고객 확보를 위해 여기저기 열심히 찔러보는 듯 한데, 아직까지는 저길 다 채울 만큼의 큰손 확보는 안 된...
    Date2024.03.26 소식 By낄낄 Reply0 Views676 file
    Read More
  12. AMD 튜린, 젠5 에픽 프로세서가 6000MT/s 4TB 메모리를 지원

    AMD의 젠 5 아키텍처, 코드네임 튜린을 지원하는 메인보드에 나온 스펙입니다. 에픽 9000 시리즈, TDP 400W, 메모리는 DDR5-6000(튜린만 가능)에 8개의 슬롯과 4TB까지 지원한다고 나와 있습니다.
    Date2024.03.26 소식 By낄낄 Reply0 Views502 file
    Read More
  13. No Image

    화웨이와 SMIC, 5nm 생산을 위한 4중 패터닝 준비

    화웨이와 SMIC는 5nm 생산을 위한 4중 패터닝(SAQP, Self-Aligned Quadruple Patterning) 기술의 특허를 제출했습니다. DUV 장비를 활용해서 5nm 공정을 만들 수 있도록 패턴을 4번 에칭하는 것입니다. 이렇게 하면 미국의 수출 제한을 어...
    Date2024.03.26 소식 By낄낄 Reply2 Views464
    Read More
  14. 젠5/젠5c 에픽 프로세서 라인업

    젠5/젠5c 에픽 프로세서 라인업이라고 합니다. 코드네임 튜린, LGA 6096 소켓을 사용하며 8코어 16스레드 32MB부터 160코어 320스레드 640MB까지 있습니다.
    Date2024.03.26 소식 By낄낄 Reply7 Views793 file
    Read More
  15. LGA-1851 소켓이 달린 산업용 메인보드가 발견

    IBASE의 산업용 미니 ITX 메인보드인 MI1002입니다. 인텔의 차세대 소켓인 LGA-1851을 사용하며 메테오레이크-PS 프로세서를 지원합니다. 그 외에 DDR5 SO-DIMM 슬롯 2개에 64GB 장착이 가능하고, 듀얼 2.5Gb 랜과 시리얼 포트, SATA 포트...
    Date2024.03.26 소식 By낄낄 Reply1 Views473 file
    Read More
목록
Board Pagination Prev 1 ... 14 15 16 17 18 19 20 21 22 23 ... 1940 Next
/ 1940

AMD
MSI 코리아
한미마이크로닉스
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소