AMD와 NVIDIA, 모두 HBM(High Bandwidth Memory)를 채용할 것

 

GPU 기술 혁신의 다음 단계는 메모리 대역입니다. GPU는 범용 컴퓨팅 영역으로 가면서 보다 넓은 메모리 대역이 요구됩니다. 메모리 대역은 현재 프로세서에서 가장 큰 병목 현상을 일으키고 있기에 새로운 메모리 기술의 등장이 요구되는 상황입니다. GPU에서 차세대 광대역 DRAM기술인 HBM(High Bandwidth Memory)이 매우 가까이 다가와 마침내 기술적인 혁신이 다가오게 됩니다. 다만 HBM을 도입하는 시점은 GPU 제조사마다 다르며 HBM의 스펙이나 메모리 대역도 다릅니다.

 

1.jpg

 

메모리 기술 로드맵

 

2.jpg

 

요구 메모리 대역

 

HBM의 주요 특징은 1TB/sec의 메모리 대역을 지녔다는 것입니다. 그러나 이 메모리 대역을 실현하기 위해서는 조건이 있습니다. 2세대 HBM2에서 4다이를 적층한 4Hi 스택의 HBM을 4모듈 사용해야 합니다. HBM은 1스택당 1,024비트 폭을 지닌 메모리 인터페이스이기에 4스택 4,096비트 인터페이스를 2Gbps/pin의 데이터 전송 속도로 구동했을 경우 1TB/sec의 메모리 대역에 도달할 수 있습니다.

 

3.jpg

 

DRAM의 기술 동향

 

2015년 1분기부터 본격적으로 양산되는 HBM은 1세대 HBM1에서 데이터 전송 속도가 1Gbps, 4개의 HBM 스택을 사용해도 메모리 대역은 512GB/sec로 1TB/sec의 절반입니다. GPU용으로는 1.25Gbps의 스택도 제공된다고 하지만 그래봤자 메모리 대역은 640GB/sec이고 아직 1TB/sec에는 도달하지 못합니다. 이것이 2016년에 탑재되는 2세대 HMB2가 되면 최고 전송 속도는 2Gbps 이상으로 오릅니다. 그래서 1TB/sec는 HBM2까지 기다려야 도달할 수 있습니다.

 

4.jpg

 

SK 하이닉스의 HBM 스케줄

 

5.jpg

 

6.jpg

 

SK 하이닉스의 1세대 HBM 다이

 

 

메모리 탑재량과 ECC 기능에도 영향을 미치다

 

HBM1과 HBM2의 차이는 GPU 카드에 탑재하는 메모리의 차이에도 반영됩니다. 현재 공급 가능한 HBM1은 SK 하이닉스의 제품으로 DRAM 다이의 용량은 2기가비트, 4개의 DRAM 다이를 쓴 4 Hi 스택의 용량은 1GB입니다. 이걸 그대로 쓴다면 4개의 HBM 스택을 사용해도 GPU에 탑재할 수 있는 메모리 용량은 4GB밖에 안 됩니다. 처음엔 8장의 DRAM 다이를 적층하는 8 Hi 스택은 제공되지 않기에 4GB가 상한입니다.

 

7.jpg

 

HBM 용량

 

그에비해 HBM2에선 8기가비트의 용량을 지닌 DRAM 다이가 등장합니다. 4Hi 스택의 용량은 4GB입니다. 4개의 HBM 스택을 사용하는 GPU는 16GB까지의 메모리를 탑재할 수 있게 됩니다. 8Hi 스택을 사용하는 경우는 32GB가 최고입니다. GPU가 영역을 늘리고 있는 HPC(High Performance Computing) 시장에선 대용량 메모리가 요구되기에 HBM2의 용량은 중요합니다.

 

또 ECC가 있습니다. HBM에서는 온 다이(On-Die) ECC가 쓰입니. 1개의 DRAM 디바이스에선 각각의 메모리 뱅크의 Row마다 ECC 비트가 구현됩니다. 그래서 기존의 DIMM 모듈 단위의 ECC와 다르게 DRAM 디바이스 자체에서 지원이 필요합니다.

 

8.jpg

 

9.jpg

 

ECC 그 자체는 HBM의 세대에 연관이 없는 스펙입니다. 첫 양산 세대의 HBM에는 ECC가 없을 것으로 보이며 앞으로의 HBM에서 구현될 듯 합니다. 기존의 DIMM와 달리 HBM에선 ECC 버전과 Non-ECC 버전의 DRAM의 인터페이스 자체는 바뀌지 않습니다. ECC는 완전히 온 다이로 이루어집니다.

 

 

AMD는 해적섬, NVIDIA는 파스칼에서 HBM을 도입

 

AMD는 2015년의 GPU인 Pirate Islands에 HBM을 쓸 예정입니다. 최소한 중급기 이상의 Pirate Islands는 HBM을 쓰는 것으로 알려졌습니다. 이러한 일정은 HBM1의 양산 일정과 맞는 것이기도 합니다. HBM의 선두주자인 SK 하이닉스는 HBM1의 양산을 2015년 1분기부터 시작한다고 발표했거든요.

 

한편 NVIDIA는 차세대 GPU 아키텍처 파스칼에서 HBM을 쓴다고 밝혔습니다. 이쪽은 메모리 대역이 1TB/sec로 기존 GDDR5 기반 GPU의 3배가 됩니다. NVIDIA 관계자는 파스칼에서 도입하는 것이 HBM2라고 밝혔습니다.

 

10.jpg

 

파스칼의 GPU 카드. 중앙에 GPU와 4개의 HBM 스택이 있습니다.

 

그래서 같은 HBM이라 해도 AMD는 Pirate Islands에서 HBM1을, NVIDIA는 파스칼에 HBM2를 쓰는 식으로 다른 길을 걷게 됩니다. 다시 말해 AMD는 HBM1을 도입해 HBM을 먼저 쓰는 걸 중시하며, NVIDIA는 HBM2를 골라 대역이나 용량, ECC가 성숙되는 걸 기다리기로 한 듯 보입니다. 물론 AMD도 2016년에는 HBM2로 이행할 것이며 그 때 두 회사의 스펙은 거의 같을 것입니다. HBM를 서두르냐 아니냐의 판단이 차이가 있을 뿐이지요.

 

AMD가 HBM1을 Pirate Islands 패밀리의 라데온 R9 390에 4개의 4Hi 스택 HBM1을 채용한다면 메모리 대역은 현재 GDDR5의 2배 정도입니다. HBM1은 SK 하이닉스의 제품 카탈로그에(파트 넘버 H5VR8GESM4R-20C) 1Gbps로 표기돼 있습니다. 그러나 Pirate Islands는 1.25Gbps이상의 선별품을 쓸 것이며, HBM2역시 2Gbps 이상의 버전이 등장한다고 알려져 있습니다.

 

아래는 하이엔드 메모리의 대역과 전송 속도의 비교입니다. 현재의 GPU는 GDDR5 인터페이스를 512비트에 5Gbps로 구동하거나 384비트에 7Gbps의 높은 속도로 구동하고 있습니다. 메모리 대역은 300GB/sec 정도. HBM1에서는 이게 5122640GB/sec로 늘어나며 HBM2에서는 1TB/sec로 3배 늘어납니다.

 

11.jpg

 

메모리 버스폭의 로드맵

 

 

8채널 메모리 인터페이스를 1모듈로 통합

 

HBM은 Through Silicon Via(TSV) 기술의 다이 스택을 전제로 하는 메모리 규격인 2.5D 스택을 의식한 기술로서 GPU, HPC, 네트워크 제품 등 광대역을 필요로 하는 시장에 초점을 맞추고 있습니다. TSV 스택 메모리의 3D 솔루션은 GPU와 CPU에 직접 DRAM을 적층하지만 2.5D는 TSV 인터포저를 사용해 접속합니다. GPU도 2.5D 방식으로 HBM을 사용합니다. 그 장점은 2개가 있는데 우선 CPU와 GPU에 TSV 기술을 사용하지 않아도 된다는 것, 그리고 GPU/CPU/SoC의 발열이 열에 약한 DRAM로 배출되지 않는다는 것입니다.

 

11-1.jpg

 

2.5D 인터포저

 

HBM의 데이터 버스는 1,024-bit(x1024)이며 HBM의 메모리 스택은 기본적으로 4개의 DRAM을 적층합니다. 현재 SK 하이닉스의 스펙에선 4스택 이상이 아니면 최대 대역을 얻을 수 없습니다. SK 하이닉스는 8-Hi 스택의 HBM도 계획 중입니다. 이건 1채널 당 2개의 다이가 됩니다.

 

12.jpg

 

13.jpg

 

14.jpg

 

1024비트 버스는 8개의 채널로 분할되며 각각의 채널이 독립해 동작합니다. 즉 1개의 HBM 인터페이스는 8 메모리 채널의 DRAM 인터페이스로 동작합니다. 각 채널은 각각 128 I/O에 1다이를 2채널씩 이어 256-bit(x256)의 I/O가 됩니다. 각 채널마다 2G-bit의 메모리 용량이 서로 독립된 8 메모리 뱅크(16 서브 뱅크)로 구성됩니다. SK 하이닉스의 2Gbit의 경우 각 다이를 16뱅크 구성입니다.

 

15.jpg

 

메모리 대역폭의 비교

 

16.jpg

 

HBM의 아키텍처

 

HBM 스택의 밑부분엔 베이스 로직 다이가 배치됩니다. JEDEC의 스펙을 보면 베이스 로직 다이를 DRAM 제조사가 선택할 수 있으나, 현실적으로는 2.5D 스택에서 로직 다이가 필요합니다.

 

17.jpg

 

18.jpg

 

 

2Gbit 칩의 HBM1로 대용량화

 

HBM1의 문제 중 하나는 메모리 용량입니다.  GPU에 4GB 메모리를 조합하는 건 차세대 하이엔드 GPU 치고는 부족한 용량입니다. 그래서 AMD는 최초의 HBM 채용 GPU에서 듀얼 링크 인터포징이란 기술을 사용해 메모리 용량을 늘리는 것으로 알려져 있습니다.

 

HBM의 스펙에선 이미 설명한대로 8Hi에서 2단계 구성으로 메모리 채널을 분기시켜 지원합니다. 8Hi 스택에선 2등급을 1개의 스택에서 실현합니다. AMD는 인터포저 쪽에서 2등급으로 나누는 방식을 쓸 가능성이 있습니다. 그럼 2배 용량의 지원이 가능합니다.

 

현재 HBM에서 해결해야 할 점은 비용입니다. TSV의 수, 매우 폭넓은 인터페이스를 구축하기 위해 필요한 범프의 수, 다수의 다이를 적층하는 스택의 수까지. 이러한 숫자를 얼마나 높게 잡아야 할까요? 또 비용 증가의 요인인 TSV 인터 포저를 어떻게 양산에서 저렴하게 도입할지가 과제입니다. 

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.