차세대 GPU부터 미래의 APU까지 커버하는 HBM2 규격


앞으로 컴퓨터 시스템의 핵심인 HBM2 메모리의 개요가 공개됐습니다. HBM2는 Through Silicon Via(TSV) 기술을 사용한 스택 메모리로 현재 AMD가 사용 중인 HBM1의 후​​계자가 됩니다. HBM2에 의해 2016년 GPU는 1TB/sec의 메모리 대역을 실현하게 될 것입니다. 그러나 고급형 GPU로 사용처가 제한되는 HBM1에 비해 HBM2는 광범위한 애플리케이션에서의 도입이 기대되고 있습니다.

 

HBM2는 데이터 전송 속도가 기존의 2배인 2Gbps가 되면서 소비 전력 당 대역폭이 크게 늘었습니다. 또한 제조업체는 SK 하이닉스 뿐만 아니라 삼성 반도체도 참가합니다. 용량은 8G-bit로 늘어나고 ECC 기능도 옵션으로 추가되며, 그 외에도 슈도 채널(Pseudo Channel) 모드 등 새로운 기능이 더 해졌습니다. 또한 구현에서도 큰 폭의 개량이 이루어져 1세대의 HBM과는 완전히 다르다고 해도 될 DRAM으로 진화했습니다. 2016년 1월에 열린 반도체 컨퍼런스인 ISSCC(IEEE International Solid-State Circuits Conference)에선 HBM2의 구현 방식이 밝혀지기도 했습니다.

 

HBM(High Bandwidth Memory)은 1024비트의 초 광대역 메모리 인터페이스를 사용하는 적층 DRAM 기술입니다. 하나의 다이에 TSV 기술을 이용해 DRAM 칩을 적층합니다. DRAM 다이는 2~8 층의 적층이 예상됩니다.

 

HBM은 기존의 메모리 규격과 비교했을 때 상대적으로 적은 전력으로 아주 높은 메모리 대역폭을 얻을 수 있는 것이 특징입니다. 단점은 제조와 조립 비용이 비싼 TSV 인터포저 패키징이 CPU와 GPU에 들어간다는 것입니다. 허나 HBM2에서는 다양한 개량이 더해지면서 일정 대역 당 제조 비용도 낮출 수 있게 됐습니다.

 

1.jpg

 


메모리 로드맵

 


2층 스택만으로 전체 대역폭을 얻을 수 있는 HBM2 규격


HBM은 128비트의 메모리 채널을 8개 묶어 1024비트 인터페이스를 구성했습니다. 각각의 메모리 채널은 독립적으로 작동이 가능합니다. 모든 메모리 대역폭을 내려면 8채널의 1024비트 I/O를 최대한 사용해야 가능합니다.

 

HBM1는 완전한 메모리 대역폭을 얻기 위해서는 4-Hi(4층) 스택을 해야만 합니다. 이것은 HBM1의 DRAM 다이가 2채널만 쓰지는 못하기 때문입니다. HBM1는 완전한 8채널 구성을 하려면 2채널(256-bit)의 DRAM 다이를 4개 적층한 4-Hi(4층) 스택이 필요했습니다. 4-Hi 스택에서 2채널 × 4대 = 8채널이 됩니다.

 

반면 HBM2는 1개의 DRAM 다이가 4채널(512비트) 인터페이스를 지원할 수 있도록 했습니다. 따라서 2-Hi(2층) 스택만으로 8채널(1024)비트 구성이 가능하기에 모든 메모리 대역폭을 내는 것이 가능합니다. 2-Hi 스택에서 4채널 × 2개 = 8채널(1024비트)입니다. 이것도 ISSCC에서 공개된 것으로 전에 올린 글에선 잘못 추측한 부분이 있네요.

 

재미있는 건 같은 HBM2라 해도 삼성과 SK 하이닉스의 아키텍처가 크게 다르다는 것입니다. JEDEC 스펙의 HBM2는 각 다이 당 2채널/4슈도 채널입니다. 삼성은 구현은 JEDEC 스펙을 따라 1다이에 2채널/4슈도 채널이며 2-Hi일 때에만 1채널/4슈도 채널로 바뀝니다. 그런데 SK 하이닉스는 1다이에 4채널/8슈도 채널이 됩니다. 이런 아키텍처의 차이에는 HBM을 모듈 단위로 생각하거나 개별 DRAM 칩을 별도의 칩으로 생각하는 개념의 차이가 반영된 것이라 할 수 있겠습니다.

 

 

JEDEC 스펙 그대로의 삼성 HBM2


삼성의 실제 채널 구성은 스택의 수에 따라 다릅니다. 1대당 2채널은 4-Hi 스택이나8-Hi 스택일 경우이며, 2-Hi일 때는 1다이에 4채널/8슈도 채널로 전환합니다. 4-Hi/8-Hi 스택일 때 각 다이의 유효 I/O는 256비트나, 2-Hi 스택일 때 각 다이의 I/O는 512비트로 다이 하나의 메모리 대역은 2배가 됩니다.

 

2.jpg

 

삼성의 HBM2 4-Hi/8-Hi 스택 시 채널과 뱅크 구성


위 슬라이드는 삼성의 HBM2 다이 아키텍처로 왼쪽과 오른쪽은 서로 다른 채널입니다. 왼쪽은 파란색 화살표, 오른쪽은 녹색 화살표지요. 이 슬라이드에 따르면 삼성의 HBM2 다이는 1채널당 16뱅크 메모리를 구성합니다. 그러나 ISSCC에서 발표했을 땐 1슈도 채널 당 16뱅크라고 했으니 이 경우 1채널 32뱅크가 됩니다. 실제 그림에선 1채널 32뱅크로 보이나 채널이 2개의 DWORD로 나누어졌기에 2개의 서브 뱅크가 1 뱅크를 구성할 가능성이 높습니다.

 

HBM2는 128비트 1채널을 2개의 64비트 채널로 분할해 사용하는 슈도 채널 모드가 있습니다. I/O에서 64비트의 DWORD가 각각 다른 슈도 채널이 됩니다. 각각의 슈도 채널은 분할된 DRAM 뱅크에 독립적인 64비트 인터페이스로 액세스합니다. 마치 64비트(x64) 채널이 각 채널마다 2개씩 있는 것처럼 행동하는 것이지요. 그러나 실제로는 2개로 분할된 슈도 채널은 1개의 AWORD(Address Buffer)를 공유합니다. 슈도 채널시엔 위 그림의 좌우 채널이 각각의 슈도 채널로 나뉩니다.

 

3.jpg

 

삼성 HBM2의 2-Hi 스택에서 채널과 뱅크 구성


2-Hi 스택시에는 채널과 뱅크의 결합이 바뀝니다. 각각의 슈도 채널이 상하 다른 채널로 분할됩니다. 다이 왼쪽 상단, 왼쪽 하단, 오른쪽 상단, 오른쪽 하단이 다른 채널로 나뉘는 것입니다. 위 그림에서 4가지 색으로 분류된 화살표가 4개의 채널을 가리킵니다. 슬라이드에선 총 8채널이 8뱅크를 이룬 것으로 나오는데 이 경우 2-Hi일 때 슈도 채널은 4뱅크가 됩니다. 덧붙여서 8-Hi 스택은 4-Hi 스택을 기반으로 2개 구성한 것입니다.

 

 

삼성과 크게 다른 SK 하이닉스의 HBM2 아키텍처


SK 하이닉스의 아키텍처는 삼성과는 상당히 다릅니다. 4-Hi/8-Hi 스택일 때도 1다이에 4채널/8슈도 채널이 됩니다. 1 다이에 4채널이니까 2개를 사용해 2-Hi 스택이면 8채널의 전체 대역폭을 낼 수 있습니다. 2-Hi를 예로 들면 첫번째 다이인 Slice 0이 채널 0/2/4/6의 4채널, 두번째 다이인 Slice 1이 채널 1/3/5/7의 4채널 구성으로, 2-Hi 스택에 총 8채널이 나옵니다.

 

4.jpg

 

SK 하이닉스의  HBM2 다이 아키텍처


 4-Hi / 8-Hi 스택일 때는 어떻게 될까요. SK 하이닉스의 구현에선 4-Hi일 때 4채널 다이를 4층으로 적층하기 위해 아래의 2스택과 위의 2스택이 동일한 채널 구성이 됩니다. 예를 들어 채널 0이면 첫번째 다이 Slice0과 세번째 다이 Slice2로 분산됩니다. 8-Hi 스택 구성에서는 이것이 반복돼 어퍼 슬라이스와 로어 슬라이스 계급으로 나누어 구성됩니다.

 

5.jpg

 


SK 하이닉스의 각 스택마다 HBM 채널 구성

 

SK 하이닉스의 스펙은 2-Hi 스택부터 4-Hi, 8-Hi까지의 채널 구조를 통일할 수 있다는 장점이 있습니다. 삼성 아키텍처의 경우엔 4-Hi / 8-Hi 스택과 2-Hi 스택일 때 다이 채널과 메모리 뱅크의 할당이 달라집니다. 반면 SK 하이닉스는 뱅크와 채널 할당이 변하지 않습니다.

 

SK 하이닉스의 구현 방식에선 1다이가 4채널 구성으로 각 채널이 16뱅크, 슈도 채널 모드에선 1다이에 8채널로 각각의 슈도 채널은 8뱅크가 됩니다. 4-Hi 스택의 경우엔 2대를 사용하기에 채널 당 뱅크 수는 32개가 나오는 계산입니다.

 

6.jpg

 

SK 하이닉스의 HBM 스펙

 

 

베이스 다이에 많은 기능을 옮긴 SK 하이닉스의 HBM2


SK 하이닉스의 HBM2 아키텍처는 타이밍의 차이가 삼성 아키텍처보다 문제가 될 소지가 있습니다. SK 하이닉스의 경우 4-Hi/8-Hi 스택에서 같은 채널에 액세스해도 여러 곳으로 분산되기에 타이밍 딜레이가 생길 수 있습니다. 삼성의 경우에 4-Hi는 1채널이 하나의 다이이기에 이런 문제가 발생하지 않습니다.

 

따라서 SK 하이닉스는 타이밍 큐를 균일하게 맞추기 위해 베이스 다이에서의 신호 출력인 core pipe-out(POUT)의 타이밍을 조정하는 매커니즘을 통합시켰습니다. 명령 버퍼에 딜레이 회로를 확충한 것으로 이런 아키텍처가 가능하게 됐습니다.

 

또한 SK 하이닉스의 HBM2에선 기존에 각 DRAM 다이 측에 있었던 address/command decoders(COMDEC)도 베이스 다이 쪽에 포함됩니다. DRAM 다이는 DRAM 메모리 셀 및 버퍼를 최소화한 간단한 구성입니다. 또 전력 제네레이터도 DRAM 다이에서 베이스 다이로 옮겨졌습니다.

 

7.jpg

 

HBM1 세대에선 각각의 DRAM 다이가 독립적인 기능을 가지고 있었습니다. 이것은 원래 HBM의 규격화가 시작된 시점에선 베이스 다이가 없는 구성도 염두에 뒀었던 흔적이라고 생각됩니다. 반면 HBM2는 베이스 다이가 많은 기능을 담당하는 구조로 변화했습니다. 특히 SK 하이닉스에선 그런 경향이 현저해 모듈 전체가 하나의 HBM DRAM라고 간주하고 있습니다. 그 결과 DRAM 다이 아키텍처도 1가가 4채널이 표준인 것으로 변화한 듯 싶습니다.

 

 

테스트 기능을 포함시킨 베이스 다이

 

HBM1 세대 베이스 다이의 기능은 TSV 인터포저의 패드에서 DRAM 다이에 연결하는 패드까지의 라우팅입니다. DRAM 다이 쪽의 마이크로 범프 패드는 DRAM 다이의 중앙에 배치된 반면, 스택 외부와 연결하는 마이크로 범프 패드는 컨트롤러 칩과의 거리를 최소화하기 위해 외부에 배치돼 그 사이의 라우팅을 담당합니다.

 

8.jpg

 

베이스 다이를 사용한 HBM의 배선

 

그러나 실제 HBM 제품 그 이상으로 중요한 베이스 다이(삼성은 버퍼 다이라 부름)의 기능은 테스트입니다. DRAM 다이를 테스트해 결함을 보완하는 것이지요. HBM DRAM 다이는 중앙 부분이 TSV 지역으로 지정되지만 일반적으로 여러 TSV 홀로 1개의 I/O를 구성합니다. 삼성은 TSV 홀에도 빌트인 결함 감지와 수정 시스템을 채택했다고 발표한 바 있습니다.

 

DRAM은 원래 열에 약하지만 HBM은 TSV 적층을 위해 웨이퍼를 얇게 가공해서 온도가 오르기 더 쉽습니다. 따라서 HBM에서 정확한 온도를 감지해 재생을 제어하는 게 중요합니다. 예를 들어 삼성에서 DRAM 다이의 온도를 센서로 감지해 적층한 DRAM 다이 사이의 거리를 포함하여 공간의 온도 차이를 계산, 이에 따라 다이의 메모리 셀 영역을 8분할해 재생을 제어합니다.

 

9.jpg

 

10.jpg

 


20nm 프로세스로 진행중인 HBM


아키텍처를 제외하면 이번에 발표된 삼성과 SK 하이닉의 HBM2는 비슷합니다. 모두 DRAM 공정 중 가장 미세한 20nm 공정으로 제조됩니다. SK 하이닉스의 1세대 제조 공정은 29nm였습니다.

 

스펙 상 전송 속도는 2Gbps며 메모리 대역폭은 256GB/sec. 4개의 스택에서 1TB/sec의 메모리 대역폭을 제공합니다. 또한 이미 언급한대로 2-Hi/ 4-Hi/8-Hi의 각각 스택을 지원합니다. 메모리 용량은 모두 8Gbit로 4-Hi 스택시의 메모리 용량은 4GB입니다. 8-Hi는 8GB, 4개의 8-Hi 스택이면 32GB의 메모리 용량이 됩니다. 2-Hi 스택은 2GB입니다.

 

11.jpg

 


HBM2 스택 용량

 

12.jpg

 

삼성의 HBM2 다이

 

13.jpg

 

SK 하이닉스의 HBM2 스펙과 HBM1의 스펙 비교

 

14.jpg

 

SK 하이닉스의 HBM2 다이

 

또한 두 회사의 HBM2 모두 ECC를 옵션으로 지원합니다. 이를 위해 다이 자체는 9Gbit 용량이며 그 중 1Gbit를 ECC 비트에 사용할 수 있습니다. HBM의 특성 때문에 ECC는 DRAM 다이를 더하는 것이 아니라 다이 자체에 ECC 메모리를 내장합니다. 이전에는 HBM에서는 ECC 기능은 DRAM에 내장될 가능성이 높았으나, 실제로는 기존의 메모리 컨트롤러 측에서 제어하는 ECC 기능도 제공합니다. ECC 비트는 데이터 버스 128비트 당 16비트가 됩니다.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.