HBM DRAM이 드디어 양산 단계에 진입

 

차세대 고성능 DRAM인 HBM DRAM이 드디어 초읽기에 들어갔습니다. 1TB/sec의 초 광대역 메모리를 목표로 하는 적층 DRAM 규격이 HBM(High Bandwidth Memory) DRAM 입니다. 반도체 표준화 단체 JEDEC에서 표준화 작업이 끝났고 현재 SK 하이닉스가 샘플을 출하하기 시작했습니다. 2014년 후반에는 양산이 시작되고 2015년에는 최초의 제품이 등장할 것으로 알려졌습니다.

 

01.jpg

 

HBM의 스펙

 

HBM은 TSV(Through Silicon Via) 기술로 다이를 적층하는 DRAM 기술입니다. 마찬가지로 TSV를 사용하는 모바일 Wide I/O 계열과 다르게 GPU나 CPU에 직접 DRAM을 적층하기보다 인터포저를 사용해 접속하는 데 초점을 맞추고 있습니다(HBM DRAM 그 자체는 CPU나 GPU에 직접 적층할 수도 있습니다). 인터페이스 폭은 1,024-bit(x1024)로 메모리 대역은 1세대가 1스택 128GB/sec, 2세대가 256GB/sec. 4개의 HBM 스택을 사용하는 시스템이라면 512GB/sec~1TB/sec의 메모리 대역을 실현합니다.

 

02.jpg

 

실리콘 다이를 직접 적층하는 TSV 기술

 

03.jpg

 

2가지의 다이 스택 기술

 

DRAM 업계에서는 HBM DRAM을 광대역의 GDDR5의 후계자로 삼으려 합니다. HBM DRAM은 그래픽 카드, HPC(High Performance Computing) 전용의 GPU와 스루풋 프로세서의 메모리, 서버 CPU 캐시, 네트워크 프로세서 전용 메모리 등의 용도를 상정하고 있습니다.

 

04.jpg  

 

Wide I/O2과 HBM의 비교

 

HBM은 GDDR5에 대해 대역이 더 넓을 뿐만 아니라성능/전력 비율이 3배로 저전력이라는 특징도 있습니다. 더 광대역이 아니라, 저소비 전력(약 3배의 퍼포먼스/전력)의 강도도 가진다. PHY의 전력 소비가 GDDR5에 비해 압도적으로 적어 4개 스택의 HBM DRAM을 1Gtps로 뽑아내도 전력이 30W 이하로 떨어지는 반면, GDDR5에서 이 대역을 실현하려면 전력은 80W이상이 됩니다.

 

05.jpg

 

전력 당 대역이 뛰어난 HBM

 

그러나 현재 발표된 HBM은 값이 비싸다는 문제가 있습니다. DRAM을 TSV에서 스택할 뿐만 아니라 버튼 로직 다이와 실리콘 인터포저를 사용하는 스펙이기 때문입니다. 또 풀 대역을 얻기 위해서는 DRAM 칩을 4층으로 적층 해야 하며, 메모리의 정확도가 커야 합니다.

 

그 때문에 고가형 메모리엔 적용한다 하더라도 현재 GDDR5의 모든 가격대를 바꿀 수 있을지 의문이 제기되고 있습니다. 그리고 GDDR5 계 메모리 기술은 메모리 모듈에 대응한 새로운 규격, GDDR5M이 파생되어 나왔습니다. 전체적인 흐름은 메모리 기술이 다양화 시대로 향하고 있는 것처럼 보입니다.

 

06.jpg

 

DRAM 기술 동향

 

 

AMD와 NVIDIA 모두 관심을 보이는 스택 DRAM

 

HBM은 현재 JEDEC가 JESD235 규격을 발표했으며, SK 하이닉스가 2014년 2월의 반도체 컨퍼런스 ISSCC(IEEE International Solid-State Circuits Conference)에서 실제 실리콘의 성과를 발표했습니다. SK 하이닉스의 HBM은 JEDEC 규격에 맞춘 것이지만 JEDEC의 규격 자체는 비교적 유연하게 만들어져, SK 하이닉스가 발표한 스펙 외에 다른 실장도 가능합니다.

 

07.jpg

 

SK 하이닉스가 발표한 HBM

 

SK 하이닉스는 4월에 중국 선전에서 열린 인텔의 기술 컨퍼런스 Intel Developer Forum(IDF) shenzhen 2014에서 HBM의 제품 계획도 발표했습니다. 현재 예정대로라면 2014년 중반까지 최초의 2G-bit 첨단 공정 제품 생산을 시작하며, 2016년에는 고속/대용량인 2세대 8G-bit칩을 생산할 계획입니다. SK 하이닉스는 3월 GPU Technology Conference(GTC)에서도 2G-bit HBM의 웨이퍼를 전시했습니다.

 

08.jpg  

 

GTC에서 HBM 웨이퍼의 전시

 

09.jpg  

 

SK 하이닉스의 TSV 제품 로드맵

 

10.jpg  

 

SK 하이닉스의 HBM 스펙. 2세대는 용량/대역이 향상됩니다.

 

HBM를 장착한 제품으로는 NVIDIA가 HBM으로 보이는 3D DRAM을 장착한 차세대 GPU, 파스칼의 계획을 GTC에서 발표했습니다. 또 AMD도 HBM을 GPU에 탑재하는 데 적극적으로 움직이고 있습니다. HBM의 규격을 책정하는 JEDEC의 DRAM 규격 책정 서브 커미터 의장은 AMD의 Joe Macri(Corporate VP&Product CTO of AMD Global Business Unit)이기도 합니다.

 

또 AMD는 2013년 12월의 CPU 컨퍼런스 Micro46(International Symposium on Microarchitecture 46)에서도 HBM을 포함한 다이 스택에 관한 키노트 스피치를 했습니다. 또 Micro46에서 키노트 스피치를했던 AMD의 Bryan Black(Senior AMD Fellow)은 원래 인텔에서 화제가 됐던 CPU를 분할해 TSV에 연결하는 논문 (Design and Fabrication of 3D Microprocessors 등)을 발표한 인물입니다. TSV 기술 응용의 주요 인물이 인텔에서 AMD로 이적한 것이지요.

 

11.jpg   

 

NVIDIA 파스칼의 기계 샘플

 

12.jpg  

 

AMD의 Bryan Black이 인텔에 재직했던 시절인 2006년에 Micro39에서 발표한 TSV CPU

 

 

HBM의 신념이 된 TSV 기술

 

GPU나 GPU 코어를 통합한 CPU/SoC(System on a Chip) 또는 네트워크 프로세서는 제조 공정이 바뀔 때마다 연산 성능을 배로 늘립니다. 그래서 현재 프로세서는 메모리 대역의 한계로 제 성능을 바뤼할 수 없는 상태입니다. 지금까지의 솔루션은 메모리 인터페이스를 빠른 전송 속도와 인터페이스 폭의 확대로 메모리 대역을 높여 왔습니다. 그런데 소비 전력이 시스템 설계의 큰 문제가 되면서 메모리와 메모리 인터페이스가 소비하는 전력을 늘리는 것이 어려워지고 있습니다.

 

그 때문에 지금은 넓고 느린 메모리나 좁고 빠른 메모리의 2가지 방향으로 메모리의 진화 방향이 한정됐습니다. 좁고 빠른 메모리에선 좁은 인터페이스를 사용해 전력 소비가 적은 메모리를 만듭니다. 넓고 느린 메모리는 광대역 인터페이스를 느린 속도로 구동해 전력 효율이 높은 메모리를 만듭니다. DRAM 업계는 현재 좁고 빠른 방향보다 넓고 느린 메모리가 더 이득이 있다고 보고 있으며 HBM은 그 대표 격입니다. HBM은 TSV 기술을 사용하여 현재의 DRAM이 안고 있는 문제를 해결하는 걸 노리고 있습니다.

 

13.jpg  

 

광대역 개선은 넓고 늦게와 좁고 빠른의 2가지 방향으로 이루어집니다.

 

14.jpg  

 

앞으로 DRAM의 방향성

 

15.jpg  

 

SK 하이닉스는 TSV가 차세대 메모리 기술이 될 것으로 봅니다.

 

일반적인 실리콘 칩은 다이의 한쪽 면에만 접속용 단자를 넣을 수 있습니다. 그래서 기존의 다이 스택에선 겹쳐 있는 다이의 단자 사이를 가느다란 와이어로 연결하는 와이어 본딩 배선을 사용합니다. 그에 비해 TSV는 다이의 실리콘 기판을 관통한 구멍으로 다이의 뒤쪽에도 단자를 배치합니다. 그래서 TSV를 이용하면 다이를 직접 연결할 수 있습니다.

 

16.jpg  

 

TSV의 장점

 

17.jpg  

 

TSV의 기본 구조

 

보드 위에 배선을 넣거나 와이어 본딩으로 배선을 하는 기존의 방법은 칩 사이에 할 수 있는 배선 수는 한정되어 있었습니다. 그러나 TSV는 적층한 다이의 사이를 수천개의 단자로 연결할 수 있습니다. 기존의 DRAM 칩보다 몇배에서 수십배의 인터페이스를 실현할 수 있어 비교적 느린 전송 속도에서도 초광대역 메모리를 실현할 수 있습니다.

 

JEDEC에서는 TSV를 차세대 DRAM 기술의 핵심으로 규정하고 요점으로 규정하고, TSV를 전제로 한 DRAM 기술로서 모바일 Wide I/O, Wide I/O2과 고성능을 위한 HBM까지 2가지 규격을 책정해 왔습니다. 또 DDR4도 모듈에는 TSV 적층을 하며, 마이크론이 주도하는 TSV 기반의 스택 DRAM인 Hybrid Memory Cube(HMC)도 있습니다. DRAM은 TSV로 향해 움직이고 있습니다. TSV 자체는 DRAM 인터페이스뿐만 아니라 여러 부분에서 응용이 예상되지만, 현재 양산 가능한 크기의 TSV는 I/O 패드 쪽에만 적용할 수 있으며, CPU 내부의 배선에 TSV를 사용하는 방법은 아직 어렵습니다.

 

18.jpg  

 

TSV 기술의 크기 비교

 

 

1개의 스택으로 128~256GB/s의 메모리 대역을 실현

 

HBM DRAM에서 메모리 인터페이스는 1,024-bit(x1024)이며 이를 1~2Gtps의 전송 속도로 구동합니다. 그래서 x1024에서 메모리 대역은 128GB/sec(1,024Gtps)~256GB/sec(2,048Gtps)입니다. 또 어떤 JEDEC 관계자는 HBM이 최대 3Gtps까지 달성할 것으로 예측했고, 그 경우엔 x1024에서 메모리 대역이 최대 384GB/sec(3,072Gtps)입니다.

 

HBM DRAM은 DRAM 다이를 TSV로 적층하지만 CPU나 GPU는 여러개의 HBM 스택을 배치할 수 있습니다. 예를 들어 4스택을 GPU/CPU에 접속할 경우 GPU의 메모리 대역은 1Gtps일 때 512GB/sec, 2Gtps일 때 1TB/sec입니다. 그 경우 GPU 전체의 메모리 인터페이스 데이터 버스 폭은 4,096-bit가 됩니다. 현재의 GDDR5 메모리 대역은 현실적인 값이 300GB/sec대니까 4스택의 HBM DRAM은 이론적으로 2Gtps일 때 GDDR5의 3배에 댈하는 메모리 대역을 실현합니다.

 

19.jpg  

 

DRAM 대역의 로드맵

 

20.jpg  

 

1TB/s 메모리 대역을 시사하는 NVIDIA의 슬라이드

 

HBM DRAM은 1,024-bit의 DRAM 인터페이스를 8채널로 분할해 사용합니다. 각각의 채널은 저마다 128-bit(x128)의 인터페이스 폭이며 채널이 완전히 독립해 동작하고 채널별로 다른 DRAM 뱅크 그룹에 액세스합니다. DRAM 메모리 뱅크는 채널마다 완전히 분할돼 다른 채널이 액세스하는 DRAM 뱅크에 접속할 수 없습니다. 기존의 메모리 채널을 8채널로 묶은 것과 같은 스펙입니다.

 

HBM DRAM의 DRAM 셀 프리패치는 2비트씩 읽어들이니까 128-bit인터페이스에서 메모리 액세스 크기는 256-bit(32-byte)입니다.

 

21.jpg

 

메모리 액세스 크기는 32B.

 

현재 SK 하이닉스의 HBM DRAM이 사용하는 1024-bit의 DRAM 인터페이스는 아래 그림대로 각각의 다이마다 분할됩니다. SK 하이니스는 2개의 채널이 1개의 다이에 접속하도록 실장했습니다. 2채널로 4장의 다이를 적층해 8채널의 액세스가 가능하게 됩니다. 즉 1개의 다이는 2채널에서 1Gtps일 때 메모리 대역이 32GB/s가 나옵니다. 다이를 적층할수록 메모리 대역이 높아지며, 이를 반대로 말하면 적층한 수가 적을수록 메모리 대역이 줄어들게 됩니다.

 

22.jpg

 

HBM의 인터페이스 폭

 

현재 예정된 HBM DRAM은 모두 SK 하이닉스와 같은 2채널/다이의 사양입니다. 다만 JEDEC의 HBM DRAM의 스펙은 다이 당 채널 수가 한정되진 않습니다. DRAM 제조사의 선택 사항 중에는 1개의 다이로 많은 채널을 할당하는 방법, 예를 들면 4채널 및 8채널의 다이를 만들 수 있습니다. 혹은 그 반대로 1채널/다이나 레이턴시를 균일하게 맞춘다는 전제 하에 1채널을 복수의 다이로 분산하는 것도 허용됩니다. 실장 시 자유도가 높은 것이 HBM DRAM 규격의 특징이며, 규격화는 독립 동작하는 채널 단위로 정해져 있습니다.

 

간단히 말하자면 HBM DRAM의 경우는 스택 외부의 동작이 규격에 따르기만 한다면, 스택 내부는 DRAM 제조사가 어느 정도 자유롭게 할 수 있습니다. SK 하이닉스에선 DRAM 스택 아래에 기반이 되는 로직 다이를 넣지만 이것도 옵션일 뿐이며 로직 다이를 쓰지 않는 방법도 가능합니다. HMC와 달리 DRAM나 로직 다이 모두 외부 인터페이스는 동일합니다. 그러나 실제 솔루션 중 현재 나온 HBM DRAM 제품은 2채널/다이로 로직 다이를 사용해 구현이 가능합니다.

 

23.jpg

 

로직 다이를 쓴 HBM 솔루션

 

24.jpg

 

SK 하이닉스의 HBM 구조

 

25.jpg  

 

기반이 되는 로직을 사용하는 솔루션

 

 

단일 칩의 메모리 대역이 높은 HBM DRAM

 

HBM DRAM의 인터페이스를 다른 JEDEC 계열 DRAM과 비교하면 그 특징이 더욱 명확합니다. PC&서버의 메인 메모리용 DRAM는 인터페이스가 4/8/16-bit(x4/x8/x16)의 범위로 GDDR5에서는 16-bit나 32-bit가 나옵니다. 모바일의 스택 DRAM이 Wide I/O2가 되면 채널 구성은 HBM DRAM과 같은 최대 8채널(4채널 스펙도 있음)로 각 채널 당 64-bit(x64)니 총 512-bit(x512)입니다. HBM DRAM은 인터페이스 폭이 가장 넓어 1,024-bit가 됩니다.

 

26.jpg

 

JEDEC 메모리의 비트 폭 비교

 

27.jpg

 

DDR3, GDDR5, HBM의 비교

 

이들 JEDEC DRAM의 인터페이스 폭과 최대 전송 속도, 최대 메모리 대역 관계를 보면 아래 그림처럼 됩니다. HBM DRAM은 스택 당 인터페이스 폭과 대역이며, 다른 DRAM은 칩 당 인터페이스 폭과 대역입니다. 이 그림을 보면 HBM DRAM의 스택 당 대역이 뛰어납니다. 다이 당 대역으로 봐도 HBM DRAM에 육박하는 것은 Wide I/O 2 뿐입니다.

 

28.jpg

 

JEDEC 메모리 대역 인터페이스

 

29.jpg

 

DDR4, Wide I/O, GDDR5, HBM의 비교

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.