2.5D 솔루션을 전제로 한 HBM 규격

 

TB/sec 급 초 광대역 메모리를 실현하는 새로운 메모리 규격, HBM(High Bandwidth Memory)가 드디어 등장했습니다. HBM의 스펙은 이미 책정이 끝나, 프로토타입 샘플 칩의 스펙 검증 작업에 들어갔다고 합니다. 제품 출시 시기는 2015년이 될 것 같습니다. 칩 하나로 128GB/sec부터 256GB/sec의 메모리 대역을 실현하는 HBM에 의해, GPU나 일부 CPU의 메모리 대역은 일단 상승하게 됩니다. 그러나 당분간 HBM은 상대적으로 비싼 솔루션이기 때문에 GDDR5와 공존할 것입니다.

 

HBM은 JEDC에서 책정 중인 차세대 메모리 규격으로, 그 특징은 1024비트의 매우 넓은 인터페이스를 통해 광대역 메모리 대역폭을 실현하는 것입니다. 마이크로 범프와 TSV(Through Silicon Via)를 써서 DRAM 다이를 적층한다는 걸 전제로 한 규격이며, 전력 소비량도 기존의 GDDR5보다 줄어듭니다.

 

1.jpg

 

HBM의 시스템 아키텍처

 

2.jpg

 

HBM의 실현 방법

 

3.jpg

 

HBM의 장점

 

HBM과 많은 부분에서 닮은 JEDEC 규격인 Wide I/O 계열과 차이는 인터페이스 폭과 전송율과 TSV 인터포저의 대응 여부입니다. Wide I/O 인터페이스는 512비트에 4채널로 분할했지만 HBM은 그 배인 1024비트에 8채널입니다. 핀 당 전송율은 HBM이 1T~2Tbps고 1세대 Wide I/O(최고 266Mbps)보다 5~8배 고속입니다. Wide I/O 계열은 TSV에 의한 로직 칩에 3D 스택을 한다는 가정으로 규격화를 시작했지만, HBM은 TSV 인터포저에 의한 2.5D 솔루션을 전제로 하고 있습니다. 또 모바일 전용 Wide I/O 계열이 전력 절약에 초점을 맞춘 데 비해, 그래픽&네트워크&퍼포먼스 시스템 전용 HBM은 전력 효율을 추구하는 광대역에 초점을 맞추고 있습니다.

 

HBM은 2011년 3월부터 워킹 그룹이 활동을 시작해, 처음에는 울트라 Wide I/O라는 이름으로 불린 적도 있었습니다. 작년부터 인터페이스 부분의 프로토타입을 제작해 접속성 등의 검증을 했습니다. 2013년 3월 말에는 메모리 칩의 프로토타입이 Fab에서 나와 연구실에 반입되어 실제 칩의 검증에 들어갔습니다. 메모리와 컨트롤러의 프로로타입 칩에 의한 다양한 테스트를 통해 최종 사양으로 수정, 양산으로 가게 됩니다. 현재 프로토타입 칩은 저용량이지만 실제 제품에서는 GDDR5 이상의 용량을 달성하게 됩니다.

 

실제 시장에 제품 출시는 계획이 정식으로 잡힌 것은 아니지만, 2015년에는 가능할 것으로 보고 있습니다. 이보다 더 빠르게 나올 가능성도 있으나. 현실적으로는 2015년이라 보는 게 안전합니다.

 

 

1024비트의 인터페이스를 8채널로 분할

 

HBM은 1024비트 인터페이스를 8채널로 분할해, 각각 128비트 채널이 8개 병렬로 동작하는 인터페이스로 보입니다. 즉 1개의 DRAM 다이에 8채널 인터페이스가 있습니다. 기존의 DRAM이 1다이 1채널라는 것과 비교하면 이 점에서 큰 차이가 납니다. 채널을 나누는 가장 큰 목적은 메모리의 액세스 크기를 일정하게 줄이기 위해서입니다.

 

4.jpg

 

JEDEC 메모리의 버스 폭 비교

 

실제로는, 모바일 전용의Wide I/O하지만,1다이로4채널의 구성을 뽑고 있어HBM의8채널/다이는 그 연장에 있다.또,GDDR5(와)과DDR4(은)는 메모리 셀 어레이를 뱅크 그룹을 나누어 프리펫치 하는 구조를 뽑고 있어 아래의 그림과 같이 다른 뱅크에 병렬 액세스가 생긴다.GDDR5(와)과DDR4의 아키텍쳐는 채널에 명확하게 분할되고 있는 것은 아니지만, 메모리 셀을 분할·병렬화해 메모리아크세스 입도를 억제한다고 하는 목적은 같다.덧붙여서,HBM의 프리펫치는, 아직 분명하지 않다.      

 

5.jpg

 

DDR 메모리의 프리패치 아키텍처

 

HBM은 실리콘 기판에 구멍을 뚫어 배선하는 TSV 기술로 DRAM 다이를 적층합니다. HBM의 첫번째 세대는 최대 4개의 DRAM 다이를 스택합니다. 8개의 다이를 적층하는 것도 염두에 두고 있습니다. 적층한 DRAM 다이는 TSV에 의해 8채널로 연결합니다. 전압 진폭은 VDD와 VDDQ가 1.2V가 될 전망입니다.

 

6.jpg

 

TSV의 다이 스택 기술

 

7.jpg

 

HBM의 인터페이스

 

 

128GB/s로 시작해 2배로 광대역화

 

HBM은 핀 당 전송율이 1Gbps로부터 시작합니다. 인터페이스는 1024비트. 그래서 1Gbps에선 칩 하나로 1Tbps의 메모리 대역이 나옵니다. 바이트로 환산하면 128GB/s입니다 또 1세대의 HBM은 2Gbps나 그 이상의 전송율로 높일 수 있습니다.

 

주파수 범위를 따지면 첫번째 제품보다 2배에서 최대 3배까지 확장 가능할 여지가 있습니다. GDDR5는 4Gbps로 시작했지만 지금은 5Gbps를 넘어 7Gbps에 도달하려 합니다. 이처럼 HBM도 2배의 전송율에 도달하는 건 확실하고, 3배까지도 가능할 것으로 JEDEC에선 보고 있습니다.

 

현재 단계에서 JeDEC가 규격화를 진행중인 것은 1세대의 2배인 2Gbps의 전송율입니다. 2Gbps에서 칩 당 대역은 2Tbps, 256GB/s가 됩니다. HBM이 3Gbps를 찍는다면 칩 당 메모리 대역은 384GB/s가 됩니다.

 

8.jpg

 

스택 DRAM의 솔루션

 

모바일 전용인 Wide I/O 계열 메모리는 TSV의 3D 스택을 고려해 규격화되었으며 2.5D도 지원하는 방향으로 갔습니다. 그에 비해 HBM은 처음부터 TSV 인터포저를 사용하는 2.5D 솔루션을 전제로 하고 있습니다. 여기에는 많은 이유가 있지만, 가장 큰 이유는 HBM의 주요 사용자층으로 상정하는 GPU나 CPU 제조사가 3D를 바라지 않았기 때문입니다.

 

HBM이 TSV 인터 포저를 염두에 두는 건 발열 문제도 있지만 제조 공정 기술 문제가 큽니다. 첨단 프로세스가 개발되고 나서 이 프로세스로 TSV가 이용 가능해질 될 때까지 시간이 걸리기 때문입니다. 다양한 테스트를 하는 시간까지 고려하면 아마 18~20개월이 걸릴 것입니다. 그러면 다음 세대의 프로세스 기술이 벌써 나오게 됩니다. 이렇게 되면 칩 제조사는 RSV를 사용한 1세대 낡은 공정을 사용하던가, TSV를 쓰지 않는 새로운 공정을 써야 합니다. GPU 등의 칩을 만드는 제조사는 트랜지스터 수에 민감한 만큼, 쓸 수 있는 트랜지스터 수가 줄어드는 구세대 제조 공정을 선택할 리가 없습니다. 그래서 TSV 인터포저를 쓰는 것입니다.

 

아래 슬라이드에 나온대로, TSV 인터포저를 사용해도 스택 DRAM의 장점은 상당 부분 누릴 수 있습니다.

 

9.jpg

 

TSV 인터포저를 사용했을 경우의 장점

 

Wide I/O은 처음부터 3D 스택에 초점을 맞춰 설계했기 때문에, 인터페이스 부분은 아래 다이 사진처럼 칩 중앙에 모이게 됩니다. 그에 비해 HBM은 TSV 인터포저의 사용에 초점을 맞춰 설계해서 인터페이스의 배치가 다릅니다. Wide I/O는 칩 중앙에 인터페이스를 배치하면서 칩 중앙에 배치하는 경우가 많은 크로스바 스위치와 메모리 컨트롤러에 인터페이스를 근접시킬 수 있습니다. 그러나 HBM의 인터페이스가 칩의 가장자리에 배치된다면 그런 장점은 얻을 수 없게 됩니다.

 

10.jpg

 

Wide I/O의 인터페이스

 

11.jpg

 

HBM의 인터페이스

 

 

궁금한 점이 있는 NVIDIA 볼타의 스택 DRAM

 

NVIDIA 다음 다음 세대 GPU인 볼타에서 스택 DRAM을 비디오 메모리에 채용, TB/s의 초 광대역 메모리를 실현할 것이라 밝혔습니다. 아래의 NVIDIA 슬라이드에서 나타난 대로, 볼타는 2.5D 솔루션에 HBM으로 보이는 메모리를 씁니다. 이 볼타의 스택 DRAM에 대해 JEDEC에선 볼타의 메모리는 HBM을 상정한 것으로 보이나, 그림의 묘사는 HBM와 거리가 있다고 설명합니다.

 

12.jpg

 

볼타의 메모리

 

우선 TSV 인터포저는 다이 면적이 한정되어 있어, 볼타의 그림에 나온 것보다 다이 사이가 더 가까워질 거라 합니다. 볼타의 그림과 같은 디자인의 TSV 인터포저는 경제적으로 따져봤을 때 있을 수 없습니다. 또 볼타의 그림에선 6개의 DRAM 스택을 GPU 주위에 배치하고 있지만, 인터페이스 폭이 넓은 HBM을 6개 적층하는 건 어려울 것입니다. JEDEC 관계자는 6개 스택이라는 데에 놀랐으며, NVIDIA가 제대로 HBM 스펙을 검토했는지 모르겠다고 말했을 정도니까요. 무엇보다 GDDR5가 x512 인터페이스를 쓰는 경우가 있으니, HBM이 6스택을 하는 것도 있을 수 있을지 모릅니다.

 

HBM의 첫번째 스펙이 될 것으로 보이는 1Gbps의 핀 당 전송율에선 NVIDIA가 주장하는 1TB/s의 메모리 대역을 실현하기 위해 8스택이 필요합니다. 그러나 6스택도 어렵다고 보면 첫번째 세대에 1TB/s를 내는 건 어렵습니다. 하지만 HBM이 고속화하는 시기는 빠르니까 1TB/s가 그리 먼 나라 이야기는 아닙니다.

 

 

싱글 칩의 메모리 대역이 압도적인 HBM

 

아래는 JEDEC의 퍼포먼스 DRAM의 전송율과 대역 차트입니다. 싱글 칩과 다수 칩의 인터페이스 구성에서 대역이 얼마인지를 나타내고 있습니다. HBM에서 눈에 띄는 건 싱글 칩의 대역이 매우 넓다는 것. GDDR5는 x32 인터페이스를 쓰는 경우에도 6Gbps에선 칩 당 24GB/s밖에 안됩니다. 그에 비해 HBM은 칩 하나로 128GB/s에서 256GB/s까지 나옵니다.

 

13.jpg

 

JEDEC 퍼포먼스 DRAM의 전송율과 대역

 

시스템 메모리용 DRAM과 비교하면 그 차이는 한층 더 큽니다. x16 칩에서도 DDR3는 2.13Gbps시 대역은 4.3GB/s에 불과하며, DDR3의 로드맵에서 최고 속도인 전송율 3.2Gbps에서는 6.4GB/s의 대역이 나옵니다. 이를 4.26Gbps까지 끌어올려도 대역은 8.5GB/s에 머무릅니다. DRAM과 GDDR은 칩 수를 많이 늘러 기판에서 배선을 늘리고 대역을 넓게 펼치는 방법밖에 없습니다.

 

그런데 서버용 CPU는 x256의 메모리 인터페이스 구성에서도 DDR4 3.2Gbps는 102GB/s가 상한입니다. 기존의 메인스트림 PC에선 x128 인터페이스로 DDR3 1.86Gbps에서 대역은 30GB/s 이하입니다.

 

GPU는 현재 GDDR5가 x256에서 x384 버스까지 가면서 300GB/s에 가까워지고 있습니다. 인텔의 HPC(High Performance Computing)용 제품인 나이츠 코너는 x512로 320GB/s의 대역을 달성하고 있습니다. 그러나 GDDR5의 고속화는 한계에 가까워지고 있어, 전송율 7Gbps에 멈출 것으로 보입니다. x384는 메모리 대역 300GB/s 정도가 한계이며, x512는 500GB/s 정도가 될 것입니다. 무리하게 속도를 높여도 이미 한계가 보이고 있는 게 GDDR5의 현재입니다.

 

 그에 비해 HBM은 전송율 1Gbps일 때 2스택으로 메모리 대역 256GB/s, 4스택으로 512GB/s까지 됩니다. 여기서 속도를 2Gbps로 높이면 4스택으로 1TB/s에 도달할 수 있습니다. 4스택까지는 JEDEC까지는 상정하고 있는 것이니 1TB/s는 그리 먼 일은 아닙니다. NVIDIA의 볼타가 예상한대로, 6스택을 한다면 2Gbps에서 1.5TB/s의 대역폭이 나옵니다.

 

HBM은 높은 메모리 대역을 달성할 수 있는 얼마 안 되는 선택지입니다. 그러나 HBM에도 약점이 있습니다. 이것은 TSV 인터포저를 쓰면서 생기는 단가 상승입니다. 제조 원가의 경우 낙관론과 비관론이 모두 있어 예측이 어렵습니다. 최소한 맨 처음인 2015년에는 비교적 비쌀 것이며, 이 때문에 그래픽 분야에서도 GDDR5를 순조롭게 대체하긴 어려울 것입니다. 처음에는 고급형 모델에만 도입하며, 상당 기간 동안 GDDR5와 공존할 것입니다. HBM은 HPC(High Performance Computing)과 네트워크 기기까지도 노리고 있습니다.

 

14.jpg

 

DRAM의 기술 동향

 

스택 DRAM은 2014년부터 2015년 사이에 나올 전망입니다. 하지만 1세대 Wide I/O는 진행이 더딘 편이며 Wide I/O 2에서 다시 진행이 될 것 같습니다. JEDEC가 제시하는 광대역 메모리의 해결책은 스택 DRAM이지만, 어떤 경로로 나아갈지는 아직 알 수 없습니다. 그러나 프로세서가 광대역 메모리를 간절히 바라고 있는 것도 확실하니, 앞으로 CPU와 GPU의 통합이 진행되면 더욱 더 메모리 대역이 중요해질 것입니다.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.