명확해진 HBM의 시장 및 시스템 구성


GPU에 1TB/sec 이상의 초 광대역을 실현하는 HBM (High Bandwidth Memory) DRAM 기술이 도입됐습니다. 그러나 HBM을 적용하려는 시장은 그래픽이 다가 아닙니다. GDDR 계열 메모리보다 더 넓은 시장을 목표로 하고 있지요. 2016년에 등장하는 HBM2가 2015년의 HBM1에 비해 크게 달라진 건 응용 분야가 더욱 명확해졌다는 것입니다. 여기에는 몇 가지 이유가 있습니다.

 

우선 HBM의 채용 확산이 명확해졌다는 것입니다. NVIDIA도 차세대 GPU 파스칼에서 도입하며, 네트워크 디바이스에서도 쓰기 시작했습니다. 또 인텔이 JEDEC(반도체의 표준화 단체)에서 HBM2의 표준화에 적극적으로 임한다는 것도 특징입니다. 인텔은 HBM의 경쟁 규격인 마이크론의 HMC(Hybrid Memory Cube)를 HPC에 쓰지만, HBM2를 도입할 계획도 같이 갖고 있는 듯 합니다. 인텔이 HMC와 HBM의 사용 번위를 어떻게 나눌 것인지 주목됩니다.

 

아래 슬라이드는 HBM를 먼저 도입한 SK 하이닉스의 메모리 컨퍼런스인 Memcon2015에서 나온 것입니다. 현재 HBM은 그래픽에 온 패키지 형태로 도입돼 워킹 메모리로 쓰이고 있습니다. 앞으로 광대역이 절실하게 필요해지는 또 다른 시장인 네트워크 기기에도 채용이 확대될 전망입니다. 또한 HPC에서 GPU 컴퓨팅도 HBM을 씁니다.

 

1.jpg

 


명확한 모습이 드러나기 시작한 HBM의 응용 분야


HPC 및 데이터 센터 서버는 광대역 고용량이 필요한 시장이며, 여기에선 HBM과 DDR 계열 메모리의 조합이 필요합니다. 온 패키지 HBM과 오프 패키지 DDR 계열 메모리를 조합해 대역폭과 용량을 모두 충족하는 것입니다. 서버용 APU (Accelerated Processing Unit)도 이런 솔루션이 될 것입니다.

 

여기서 눈여겨 볼 것은 클라이언트 PC입니다. 클라이언트 PC의 CPU/APU는 3 단 솔루션이 알맞습니다. 값비싼 HBM은 제한된 공간에서 메모리 대역을 확보하는 캐시로 끕니다. 패키지에 1개 정도의 HBM 스택을 넣으며 메모리 용량은  기존의 DDR 계열 메모리 모듈로 확보합니다. 가격이 가장 중요한 PC 시장에선 이 방식이 합리적입니다.

 

위 슬라이드를 보면 아래에 모바일 디바이스도 있습니다. 다만 이쪽에선 HBM과 비슷한 크기에 인터페이스 폭을 지닌 Wide I / O2가 규격화됐습니다. 이걸 어떻게 나눌지도 관심사입니다.

 

2.jpg

 


HBM의 각 시장별 장점
 

3.jpg

 


HBM의 생태계가 갖춰지는 중

 

4.jpg

 

그래픽, HPC 데이터 센터, 네트워크 장비가 HBM2의 주요 대상


 

클라이언트 PC에서의 사용까지 보는 HBM


현재 HBM2는 GPU 나 HPC 네트워크 장치 분야에 쓰일 것으로 보입니다. 이러한 시장은 메모리 대역폭이 성능에서 큰 병목 현상을 일으키며 광대역화가 급하기 때문입니다.

 

한편 클라이언트 PC에서 HBM2의 채용은 아직 불분명하지만 수요는 강합니다. 왜냐하면 GPU 코어를 내장한 CPU/APU는 증가하는 연산 성능에 데이터를 공급하기 위해 더욱 광대역의 메모리를 요구하기 때문입니다. CPU에 내장된 GPU 코어의 성능은 1TFLPOS에 달해 기존의 DDR 계 메모리 모듈로 커버할 수 없게 됐습니다. 인텔은 이미 하이엔드 CPU에 eDRAM을 함께 패키지한 솔루션을 제공하고 있지만 더 넓은 범위에서 광대역 메모리를 도입할 필요가 강해지고 있습니다.

 

AMD의 Joe Macri(Corporate vice president, Product CTO, Corporate Fellow, AMD)는 APU에 HBM 도입에 대해 다음과 같이 말한다.

 

"APU에서 HBM 도입. 저 개인적으론 그 가능성을 강하게 믿고 있으며, 이를  실현하기 위해 움직이고 있습니다. 제 개인적인 생각이지만 APU에서 HBM가 중요한 건 슈퍼 하이엔드 APU만을 위한 게 아니라는 겁니다. 슈퍼 하이엔드라면 시장의 5%만 커버할 수 있겠지요. 제가 원하는 건 더 넓은 미드 레인지 시장, 예를 들어 인텔의 코어 i5에 대항하는 AMD A10 등의 시장입니다. 거기에 HBM을 제공하고자 합니다. 그러나 이걸 실현하려면 BOM 비용을 거기까지 낮춰야 합니다. 비용이 매우 중요한 시장이거든요."

 

 

CPU / APU의 캐시에 사용 가능한 HBM2 아키텍처


HBM2는 HBM1보다 APU 같은 제품의 캐시에 쓰기 쉬운 구조입니다. 모든 메모리 대역폭을 얻기 위해 필요한 메모리 용량과 다이 수가 적어서입니다.

 

HBM은 여러 DRAM 다이를 쌓은 구조입니다. HBM1는 1층당 2채널(256-bit)의 메모리 인터페이스니 4-Hi(4 층) 스택을 하지 않으면 8채널(1024-bit)의 완전한 메모리 대역폭을 얻을 수 없다. 반면 HBM2는 1층당 최대 4채널(512-bit) 인터페이스입니다. 따라서 2-Hi(2 층) 스택만으로 완전한 대역폭을 얻을 수 있습니다. HBM1은 256GB/sec의 메모리 대역폭을 얻기 위해 2스택에 총 8개의 DRAM 다이가 필요했지만, HBM2는 1 스택에 2개의 DRAM 다이만으로 256GB/sec를 실현할 수 있습니다.

 

같은 메모리 대역폭을 갖춘  HBM2를 HBM1과 비교하면 HBM 스택의 수는 1/2, DRAM 다이 수는 1/4가 됩니다. 2-Hi 스택이 하나라면 메모리 용량은 2GB로 제한되지만 대역폭은 256GB/sec가 됩니다. HBM2 메모리 용량은 한정되도 상관 없으나 메모리 대역폭을 충분히 확보하고 싶은 용도라면 안성맞춤인 스펙입니다. 또 대용량을 원하는 고객을 위해 8-Hi(8층) 스택의 솔루션이 준비됐으며 4스택 32GB 메모리 구성이 가능합니다.

 

5.jpg

 


8G-bit의 HBM DRAM 스택 구성 용량

 

6.jpg

 

SK 하이닉스의 HBM2 제품 라인업


이처럼 HBM2는 구조적으로 볼 때 CPU/APU 캐시처럼 메모리 용량은 한정되도 넓은 메모리 대역폭을 갖고 싶은 용도에 적합합니다. HBM1보다 적은 DRAM 수와 스택 수로 광대역 캐시를 구성할 수 있는 아키텍처입니다. 덕분에 제조 비용을 낮출 수 있지요. 그러나 HBM 자체가 아직 여러 부분에서 비싼 솔루션이기에 CPU/APU의 캐시에 그대로 가져오기가 어렵습니다.

 

 

HBM의 비용 절감이 앞으로의 과제


"HBM1에서 HBM2로 발전시킬 뿐만 아니라, HBM의 비용을 낮출 수 있는 방법을 검토하고 있습니다. 앞으로 언젠가는 발표할 것입니다."라고 AMD의 Macri는 말합니다.

 

현재 HBM가 비싼 이유 중 하나는 실리콘 인터포저를 쓰기 때문입니다. 실리콘 인터포저는 트랜지스터가 없는 배선으로 일반 보드보다 미세한 배선이 가능합니다. Through Silicon Via (TSV) 기술은 HBM의 스택과 CPU와 GPU를 스택 당 1,024 핀이라는 방대한 신호 핀에 연결합니다. 라데온 R9 퓨리(피지)처럼 4개의 스택을 사용하는 경우에는 신호 핀만 4,096개니 기존의 기판으로 대응하기 어렵습니다.

 

7.jpg

 


실리콘 인터포저를 사용하는 현재의 HBM 솔루션

 

8.jpg

 

현재 HBM의 공급망


HBM에선 비싼 실리콘 인터포저를 보다 저렴한 기술로 대체하는 방법이 연구되어 왔습니다. 인텔이 개발한 패키지 기술인 Embedded Multi-die Interconnect Bridge (EMIB)같은 접근이 바로 그것입니다. 실리콘 인터포저에서 벗어나면 HBM의 제조 비용이 줄어듭니다. 실리콘 인터포저를 대체하는 것이 앞으로 기대되는 HBM의 비용 절감 방법 중 하나입니다.


9.jpg

 

인텔의 HBM에 응용 가능한 EMIB 기술


그렇지만 아직은 HBM 자체가 아직 비싸며 HBM 스택 어셈블리에도 제조 비용이 들어갑니다.

 

"조립 방법과 시험 방법 등 비용을 낮출 수 있는 여지가 있습니다. 또한 DRAM 자체의 비용을 낮춰야한다는 것도 분명합니다 .DRAM 제조 비용을 낮추려면 먼저 양산 규모가 필요합니다. 처음으로 HBM2를 필요로 하는 분야는 수량이 작은 슈퍼 컴퓨터와 고속 디바이스 시장으로 여기에 들어가는 DRAM의 수는 적습니다.

 

그래서 HBM을 더 큰 시장에 밀어부칠 필요가 있습니다. 처음에는 HPC 및 임베디드 고속 디바이스 시장으로 시작해 소비자 시장으로 넓혀 나가는 걸 생각하고 있습니다. 또 JEDEC도 항상 물량이 나오는 시장을 우선으로 생각해 DRAM 규격을 책정하고 있습니다."(AMD의 Macri)

 

반도체 제품의 경우 생산 물량이 늘어나면 1개의 제품을 제조하는데 필요한 제조 비용이 줄어듭니다. HBM도 미드 레인지 PC와 소비자를 위한 디바이스까지 보급되지 않으면 비용 절감과 보급이 이어지는 선순환으로 이어질 수 없습니다. 이것의 실현 여부는 바로 HBM2에 달려 있습니다. 미드 레인지 PC의 캐시에 쓰일 수 있는지가 첫번째 단계가 될 것입니다.

 

덧붙여서 인텔의 eDRAM은 DRAM 셀이 로직 프로세스에 통합을 전제로 한 Metal-Insulator-Metal (MIM) 캐패시터를 사용하고 있기에 셀 자체가 크고 메모리 용량은 작습니다. 칩 용량은 최대 1G-bit(128MB)며 메모리 대역폭은 102.4GB/sec인데, HBM2 스택이 2-Hi에서 2GB, 256GB/sec 인걸 생각하면 아무래도 불리합니다.

 

 

2-Hi에선 채널 당 메모리 뱅크 수가 절반으로


전에 올렸던 글에선 4채널/다이의 2-Hi 스택 구성시 HBM은 16 뱅크/채널 구성이 될 것이라 추측했으나, 실제로는 4채널/다이에서 8뱅크/채널이 나옵니다. 1채널 당 DRAM 뱅크 수는 2채널/다이로 16뱅크/채널에서 줄어듭니다. 그러나 줄어들었다 해도 여전히 채널당 뱅크 수는 8뱅크, 성능으론 불리하지만 치명적인 수준은 아니라고 추측됩니다.

 

10.jpg

 


HBM2 채널 당 메모리 뱅크 수는 GDDR5의 2 배


HBM2 기술 정보는 미국 샌프란시스코에서 개최된 반도체 학회인 ISSCC(IEEE International Solid-State Circuits Conference)에서 공개됩니다. 그 중에는 2-Hi 스택의 4 채널/다이 아키텍처의 세부 사항 및 ECC 아키텍처도 포함됩니다. ECC는 기존에 알려진 것보다 많이 바뀌었다네요.

 

11.jpg

 


메모리 버스 폭의 로드맵


HBM2의 특성을 GDDR5와 비교하면 이렇습니다. HBM2에서 눈에 띄는 건 칩 당 메모리 대역폭입니다. HBM2의 경우 2-Hi 스택에서의 칩 당 대역폭은 256GB/sec가 됩니다. 이것은 HBM1 칩 대역 64Gb/sec의 4배로 GDDR5 7Gbps의 칩 대역폭 28GB/sec의 9 배 이상입니다. 칩 당 최고 대역폭이 나오지요. 이것은 2-Hi일 때 칩 당 4 채널, 512-bit 폭 인터페이스가 됩니다. 참고로 아래 슬라이드 왼쪽 그림의 핀 당 전송 속도는 잘못 표기한 것으로 HBM2의 전송 속도는 1Gbps가 아닌 2Gbps입니다. 또한 아주 중요한 스펙은 아니나 메모리 액세스 지연 시간이 낮다는 것도 HBM의 장점입니다.

 

12.jpg

 


HBM의 전송 속도 및 칩 당 메모리 대역폭

 

13.jpg

 

메모리 대역 당 전력 소비

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.