기글 하드웨어 뉴스 리포트 - DRAM 대역폭을 4배로 높인 HBM2

출처: :	http://pc.watch.impress.co.jp/docs/colum...40790.html

2016년엔 HBM(High Bandwidth Memory)가 본격적으로 출발합니다. HBM은 2015년 AMD 라데온 R9 퓨리(피지) 계열의 제품군에 채택됐습니다. 그러나 DRAM 제조사는 SK 하이닉스 1개 뿐이며 이걸 채택한 곳도 AMD 1개가 전부, 그것도 하이엔드 제품으로만 나왔었습니다. 메모리 대역폭도 GDDR5 기반의 384GB/s(512-bit 인터페이스)에 비해 HBM1은 512GB/s로 33% 늘은 것에 불과합니다. 메모리 용량은 GDDR5의 최대값인 8GB에 비해 HBM 기반 라데온 R9 퓨리(피지)는 최대 4GB로 오히려 줄었습니다. 따라서 임팩트가 그리 크진 않았습니다. 저전력 소형 모델인 라데온 R9 나노가 인기가 높긴 했으나, HBM이 신기술로서 크게 환영받은 수준까진 아니었습니다.

DRAM 버스 폭의 전환

하지만 올해엔 2세대 HBM2 기술을 기반으로 한 DRAM이 등장합니다. DRAM 제조사도 여러 업체로 늘었으며, 이걸 사용한 업체도 AMD 뿐만 아니라 NVIDIA 등 여러 곳으로 늘어납니다. 메모리 대역폭은 1GB/s로 두배가 됐으며 메모리 용량은 최대 32GB(4 스택의 경우)로 단번에 늘어납니다. 제품 라인도 HBM2 세대에선 상당히 넓은 범위로 퍼질 가능성이 높습니다.

HBM 규격은 1,024-bit의 초광대역 메모리 인터페이스를 사용하는 적층 DRAM 기술입니다. HBM1은 전송 속도가 1Gbps였으나 HBM2에서는 전송 속도가 2Gbps로 높아집니다. HBM은 DRAM을 적층한 스택 단위로 취급합니다. 4스택의 메모리 대역은 HBM1이 512GB/s였으나 HBM2는 1TB/s로 두배가 됩니다.

HBM 및 CPU / GPU와 연결

뿐만 아니라 HBM1는 1대 당 DRAM 용량이 2Gbit였지만 HBM2는 8Gbit 다이가 위주가 됩니다. 또한 스택은 HBM1가 DRAM 다이를 4개까지 적층했으나 HBM2는 8개까지 적층됩니다. 이외에 대기 시간 감소 및 대역폭 확장에 효과가 있는Pseudo Channel(유사 채널) 모드도 추가됐습니다. 또한 ECC 버전이 HBM에 추가됩니다.

간단히 말하면 HBM 2세대에서 성능은 두배로 늘어났고 기능이 확충됐으며 생산과 채용 실적이 모두 늘었습니다. 그러나 그게 전부가 아닙니다. HBM2는 시장 확대를 가능하게 하는 새로운 요소가 더해집니다. 그것은 1대당 메모리 대역폭을 4배까지 향상시키는 모드입니다.

2개의 다이에 8채널 1024-bit의 메모리 인터페이스를 지원

Joe Macri(Corporate vice president, Product CTO, Corporate Fellow, AMD)

AMD의 Joe Macri는 작년 12월 Radeon Technologies Group(RTG) Tech Summit에서 HBM2에 대해 다음과 같이 설명했습니다.

"HBM의 장점은 폼팩터와 전력에 있으며, 평방mm 당 대역폭을 크게 증가시킬 수 있습니다. HBM2는 그러한 HBM의 장점을 더욱 발전시킨 규격으로 2배의 전송 속도를 냅니다. 그러나 HBM1에서 HBM2로 변화는 대역폭이 전부는 아닙니다. 가장 큰 변화는 스택의 계층 수를 줄일 수 있게 됐다는 겁니다.

HBM1에서는 4-Hi (4층) 스택을 해야 최대의 메모리 대역폭을 얻을 수 있었습니다. 반면 HBM2는 2-Hi(2 층) 스택만으로 전체 대역폭이 나옵니다. 대역을 위해 4-Hi으로 DRAM 다이를 4층 구성해야 한다는 제약이 없어졌습니다. 더 유연하게 넓은 범위의 제품에 대응할 수 있게 됐다는 이야기입니다."

왜 HBM1는 4-Hi 스택을 하지 않으면 전체 대역폭을 달성할 수 없었던 것일까요. 그것은 HBM DRAM 다이의 채널 폭이 2채널이었기 때문입니다. HBM은 128-bit 폭의 독립적인 메모리 채널을 8채널 묶었습니다. 128-bit 8채널로 총 1024-bit가 나오며 이를 1Gbps로 구동해 128GB/sec의 대역폭을 얻습니다.

HBM의 4-Hi 스택 메모리 채널 구성

그러나 HBM1는 1개의 DRAM 다이가 2 채널까지만 지원했습니다. 따라서 4개의 DRAM 다이를 적층한 4-Hi 스택이 아니라면 1스택 당 128GB/sec의 대역폭을 얻을 수 없습니다. 2-Hi 스택에선 절반인 4채널만 적용되기에 메모리 대역폭은 절반인 64GB/sec가 됩니다. HBM2에서는이 부분을 개선했다고 합니다.

"HBM2도 기본적으론 4개의 다이에 8 채널 폭입니다. 그러나 HBM2는 2-Hi 스택의 경우 2개의 다이에서도 8채널 폭을 낼 수 있도록 했습니다. HBM1는 8채널 폭을 위해 반드시 4개의 다이가 필요했습니다. 이것이 큰 차이점으로 덕분에 적은 수의 DRAM 다이로 전체 대역폭을 얻을 수있게 됐습니다."

HBM2의 2-Hi 스택 메모리 채널 구성 추측

2-Hi 스택 전체 대역의 구성은 작년 10월의 메모리 컨퍼런스 memcon에서 SK 하이닉스가 공개했습니다. SK 하이닉스의 슬라이드에선 2-Hi 스택 2Gbps일 때 메모리 대역폭은 256GB/sec였습니다. 기존의 스펙이라면 2-Hi 스택의 대역폭은 128GB/sec여야 됬겠지요.

HBM을 이끄는 SK 하이닉스 제품 구성 라인업

기존의 설계 변경을 최소화 한 2-Hi 스택

DRAM 제조사가 2-Hi 스택의 전체 대역폭 구성을 이야기하기 시작한 건 작년 후반부터의 일입니다. 처음에는 그런 설명이 없었으니 나중에 추가된 스펙이라 할 수 있겠지요. HBM2 제품은 처음부터 2-Hi 구성을 지원합니다. 이것을 두고 Macri는 DRAM 업체 쪽에 맞추기 위해 설계를 쉽게 만들었다고 말합니다.

"메모리 업체들은 DRAM 제조의 위험을 싫어합니다. 따라서 설계에서 변경을 최소화하고 설계를 공통화해 위험을 낮출 필요가 있었습니다. 2개의 디자인(2-Hi와 4-Hi)을 하나로 하여 HBM의 설계 위험을 줄였습니다. (2-Hi 스택 전체 대역은) 아직 정식(JEDEC) 스펙은 아닙니다. 그래도 이 스펙이 필요하다고 생각하는 사용자도 있습니다. DRAM 제조사는 이미 여기에 대응한 설계를 하고 있습니다."

HBM2에서는 1다이에 2 채널 구성과 4 채널 구성이 있으며 HBM DRAM 다이 자체는 같을 것 같습니다. 그렇다면 DRAM 제조사는 2개의 다른 DRAM 다이를 설계 및 제조할 필요가 없으니 투자의 위험이 적어집니다. 다만 메모리 뱅크 수는 변하지 않아 채널 당 메모리 뱅크 수가 줄어들 가능성이 있습니다.

그러나 HBM2는 의사 채널(Pseudo Channel) 기능이 있어 뱅크를 분할해 두개의 의사 채널로 할당해 사용할 수 있습니다. HBM2는 레거시 모드에서 채널당 16뱅크, 의사 채널 모드도 16채널이 나옵니다. 1 다이에 4채널 모드에서 이 기능을 결합하면 뱅크 충돌을 억제할 수 있을 것입니다. 이러한 HBM2 기능을 잘 활용하면 디자인을 공통화해 설계와 제조 비용을 낮추는 것이 가능할 것이라 보입니다.

HBM1 뱅크 아키텍처

HBM2의 의사 채널 아키텍처

HBM2는 핀 당 전송 속도가 HBM1의 2배가 됐습니다. 또한 다이채널 수를 두 배로 구성이 가능합니다. 따라서 전송 대역은 HBM1의 2배에 달합니다.

"HBM1에서는 4개의 DRAM 다이를 사용한 1개의 4-Hi 스택에 메모리 대역폭은 128GB/sec였습니다. HBM2는 전송 속도가 HBM1의 1Gbps에서 2Gbps로 두 배로 올랐습니다. 그 위로 2-Hi 스택 전체 대역폭을 얻을 수 있게 되었기에, 4개의 DRAM 다이를 사용한 2개의 2-Hi 스택에서 512GB/sec의 메모리 대역폭을 제공합니다.

즉 HBM2의 메모리 대역은 HBM1의 4배입니다. 같은 수의 DRAM 다이로 4배의 대역폭을 달성할 수 있는 놀라운 메모리 대역폭 효율을 지녔습니다. 그리고 다이의 수가 적으면 그만큼 비용이 저렴해집니다. 따라서 HBM2은 대역 당 비용도 절감할 수 있습니다."

HBM2을 CPU와 APU의 캐시에 채용하는 길이 열리다

HBM2의 2-Hi 스택 구성이 중요한 것은 HBM2을 중급형 GPU 제품이나 APU (Accelerated Processing Unit)에서도 쓸 길이 열렸기 때문입니다. 더 작은 크기의 메모리로 높은 대역을 낼 수 있기에, 제품 가격을 엊게하고 싶은 카테고리의 제품과 캐시가 필요한 제품까지 도입이 가능합니다.

HBM1에서는 DRAM의 용량은 2G-bit였으니 4-Hi 스택 용량이 1GB가 됩니다. 4개의 스택이라 해봤자 총 용량이 4GB로 고정된 것이지요. 반면 HBM2에서는 DRAM의 용량은 현재 8G-bit로 늘었습니다. 따라서 4-Hi 스택을 4개 사용하면 스택 당 4GB로 총 16GB의 용량이 나옵니다. 16GB 만 구성 가능하다면 이건 단점이 되겠지만요.

HBM2 메모리 용량

HBM2는 2Hi 스택 전체 대역폭을 맞출 수 있습니다. 따라서 2-Hi 스택을 4개 사용한 1TB/sec로 8GB의 메모리 구성도 가능합니다. 또는 2Hi 스택을 2개 사용한 512GB/sec에서 4GB 메모리 구성의 GPU도 가능해집니다. 또한 2Hi 스택 1개만으로 256GB/sec에서 2GB로 APU의 캐시처럼 쓰는 구성도 가능합니다. HBM은 2세대에서 시장 범위를 넓힐 수 있게 됩니다.

"HBM은 메모리 대역폭을 메모리 용량보다 우선하여 설계했습니다. HBM1는 적당한 메모리 용량에 매우 넓은 대역이 나왔지요. 그러나 앞으로 HBM은 2-Hi에 저용량도 있고, 용량이 중요한 경우 스택을 8-Hi로 증가시킬 수 있습니다. 따라서 용량보다 대역을 선호하는 소비자 시장에서 용량을 중시하는 HPC 및 워크스테이션 시장까지 폭넓게 커버할 수 있습니다."라고 AMD의 Macri는 말합니다.

무엇보다 HBM2가 먼저 퍼지는 건 GPU 컴퓨팅 등의 시장이 될 것입니다. HPC(High Performance Computing)의 슈퍼 컴퓨터 시장과 초 광대역이 요구되는 네트워크 시스템 등의 임베디드 장치 등이 처음으로 HBM2를 활용할 시장으로 전망되고 있습니다. HBM2은 더 넓은 시장으로 확장 할 수 있는 스펙을 갖춘 것입니다.

이 게시물을...