광대역 고용량으로 바뀐 2세대 HBM2
HBM2에 들어가는 DRAM의 가격 자체가 비싸며, 베이스 로직 다이가 필요하고, 구현 과정에선 CPU나 GPU 사이에서 배선을 연결하는 인터커넥트가 필요합니다. 그래서 비쌀 수밖에 없고, 현재 이를 채택한 제품은 고가형 모델 뿐입니다. NVIDIA를 예로들면 HBM2는 하이엔드 컴퓨팅용 GPU에 채택하고, 그래픽용 GPU의 대부분은 GDDR 계열 메모리를 사용했습니다.
그러나 비싼 가격에도 불구하고 HBM2의 수요는 점점 늘어났습니다. 딥 러닝이 발전하며 GPU/가속 장치의 수요가 늘어났기 때문입니다. 결과적으로 서버용 GPU와 고성능 컴퓨팅을 위한 가속장치/FPGA가 사용하는 HBM2의 수요도 점점 늘었습니다.
현재 HBM2는 가격이 비싸도 잘 팔리는 제품입니다. 그리고 그 수요는 전부 하이엔드에 집중됐습니다. 현재 시장에서 HBM2에 요구하는 건 더 넓은 대역, 더 큰 용량의 실현입니다. 딥러닝과 IoT등의 분야에서 빅 데이터의 사용이 늘어나, 메모리 대역폭과 용량의 압박이 점점 커지고 있습니다. 스택 DRAM의 니어 메모리에선 1TB/s 이상의 메모리 대역폭을 요구하고 있으며, 메모리 용량도 32GB 정도를 원하고 있습니다.
SK 하이닉스가 이번에 발표한 2세대 HBM2은 바로 이런 수요에 맞춘 구조입니다. 데이터 전송 속도가 2.66Gbps까지 올라 하이엔드 GPU(HBM2 4스택)이라면 메모리 대역은 1.36TB/s가 나옵니다. 이로서 1TB/s급의 메모리 대역폭과 32GB의 대용량을 모두 실현하게 됩니다.
SK 하이닉스의 2세대 HBM2 스펙
왼쪽이 기존 HBM2의 멀티 드롭 아키텍처, 오른쪽이 신형 HBM2의 나선형 P2P
신형 HBM2
SK 하이닉스의 2세대 HBM2 메모리
삼성도 2세대 HBM2 메모리인 아쿠아볼트를 발표
사실 HBM2을 공급하는 또 다른 회사인 삼성도 SK 하이닉스처럼 2세대 HBM2를 발표했습니다. 아직 학회에서 추가 기술을 발표하진 않았으나, AquaBolt라는 코드네임으로 1월에 공식 발표했습니다. 삼성 아쿠아볼트 HBM2는 데이터 전송 속도를 2.4Gbps로 끌어올립니다. 1스택 당 메모리 대역폭은 307GB/s입니다. 4개의 스택을 사용하는 하이엔드 GPU에선 1.23TB/s의메모리 대역폭이 나옵니다.
삼성은 1세대 HBM2 Flarebolt에서 1.2V 구동에 1.6Gbps의 전송 속도로 상품화했고, 2Gbps는 1.35V로 구동했습니다. 2016년 ISSCC에서 발표(A 1.2V 20nm 307GB / s HBM DRAM with At-Speed Wafer-Level I / O Test Scheme and Adoptive Refresh Considering Temperature Distribution. K. Sohn, et al., ISSCC)했을 땐 2.4 Gbps까지 가능하다고 밝혔으나, 상품화는 어려웠던 듯 합니다.
그러나 2세대 아쿠아볼트는 1.2V에서 2.4Gbps를 달성할 수 있습니다. 삼성의 2세대 HBM2의 목적도 SK 하이닉스와 같습니다. 따라서 삼성의 아쿠아볼트 HBM2도 4Hi/8Hi에 최적화됐을 가능성이 있습니다.
메인스트림 DRAM 로드맵
흐지부지된 컨슈머용 HBM
이러한 HBM2의 방향 전환은 사실 HBM2 세대에만 국한된 이야기가 아닙니다. 앞으로 나올 스택 구조의 DRAM 메모리 전체에도 영향을 주고 있습니다. 구체적으로는 HBM3 세대의 HBM도 어느 정도 비슷하게 진행될 것입니다.
HBM2 이후엔 처음 계획했던대로 광대역 규격과 일반 소비자용 시장에 맞춰 저렴하게 가격을 낮춘 2가지 제품이 있습니다. 일반 소비자용 HBM은 가격을 대폭 낮춰 좀 더 보급을 늘리려는 계획이었습니다.
구체적으로는 보급형 HBM은 인터페이스 폭을 HBM/HBM2의 절반인 512비트로 줄입니다. I/O를 좁혀 다이 사이의 TSV 수도 줄입니다. 또 HBM/HBM2는 DRAM 다이 아래에 베이스 로직 다이가 있지만 여기에도 손을 봅니다. DRAM 다이에선 마스터/슬레이브 구성을 도입합니다. 현재 HBM2는 8GB 용량에 1GB의 ECC를 탑재하는데 이것도 뺍니다. HBM/HBM2는 비싼 실리콘 인터포저가 필요하지만, 일반 소비자용 HBM는 저렴한 가격을 위해 유기 인터포저 등을 넣는 제안이 있습니다.
삼성이 2016년의 HotChips에서 설명한 컨슈머HBM 계획
현재 HBM 시스템의 단면도. 베이스 로직 다이와 실리콘 기반의 인터포저가 필요
그러나 컨슈머 제품을 위한 HBM의 계획은 현재 검토되지 않습니다. 반도체 표준화 단체 JEDEC 관계자는 "DRAM 제조사는 규격의 분열을 싫어합니다. 컨슈머 시장을 위해 또 하나의 DRAM을 만드는 건 제조사 입장에서 어려운 일입니다. 그래서 하나의 표준으로 통일했습니다."고 밝혔습니다.
다른 업체 관계자는 이런 배경에 고객사의 요구도 있다고 설명합니다. "사실 컨슈머용 HBM은 콘솔 게임기에 쓰기 위한 물건이었습니다. 많은 양이 판매되는 게임기에 채택되면 시장 발전이 쉽기 때문입니다. 하지만 게임기에선 컨슈머용 HBM을 쓰기 꺼려했고, 규격 자체가 흐지부지됐습니다."
만약 컨슈머용 HBM이 PS5 같은 차세대 게임기에 채택된다면 상품화는 순조로울 겁니다. 수천만개의 HBM 수요가 단번에 생기기 때문입니다.
반대로 말하면 그만큼의 시장이 보장되지 않는 이상, 컨슈머 HBM을 만들기 어렵다는 이야기이기도 합니다. 컨슈머 시장에서 광대역 메모리의 수요가 어느 정도 생기지 않으면 가격이 비쌀 수밖에 없습니다. 그럼 시장의 성장이 어렵다는 순환이 이어집니다. 이를 깰만한 많은 수요가 생겨나지 않는 이상, 컨슈머용 HBM의 등장은 어려울 것 같습니다.
인텔 등이 끌어나가는 차세대 HBM 스펙
DRAM 제조사 입장에서 보면 HBM2는 가격이 비싸도 잘 팔리고 있으니 굳이 컨슈머용 HBM에 신경 쓸 이유가 많지 않기도합니다. 머신 러닝과 빅 데이터를 활용하는 하이엔드 시장에서 광대역 메모리의 수요 확대가 HBM2의 수요를 이끌어내고 있습니다. 하이엔드 GPU 같은 고성능 가속에선 HBM의 사용이 일반적입니다.
HBM 계열 DRAM은 원래 넓은 시장에 보급돼 가격을 점차 낮춰 나간다는 예상이 있었습니다. 그러나 생각보다 비싼 가격 때문에 일부 시장에만 보급됐습니다. 그 결과 시장이 좁아 고전을 더듭했으나, 초 광대역 메모리를 필요로 하는 시장 자체가 급성장하면서 HBM2 메모리도 예상보다 큰 성장을 이루었습니다. 그래서 더 넓은 대역과 더 큰 용량을 추구하는 방향입니다.
HBM3에 해당되는 차세대 HBM은 어느 정도의 시장을 커버하는 것을 검토 중입니다. 첫 HBM은 사실 AMD와 SK 하이닉스가 시작한 규격이었으나, HBM2는 이를 끌어나가는 기업이 NVIDIA와 인텔로 바뀌었습니다. 그리고 차세대 HBM도 여전히 인텔의 입김이 커 보입니다. 인텔은 HBM2에 매우 큰 관심을 보고 있어, 자사 플랫폼에서 HBM2를 사용하기 위해 AMD GPU를 넣은 카비레이크-G를 개발했을 정도입니다.(GPU가 아닌 HBM2가 본래 목적이라는 견해인데, 이건 생각이 갈릴 수 있겠네요)
4-Hi HBM2을 탑재한 인텔의 카비레이크-G
현재는 HBM3에서 인텔이 요구 스펙을 있따라 제시하고, DRAM 제조사가 그 스펙을 따를 수 있는지를 검토하는 분위기라 합니다. 인텔은 PC에 HBM 메모리를 쓰게 될 거라 판단하고 있습니다. 인텔은 직접 개발한 eDRAM 칩을 광대역 버퍼로 쓰는 CPU를 만들었었습니다. 이 eDRAM을 HBM으로 전환하는 것이 인텔의 목적 중 하나입니다. 물론 하이엔드 가속 장치에서도 HBM의 채용을 확대해 나갈 것입니다.
인텔은 이를 위해 PC부터 HPC를 상대로 스펙을 요구하고 있는 듯 합니다. 그 중에는 스펙대로 제작하기 어렵거나 생산 비용이 비싸거나, 기술적인 난이도가 높은 것도 포함됩니다. 그래서 차세대 HBM의 스펙은 아직 확정되지 않았습니다.
HBM2의 가격 절감에 인텔이 앞장서다
스택 구조의 DRAM은 광대역으로 향해 나가고 있는데, 가격은 어떻게 낮출까요? 여기에 대해선 여러 솔루션이 실행 중입니다. 현재 HBM2는 비싼 실리콘 인터포저를 보다 저렴한 기술로 대체하는 수단을 개발하고 있습니다.
인텔은 라데온 RX 베가 M 그래픽을 탑재한 8세대 코어 프로세서, 카비레이크-G에서 자체 개발한 패키지 기술인 Embedded Multi-die Interconnect Bridge(EMIB)를 채택했습니다. 비싼 실리콘 인터포저를 사용하지 않고 HBM2 메모리와 연결하는 2.5D 패키징 기술입니다.
삼성은 2017년의 arm 기술 컨퍼런스 ARM Techcon에서 실리콘 외에 다른 재료인 Redistribution Layer (RDL)를 HBM 메모리에 쓰겠다는 계획을 밝혔습니다. 그러나 RDL을 사용하면 다른 문제가 생길 수 있습니다.
Xilinx가 2016년 Hotchips에서 공개한 멀티 다이 패키징 기술의 비교
현재 HBM2는 DRAM 자체가 비사게 문제라고 AMD의 Mark Papermaster(Chief Technology Officer and Senior Vice President, Technology and Engineering, AMD)는 설명합니다. DRAM 자체의 가격을 낮추기 위해선 HBM 메모리 시장이 확대돼 제조 물량을 늘려 양산 효과를 봐야 해결됩니다. 스택 DRAM에서는 테스트에 들어가는 비용이 큽니다.
광범위한 보급을 위해선 아직 해결할 게 많지만, 그 잠재력을 의심하진 앟습니다. 프로세서의 성능 향상에 맞춰, 정된 전력 범위 안에서 충분한 메모리 대역폭을 제공하는 기술이 스택 구조의 DRAM밖에 없기 때문입니다.
이런 상황에서 앞으로 메모리-스토리지 계층에 워킹 메모리는 프로세스 가까이(함께 패키지)에 자리잡는 니어 메모리와, 확장 메모리 슬롯에 장착하는 파 메모리롸 양극화가 이루어질 것입니다. 파 메모리의 DDR5와 비휘발성 DIMM(NVDIMM과 3D Xpoint DIMM)도 중요하니, 앞으로 메모리는 더욱 복잡하게 변화할 것입니다.
가격, 대역폭, 전력, 불량 등등 해결할 수 있는게 많겠네요...