전송 속도를 더 높인 새로운 버전의 HBM2
가까운 미래의 하이엔드 컴퓨팅 GPU나 매니코어 프로세서의 메모리는 최대 대역폭이 1TB/sec 이상에 도달하며, 용량은 32GB가 당연해지고, 소비 전력은 더욱 줄어듭니다. 스택 구조의 DRAM인 HBM (High Bandwidth Memory)의 발전을 통해 하이엔드 컴퓨팅 디바이스의 메모리는 한층 더 발전합니다.
이러한 HBM2 메모리의 발전이 미국 샌프란시스코에서 2월에 개최된 반도체 컨퍼런스 ISSCC(IEEE International Solid-State Circuits Conference)에서 나타났습니다. 또한 앞으로 출시될 차세대 HBM3는 메모리 대역폭을 더욱 끌어올려 전력 사용량이 줄어들고, 메인스트림 장치의 보급이 기대되고 있습니다.
HBM 메모리는 2015년에 1세대 HBM이 출시되고 2016년에 2세대 HBM2가 도입됐습니다. 첫 번째 HBM은 핀 전송 속도가 1Gbps에 메모리 대역은 1스택 당 128GB/sec, 하이엔드 GPU 4개의 스택 구성으로 512GB/sec가 나왔습니다. 1세대 HBM은 스택 당 메모리 용량이 1GB(1개의 다이에 2G-bit 4층 스택)로, GDDR5와 메모리 대역이 크게 차이나진 않았습니다. 따라서 믾이 쓰이진 않고 바로 HBM2로 대체됐습니다.
HBM2의 전송 속도는 2Gbps, 1스택 메모리 대역폭은 256GB/sec로 4개의 스택 구성으로 1TB/sec를 달성합니다. 또 적층 DRAM이 8다이로 늘어나 메모리 용량도 1스택 당 8GB(1다이 8Gbit, 8층 스택), 4개의 스택으로 32GB가 나옵니다. 그러나 GPU에서 처음으로 HBM2를 쓴 NVIDIA 파스칼 아키텍처 GPU 테슬라 P100은 메모리 전송 속도 1.43Gbps에 메모리 대역은 4 스택 732GB/sec, 메모리 용량은 16GB에 머물렀습니다. 전송 속도를 높이고 적층하는 DRAM의 수에 제한이 있어서입니다.
2월의 ISSCC에서는 HBM의 선두 주자인 SK 하이닉스가 2세대 HBM2의 개요를 발표했습니다(12.3 A 1.2V 64Gb 341GB/s HBM2 Stacked DRAM with Spiral Point-to-Point TSV Structure and Improved Bank Group Data Control. JH Cho et. al). 핵심은 8개의 DRAM 다이를 적층해서 높은 성능과 품질을 유지, 소비 전력도 줄였다는 점입니다. HBM2이 되서야 HBM의 광대역과 대용량을 달성했다고 할 수 있습니다.
SK 하이닉스가 발표한 2세대 HBM2 메모리
SK 하이닉스의 2세대 HBM2
데이터 전송 속도가 오른 HBM2
새로운 HBM2에서 아키텍처를 변경
ISSCC에서 SK 하이닉스가 발표한 2세대 HBM2은 전송 속도가 최대 2.66Gbps, 메모리 대역은 스택 당 최대 341GB/sec. 하이엔드 GPU의 4개 스택 구성에서는 1.36TB/sec니 1TB/sec를 크게 넘어섭니다. DRAM의 다이 당 용량은 1세대 HBM2와 같은 8Gbits(ECC를 포함하면 9Gbits). DRAM 다이를 8층 스택하면 스택 당 8GB. 하이엔드 GPU에서 쓰는 4개 스택 구성이면 32GB의 메모리 용량이 나옵니다.
DRAM의 대역폭과 전송 속도
1세대 HBM2는 2Gbps의 전송 속도와 8층 스택 8Hi을 실현하기 어려웠습니다. 용량은 8Hi가 된다 해도 전송 속도를 2Gbps로 만들기 힘들었습니다. 그 주요 원인은 TSV(Through Silicon Via) 때문에 부하가 늘어났기 때문입니다. 그래서 SK 하이닉스는 새로운 HBM2에서 DRAM 내부의 구조를 변경, TSV 연결 토폴로지를 바꿨습니다.
HBM 아키텍처는 DRAM의 다이를 적층하고, TSV로 다이 사이를 연결합니다. 다이끼리 TSV와 마이크로 범프로 직결해 초 광폭 인터페이스를 제공합니다. HBM은 128-bit 폭의 8채널 메모리 세트로 취급됩니다. 128-bit x 8Channel = 1024-bit의 메모리 버스 폭이 나옵니다. 이를 적당한 속도로 구동해 초 광대역을 실현합니다. 바닥에 인터페이스를 제어하는 기반 로직 다이를 깔고 그 위에 DRAM을 적층합니다. HBM 아키텍처는 각 메모리 다이를 8채널 1024-bit의 시그널 TSV로 관통하고 있습니다.
HBM 계열 메모리의 단면도
SK 하이닉스의 HBM2은 TSV 연결 신호선을 멀티 드롭으로 구성했습니다. 각 채널당 적층된 DRAM 다이마다 드롭이 있고, TX(Transmitter : 전송) / RX(Reciever : 수신)가 다이마다 배치됩니다. 아래 슬라이드는 HBM2의 8채널 TSV 연결 중 절반인 4채널의 TSV를 나타냈습니다. HBM2 DRAM 다이의 메모리 뱅크 군 중 절반에 해당되는 인터페이스입니다. 슬라이드 왼쪽이 기존의 멀티 드롭 구성, 오른쪽이 새로운 P2P 연결 구성입니다.
왼쪽이 기존 HBM2의 멀티 드롭 아키텍처, 오른쪽이 새 HBM2의 P2P
HBM 스택 연결을 멀티 드롭에서 P2P로
기존의 SK 하이닉스 HBM2는 각 채널의 TSV마다 TX / RX가 4쌍씩 있고, 하나의 TX / RX에는 1 MUX (Multiplexer)가 있습니다. 그래서 각 채널마다 4층 스택 4Hi를 구성하면 DRAM에 4개의 드롭이, 8Hi라면 8개의 드롭이 있었습니다. 위 슬라이드는 8층의 경우입니다.
그래서 SK 하이닉스는 토폴로지를 완전히 바꿨습니다. 새로운 HBM2는 기반 로직 다이와 DRAM 다이 사이를 P2P로 연결합니다. 각 채널의 베이스 다이에는 1레벨 1드롭 1쌍 TX / RX만 연결됩니다. HBM의 경우 4층 4Hi까지가 1레벨, 8층 8Hi는 2레벨이 됩니다. 따라서 8Hi는 1채널에 DRAM 2드롭이 됩니다.
SK 하이닉스는 새로운 HBM2 연결 방식을 Spiral Point-to-Point(나선형 P2P)라 부릅니다. 위 슬라이드처럼 나선형 TX / RX에 연결되는 TSV는 다이마다 바뀌기 때문입니다. HBM2 다이에 8채널 TSV가 뚫린 건 이번에도 같습니다. 그러나 TX / RX에 연결되는 채널은 2채널 뿐이며, 나머지 TSV는 상하 다이 사이를 연결하는 데에만 쓰이는 것으로 보입니다.
SK 하이닉스는 자세한 구현 방법을 밝히지 않았으나, 이 아키텍처에서 각 채널의 드롭은 1쌍의 TX / RX에 우선 연결합니다.8Hi는 DRAM 다이와 베이스 다이 채널에 3쌍의 TX / RX가 있습니다. P2P를 쓰면서 4:1의 MUX도 없어졌습니다. 그 결과 새로운 HBM2는 구동 전류가 30% 줄어들고 신호 파형 왜곡도 개선해 slew rate가 향상됐습니다.
토폴로지를 개선해 용량성 부하가 크게 감소
다이 채널 구성이 크게 바뀜
SK 하이닉스의 새로운 P2P 연결에서 TSV와 TX / RX 연결은 어떻게 되는지도 궁금하지만, 그보다 더 근본적인 건 HBM2 아키텍처의 변경입니다. 아래는 SK 하이닉스의 HBM2 채널 / 다이 구성도입니다. SK 하이닉스의 1세대 HBM2는 1개의 다이가 최대 4채널 구성이었습니다. 따라서 4다이 4Hi의 경우 각 채널은 2개의 다이로 나눠 메모리 뱅크를 배치합니다. SK 하이닉스가 이런 아키텍처를 포기한 이유는 2개의 다이만 적층하는 2Hi 구성을 쓰기 위해서입니다.
SK 하이닉스의 HBM2 채널/다이 구성
HBM2의 스택/용량 관계
SK 하이닉스의 1세대 HBM2 아키텍처는 2Hi에도 각각의 다이가 4채널씩 2다이, 8채널 HBM2의 모든 대역을 쓸 수 있었습니다. 2Hi에서 4Hi, 8Hi까지 확장성이 있었습니다. 이 경우 4Hi / 8Hi과 2Hi를 전환하는 아키텍처로 통합할 필요가 있습니다. 그래서 TSV 연결 토플로지도 멀티 드롭이 알맞았다고 보입니다. 반면 8Hi의 부하를 견딜만한 대책은 많지 않았습니다.
1세대 HBM2는 다이 당 4채널의 4Hi와 8Hi 외에 2Hi도 지원합니다.
반면 2세대 HBM2 아키텍처는 각각의 다이가 2채널입니다. 이렇게 고정하면 나선형 P2P 아키텍처를 쓰기도 편해집니다. 이번 변경의 배경에는 과감한 HBM2 메모리로의 방향 변화 때문인 것으로 추측됩니다. 소용량까지 커버하는 건 그만두고 대용량에 맞추겠다는 움직임입니다. 앞으로 스택 구조의 DRAM 방향 역시 이렇게 될 듯 합니다.
성능 향상과 전력 절감을 실현하는 2세대 HBM2의 구조
SK 하이닉스의 새로운 HBM2은 이 외에도 다양한 성능 향상과 전력 절감, 수율 향상을 위한 노력이 담겨져 있습니다. HBM에서 어려운 점은 TSV와 마이크로 범프의 수율입니다. 8Hi의 경우 단 한개 다이에서 TSV 결함이 생겨도 다른 8개의 DRAM 다이 모두에 영향을 주게 됩니다.
따라서 SK 하이닉스는 TSV의 수리 기술을 구현했습니다. SK 하이닉스는 2014년 VLSI Symposia에서 HBM1의 TSV 수리 기술을 발표(C4.2 An Exact Measurement and Repair Circuit of TSV Connections for 128GBs High-Bandwidth Memory. HBM Stacked DRAM. DU Lee et. al, IEEE Symp. VLSI Circuits, 2014.)했습니다. 이번엔 완전히 자동화된 구현으로, 부팅을 하면 테스트와 수리/생선이 이루어집니다.
TSV의 결함을 찾아냄
HBM2는 8채널의 메모리 채널을 2개의 유사 채널(pseudo-channel)로 분할하는 기능을 갖춥니다. 128-bit I/O 라인이 64 bit 씩 분할돼 독립된 채널처럼 액세스합니다. 각 채널의 32뱅크는 16뱅크씩 유사 채널에 할당됩니다. 유사 채널 액세스는 피리 페치(메모리 셀에서 읽기 단위) 스펙은 4n이나, 이번 HBM2는 뱅크 그룹을 써서 2n으로 바꿨습니다. 뱅크 그룹에서 좌우 뱅크에 액세스를 나눠 각각 2n 프리패치를 수행해 4n 데이터 아웃이 나옵니다. 그래서 타이밍 마진에 여유가 생기고 오버헤드도 줄었습니다.
HBM의 유사 채널 분할
뱅크 그룹핑을 도입
SK 하이닉스는 전통적인 HBM2 다이 중앙을 TSV 영역으로 지정해, 신호와 전력 라인이 집중됩니다. 반면 신형 HBM2는 뱅크 사이에 전력 TSV를 넣어 보다 안정적인 전력 공급이 가능합니다. 이 외에도 다이 온도 센서를 통해 데이터 전송도 최적화했습니다.
메모리 뱅크 사이에 전원 TSV를 배치
뱅크 파워 TSV로 전력 공급 안정화
SK 하이닉스의 2세대 HBM2는 이전 세대와 같은 20nm 공정으로 제조하며, 다이 크기는 81.8제곱mm. DRAM의 스택 수는 8Hi만 나와 있으나 다른 슬라이드에선 4Hi도 취급한다고 설명했습니다. 칩의 메모리 용량은 8G-bit, ECC 용 1G-bit을 더하면 물리적인 용량은 총 9G-bit가 됩니다.
SK 하이닉스의 2세대 HBM2 스펙