TSMC CoWoS 기술로 HBM2을 패키지에 통합


NVIDIA는 미국 산호세에서 개최한 GTC(GPU Technology Conference)'에서 차세대 GPU인 파스칼(Pascal)의 HBM(High Bandwidth Memory) 2에 대한 개요를 밝혔습니다. 메모리 대역폭은 720GB/sec며 (ECC Error Correcting Code)도 지원합니다.

 

HBM은 고성능 그래픽으로 GDDR5의 후속 메모리 기술입니다. 매우 넓은 메모리 인터페이스를 사용하여 초 광대역 메모리를 실현합니다. HBM 계열 메모리는 Through Silicon Via(TSV) 기술과 마이크로 범프 기술을 사용하여 DRAM 다이를 적층합니다. DRAM 다이의 최하층에는 베이스 다이가 배치되며, 베이스 다이와 각각의 DRAM 다이, DRAM 다이 사이는 TSV와 마이크로 범프로 수직 연결됩니다.

 

1.jpg

 
메모리 및 패키지는 CoWoS with HBM2라고 표기됐습니다

 

2.jpg

 

가운데 NVIDIA 로고가 그려진 다이가 GPU, 그 주위에 4개의 모듈이 HBM2

 

파스칼 GP100은 GPU 다이의 베이스 다이를 TSMC의 CoWoS(Chip-On-Wafer-On-Substrate) 기술로 연결합니다. CoWoS는 TSV, 실리콘 인터포저를 사용해 한개의 패키지로 통합하는 기술입니다. GPU와 HBM 모듈 사이의 데이터 버스는 1024비트의 폭이며, 128비트 폭의 채널을 8개 묶은 인터페이스입니다. GP100은 총 4모듈을 연결하며 데이터 버스는 총 4096비트가 됩니다. 메모리 채널은 총 32채널(슈드 메모리 채널에서 64)가됩니다.

 

3.jpg

 

SK 하이닉스가 GTC(GPU Technology Conference) 전시장에서 HBM을 전시

 

4.jpg

 

GTC의 회장인 San Jose McEnery Convention Center

 

 

AMD의 HBM1에 이어 NVIDIA는 2세대 HBM2를 채용


HBM은 AMD의 라데온 R9 퓨리(피지)가 2015년 여름에 처음으로 채용했습니다. 피지가 쓴 건 1세대 HBM1이나  NVIDIA가 GP100에서 사용한 것은 2세대 HBM2입니다. 모두 HBM을 4모듈 사용하며 인터페이스는 1096비트 폭입니다. 그러나 피지의 HBM1은 전송 속도가 1Gbps로 총 512GB/sec의 메모리 대역을 내나, GP100의 HBM2는 1.44Gbps로 720GB/sec의 메모리 대역을 실현합니다.

 

5.jpg

 


메모리의 전송 속도와 대역폭

 
맥스웰 기반의 테슬라 M40(GM200), 케플러의 테슬라 K40(GK110) 모두 GDDR5를 사용하며 메모리 대역폭은 288GB/sec입니다. GP100의 메모리 대역은 2.5배가 되지요. 같은 GM200이라 해도 그래픽용인 지포스 GTX  타이탄 X는 336GB/sec의 대역이니 테슬라 P100은 약 2.14배가 됩니다.

 

그러나 HBM은 대역 뿐만 아니라 대역폭의 소비 전력이 작다는 장점도 있습니다. GDDR5는 1비트 당 에너지가 18 ~ 22pj(피코 모듈, pj/bit) 인 반면, HBM은 6 ~ 7pj/bit입니다. 따라서 대역을 늘려도 전력 사용량은 낮습니다. 즉, HBM은 광대역을 일정한 전력으로 구현할 수 있습니다.

 

6.jpg

 

7.jpg

 


더 넓은 메모리 대역폭 버전의 GP100의 등장 가능성도


HBM2의 스펙은 2Gbps의 전송 속도까지 가능합니다. 선별하면 2Gbps 이상에서도 작동 가능하다고 합니다. 따라서 앞으로 GP100 계 제품에선 메모리 대역폭이 더 커질 것으로 보입니다. 지금까지의 예는 메모리의 안정적인 동작을 중시하는 테슬라 시스템이라 지포스 계열보다 메모리 전송 속도가 낮게 설정됐습니다. GP100의 그래픽용인 지포스 버전이라면 같은 GP100이어도 메모리 전송 속도가 향상될 수 있습니다.

 

8.jpg

 


HBM 아키텍처


HBM은 베이스 다이와 그 위에 적층된 DRAM 다이로 구성된 모듈로 제공됩니다. DRAM 다이 스택은 2-hi(2대), 4-hi( 대), 8-hi(8대)의 3가지 종류로 제공됩니다. HBM2는 1대당 2채널 또는 4채널. 따라서 2채널과 4채널이 동일한 피크 대역폭을 제공합니다. 8다이 스택의 경우엔 2개로 구성됩니다.

 

HBM1는 SK 하이닉스만 제조했으며 다이 당 DRAM의 용량은 2G-bit였습니다. 따라서 4개의 다이를 스택해 4-Hi 스택을 4모듈 사용한 피지의 메모리 용량은 4GB였습니다. 반면 HBM2는 칩 당 DRAM의 표준 용량이 8G-bit가 됩니다. 테슬라 P100은 4개의 DRAM 다이인 4-Hi 스택을 사용합니다. 메모리 용량은 4-Hi 스택을 4모듈 구성해 16GB. 앞으로 등장할 8개의 8-Hi 스택 버전의 경우 32GB가 됩니다. 그래픽에선 이정도 용량이 너무 많으나 HBM2 자체는 2개만으로도 같은 메모리 대역폭을 유지할 수 있습니다. 그래서 8GB의 저용량 구성도 가능합니다.

 

9.jpg

 


2G-bit의 HBM1와 8G-bit의 HBM2 용량 차이 

  

 

실리콘 인터포저를 사용한 새로운 패키징 기술


HBM2와 GPU는 아래 그림처럼 연결됩니다. 실리콘 캐리어는 TSV 기술을 사용하며 다이는 wafer thinning 과정에서 박막 처리됩니다. 실리콘 캐리어의 윗면은 마이크로 범프로 GPU와 HBM의 밑면은 C4 범프로 기판과 연결합니다.

 

10.jpg

 


GP100과 HBM2의 단면도

 

11.jpg

 

TSMC의 CoWoS 기술


위의 단면 사진 왼쪽이 HBM2 스택입니다. 최하층의 가로로 긴 것이 베이스 로직 다이입니다. 그 위에 3층으로 된 것이 HBM2의 DRAM 다이. 4층의 DRAM 다이는 위의 스페이서와 붙어 있어 구별할 수 없습니다. 스페이서에 덕분에 HBM의 적층 다이 수가 몇 장으로 늘어나도 720um의 두께를 유지합니다.

 

12.jpg

 


삼성의 스택 단면 사진

 

13.jpg

 

다이 스택 수에 관계없이 모듈의 높이를 720μm로 유지시키는 스페이서

 

14.jpg

 

상단 다이가 스페이서와 인접한 것을 알 수 있습니다

 

 

이제 막 생산하기 시작한 HBM2가 GP100의 출하량을 결정


이번에 발표된 테슬라 P100(GP100)는 삼성의 HBM2을 사용하합니다. 삼성은 2016년 전반기에 HBM2의 양산을 시작합니다. 그러나 새로운 DRAM의 양산은 일반적으로 제한된 양으로 시작돼 차츰 양을 늘려가게 됩니다. 이번에는 TSV 스택을 써야 하니 known good stacked die (KGSD)의 제조 공정을 확립할 필요도 있습니다. JEDEC 관계자는 많은 수의 HBM2를 쓰게 되는 건 2017년이라고 말한바 있습니다. 따라서 삼성이 앞당겨 양산을 진행해도 HBM2의 출하량은 어느 정도 제한될 것으로 예상됩니다.

 

GP100를 생산하는 TSMC의 16nm FinFET 공정 자체는 이미 양산을 시작한지도 어느 정도 시간이 지나 제조의 위험 부담이 적습니다. 반면 HBM2는 빠듯한 시기에 채용됐습니다. 그래서인지 GTC의 키노트 연설에서 NVIDIA의 젠슨황(Jen-Hsun Huang. Co-founder, President and CEO)는 이렇게 설명한 바 있습니다.

 

"(테슬라 P100을) 지금 만들고 있습니다. 처음에는 클라우드용으로 출시하며 내년 1분기까지는 OEM에 출시합니다."

 

15.jpg

 
테슬라 P100은 내년(2017년)에 OEM 제공

 

테슬라 P100은 올해(2016년) 한정된 고객에게 출시됩니다. 아마도 테슬라 P100의 발목을 잡는 것이 HBM2의 양산일 듯 합니다. HBM2은 8-Hi 스택도 가능하지만 32GB 메모리 버전의 GP100 보드 제공은 내년(2017년)이 될 것입니다.

 

16.jpg

 
젠슨황(Jen-Hsun Huang. Co-founder, President and CEO)

  

총 32 메모리 채널을 제어하는​​ 8개의 메모리 컨트롤러


HBM 표준은 각 스택마다 1024-bit 인터페이스로 128-bit 채널 8개가 있습니다. HBM2는 128-bit의 채널을 더욱 분할하여 두개의 pseudo channels로 사용할 수 있습니다. GP100은 4개의 HBM2 스택을 사용합니다. 따라서 메모리 채널은 32채널에 64 슈드 채널이 됩니다.

 

반면 GP100의 메모리 컨트롤러는 총 8 컨트롤러. 각 컨트롤러는 4채널 또는 8 슈드 채널을 제어하게 됩니다. 즉, 2개의 메모리 컨트롤러가 1개의 HBM2 스택을 제어합니다. 이 구성에서 HBM2 메모리 채널을 효율적으로 제어할 수 있는지는 실제 칩이 나오기 전까진 알지 못합니다.

  

17.jpg

 

2개의 메모리 컨트롤러가 1스택을 제어

  

 

ECC 프리를 실현하는 1Gbits의 엑스트라 비트를 탑재


테슬라 P100은 ECC(Error Correcting Code) 프리를 지원합니다. 온 칩 메모리 ECC는 물론이고 외부 메모리의 ECC도 성능이나 용량의 페널티 없이 실현할 수 있다는 뜻입니다. 사실 이것도 HBM2 기능을 통해 실현된 것입니다.

 

GDDR5는 ECC를 구현하기 위해 별도의 제조 원가가 필요했습니다. GDDR5에서 ECC를 지원하려면 메모리 용량의 일부를 ECC bits에 할애해야 했습니다. NVIDIA는 GK110 케플러 GPU에서 12GB GDDR5 메모리의 경우 6.25 %인 750MB를 ECC에 할애했는데요. GDDR가는 ECC를 위한 엑스트라 다이는를 탑재하지 않아서입니다. 또한 ECC bits 액세스를 위해 메모리 대역폭도 다소 줄어들게 됩니다.

 

그런데 HBM2는 옵션으로 ECC를 지원합니다. HBM2의 DRAM 다이는 삼성과 SK 하이닉스가 모두 표준 용량이 8Gbits입니다. 그러나 모두 ECC 지원을 위해 추가 1Gbits 분의 메모리를 탑재합니다. 따라서 ECC를 사용해도 8Gbit에서 용량이 줄어들진 않습니다. 기존의 DRAM처럼 ECC bits의 다이를 늘리는 것이 HBM 아키텍처에선 어렵고, 또 GDDR5처럼 용량을 줄이는 것도 피하고 싶어서인듯 합니다.

 

18.jpg

 

삼성은 9Gbits 다이에 탑재합니다

 

19.jpg

 

SK 하이닉스의 HBM2 스펙. 각 다이는 1Gbits의 ECC 셀을 포함 9Gbits을 구현합니다

 

20.jpg

 

NVIDIA도 12.5 %의 ECC 용량을 HBM2가 갖는다고 설명합니다.

 

또한 HBM2에서는 ECC bits 액세스로 메모리 대역폭도 줄어들지 않습니다. JEDEC 표준에서는 HBM2의 각 채널 데이터 버스가 128-bit지만 ECC를 사용하는 경우 각 채널 당 16-bit의 ECC 체크 비트 액세스 버스를 씁니다. 메인 데이터 버스는 사용하지 않으니 데이터 대역폭은 유지됩니다.

 

JEDEC의 HBM 규격은 원래 AMD와 SK 하이닉스 위주로 책정했습니다. 그러나 HBM2에서 NVIDIA와 인텔이 개발에 적극 참여해 두 회사가 원하는 기능을 넣었습니다. ECC 기능도 NVIDIA가 강하게 원했던 기능이었다고 합니다. HBM1을 보고 NVIDIA는 HBM2를 사용했습니다. 그러나 HBM2와 파스칼의 타이밍을 다소 어긋나 있어 당분간 NVIDIA는 HBM2의 공급에 어려움을 겪을 것 같습니다.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.