컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

분석

2018.03.06 22:52

32GB, 1.36TB/s의 GPU 메모리를 제공. 2세대 HBM2

조회 수 4553 댓글 4

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...09751.html

전송 속도를 더 높인 새로운 버전의 HBM2

가까운 미래의 하이엔드 컴퓨팅 GPU나 매니코어 프로세서의 메모리는 최대 대역폭이 1TB/sec 이상에 도달하며, 용량은 32GB가 당연해지고, 소비 전력은 더욱 줄어듭니다. 스택 구조의 DRAM인 HBM (High Bandwidth Memory)의 발전을 통해 하이엔드 컴퓨팅 디바이스의 메모리는 한층 더 발전합니다.

이러한 HBM2 메모리의 발전이 미국 샌프란시스코에서 2월에 개최된 반도체 컨퍼런스 ISSCC(IEEE International Solid-State Circuits Conference)에서 나타났습니다. 또한 앞으로 출시될 차세대 HBM3는 메모리 대역폭을 더욱 끌어올려 전력 사용량이 줄어들고, 메인스트림 장치의 보급이 기대되고 있습니다.

HBM 메모리는 2015년에 1세대 HBM이 출시되고 2016년에 2세대 HBM2가 도입됐습니다. 첫 번째 HBM은 핀 전송 속도가 1Gbps에 메모리 대역은 1스택 당 128GB/sec, 하이엔드 GPU 4개의 스택 구성으로 512GB/sec가 나왔습니다. 1세대 HBM은 스택 당 메모리 용량이 1GB(1개의 다이에 2G-bit 4층 스택)로, GDDR5와 메모리 대역이 크게 차이나진 않았습니다. 따라서 믾이 쓰이진 않고 바로 HBM2로 대체됐습니다.

HBM2의 전송 속도는 2Gbps, 1스택 메모리 대역폭은 256GB/sec로 4개의 스택 구성으로 1TB/sec를 달성합니다. 또 적층 DRAM이 8다이로 늘어나 메모리 용량도 1스택 당 8GB(1다이 8Gbit, 8층 스택), 4개의 스택으로 32GB가 나옵니다. 그러나 GPU에서 처음으로 HBM2를 쓴 NVIDIA 파스칼 아키텍처 GPU 테슬라 P100은 메모리 전송 속도 1.43Gbps에 메모리 대역은 4 스택 732GB/sec, 메모리 용량은 16GB에 머물렀습니다. 전송 속도를 높이고 적층하는 DRAM의 수에 제한이 있어서입니다.

2월의 ISSCC에서는 HBM의 선두 주자인 SK 하이닉스가 2세대 HBM2의 개요를 발표했습니다(12.3 A 1.2V 64Gb 341GB/s HBM2 Stacked DRAM with Spiral Point-to-Point TSV Structure and Improved Bank Group Data Control. JH Cho et. al). 핵심은 8개의 DRAM 다이를 적층해서 높은 성능과 품질을 유지, 소비 전력도 줄였다는 점입니다. HBM2이 되서야 HBM의 광대역과 대용량을 달성했다고 할 수 있습니다.

SK 하이닉스가 발표한 2세대 HBM2 메모리

SK 하이닉스의 2세대 HBM2

데이터 전송 속도가 오른 HBM2

새로운 HBM2에서 아키텍처를 변경

ISSCC에서 SK 하이닉스가 발표한 2세대 HBM2은 전송 속도가 최대 2.66Gbps, 메모리 대역은 스택 당 최대 341GB/sec. 하이엔드 GPU의 4개 스택 구성에서는 1.36TB/sec니 1TB/sec를 크게 넘어섭니다. DRAM의 다이 당 용량은 1세대 HBM2와 같은 8Gbits(ECC를 포함하면 9Gbits). DRAM 다이를 8층 스택하면 스택 당 8GB. 하이엔드 GPU에서 쓰는 4개 스택 구성이면 32GB의 메모리 용량이 나옵니다.

DRAM의 대역폭과 전송 속도

1세대 HBM2는 2Gbps의 전송 속도와 8층 스택 8Hi을 실현하기 어려웠습니다. 용량은 8Hi가 된다 해도 전송 속도를 2Gbps로 만들기 힘들었습니다. 그 주요 원인은 TSV(Through Silicon Via) 때문에 부하가 늘어났기 때문입니다. 그래서 SK 하이닉스는 새로운 HBM2에서 DRAM 내부의 구조를 변경, TSV 연결 토폴로지를 바꿨습니다.

HBM 아키텍처는 DRAM의 다이를 적층하고, TSV로 다이 사이를 연결합니다. 다이끼리 TSV와 마이크로 범프로 직결해 초 광폭 인터페이스를 제공합니다. HBM은 128-bit 폭의 8채널 메모리 세트로 취급됩니다. 128-bit x 8Channel = 1024-bit의 메모리 버스 폭이 나옵니다. 이를 적당한 속도로 구동해 초 광대역을 실현합니다. 바닥에 인터페이스를 제어하는 기반 로직 다이를 깔고 그 위에 DRAM을 적층합니다. HBM 아키텍처는 각 메모리 다이를 8채널 1024-bit의 시그널 TSV로 관통하고 있습니다.

HBM 계열 메모리의 단면도

SK 하이닉스의 HBM2은 TSV 연결 신호선을 멀티 드롭으로 구성했습니다. 각 채널당 적층된 DRAM 다이마다 드롭이 있고, TX(Transmitter : 전송) / RX(Reciever : 수신)가 다이마다 배치됩니다. 아래 슬라이드는 HBM2의 8채널 TSV 연결 중 절반인 4채널의 TSV를 나타냈습니다. HBM2 DRAM 다이의 메모리 뱅크 군 중 절반에 해당되는 인터페이스입니다. 슬라이드 왼쪽이 기존의 멀티 드롭 구성, 오른쪽이 새로운 P2P 연결 구성입니다.

왼쪽이 기존 HBM2의 멀티 드롭 아키텍처, 오른쪽이 새 HBM2의 P2P

HBM 스택 연결을 멀티 드롭에서 P2P로

기존의 SK 하이닉스 HBM2는 각 채널의 TSV마다 TX / RX가 4쌍씩 있고, 하나의 TX / RX에는 1 MUX (Multiplexer)가 있습니다. 그래서 각 채널마다 4층 스택 4Hi를 구성하면 DRAM에 4개의 드롭이, 8Hi라면 8개의 드롭이 있었습니다. 위 슬라이드는 8층의 경우입니다.

그래서 SK 하이닉스는 토폴로지를 완전히 바꿨습니다. 새로운 HBM2는 기반 로직 다이와 DRAM 다이 사이를 P2P로 연결합니다. 각 채널의 베이스 다이에는 1레벨 1드롭 1쌍 TX / RX만 연결됩니다. HBM의 경우 4층 4Hi까지가 1레벨, 8층 8Hi는 2레벨이 됩니다. 따라서 8Hi는 1채널에 DRAM 2드롭이 됩니다.

SK 하이닉스는 새로운 HBM2 연결 방식을 Spiral Point-to-Point(나선형 P2P)라 부릅니다. 위 슬라이드처럼 나선형 TX / RX에 연결되는 TSV는 다이마다 바뀌기 때문입니다. HBM2 다이에 8채널 TSV가 뚫린 건 이번에도 같습니다. 그러나 TX / RX에 연결되는 채널은 2채널 뿐이며, 나머지 TSV는 상하 다이 사이를 연결하는 데에만 쓰이는 것으로 보입니다.

SK 하이닉스는 자세한 구현 방법을 밝히지 않았으나, 이 아키텍처에서 각 채널의 드롭은 1쌍의 TX / RX에 우선 연결합니다.8Hi는 DRAM 다이와 베이스 다이 채널에 3쌍의 TX / RX가 있습니다. P2P를 쓰면서 4:1의 MUX도 없어졌습니다. 그 결과 새로운 HBM2는 구동 전류가 30% 줄어들고 신호 파형 왜곡도 개선해 slew rate가 향상됐습니다.

토폴로지를 개선해 용량성 부하가 크게 감소

다이 채널 구성이 크게 바뀜

SK 하이닉스의 새로운 P2P 연결에서 TSV와 TX / RX 연결은 어떻게 되는지도 궁금하지만, 그보다 더 근본적인 건 HBM2 아키텍처의 변경입니다. 아래는 SK 하이닉스의 HBM2 채널 / 다이 구성도입니다. SK 하이닉스의 1세대 HBM2는 1개의 다이가 최대 4채널 구성이었습니다. 따라서 4다이 4Hi의 경우 각 채널은 2개의 다이로 나눠 메모리 뱅크를 배치합니다. SK 하이닉스가 이런 아키텍처를 포기한 이유는 2개의 다이만 적층하는 2Hi 구성을 쓰기 위해서입니다.

SK 하이닉스의 HBM2 채널/다이 구성

HBM2의 스택/용량 관계

SK 하이닉스의 1세대 HBM2 아키텍처는 2Hi에도 각각의 다이가 4채널씩 2다이, 8채널 HBM2의 모든 대역을 쓸 수 있었습니다. 2Hi에서 4Hi, 8Hi까지 확장성이 있었습니다. 이 경우 4Hi / 8Hi과 2Hi를 전환하는 아키텍처로 통합할 필요가 있습니다. 그래서 TSV 연결 토플로지도 멀티 드롭이 알맞았다고 보입니다. 반면 8Hi의 부하를 견딜만한 대책은 많지 않았습니다.

1세대 HBM2는 다이 당 4채널의 4Hi와 8Hi 외에 2Hi도 지원합니다.

반면 2세대 HBM2 아키텍처는 각각의 다이가 2채널입니다. 이렇게 고정하면 나선형 P2P 아키텍처를 쓰기도 편해집니다. 이번 변경의 배경에는 과감한 HBM2 메모리로의 방향 변화 때문인 것으로 추측됩니다. 소용량까지 커버하는 건 그만두고 대용량에 맞추겠다는 움직임입니다. 앞으로 스택 구조의 DRAM 방향 역시 이렇게 될 듯 합니다.

성능 향상과 전력 절감을 실현하는 2세대 HBM2의 구조

SK 하이닉스의 새로운 HBM2은 이 외에도 다양한 성능 향상과 전력 절감, 수율 향상을 위한 노력이 담겨져 있습니다. HBM에서 어려운 점은 TSV와 마이크로 범프의 수율입니다. 8Hi의 경우 단 한개 다이에서 TSV 결함이 생겨도 다른 8개의 DRAM 다이 모두에 영향을 주게 됩니다.

따라서 SK 하이닉스는 TSV의 수리 기술을 구현했습니다. SK 하이닉스는 2014년 VLSI Symposia에서 HBM1의 TSV 수리 기술을 발표(C4.2 An Exact Measurement and Repair Circuit of TSV Connections for 128GBs High-Bandwidth Memory. HBM Stacked DRAM. DU Lee et. al, IEEE Symp. VLSI Circuits, 2014.)했습니다. 이번엔 완전히 자동화된 구현으로, 부팅을 하면 테스트와 수리/생선이 이루어집니다.

TSV의 결함을 찾아냄

HBM2는 8채널의 메모리 채널을 2개의 유사 채널(pseudo-channel)로 분할하는 기능을 갖춥니다. 128-bit I/O 라인이 64 bit 씩 분할돼 독립된 채널처럼 액세스합니다. 각 채널의 32뱅크는 16뱅크씩 유사 채널에 할당됩니다. 유사 채널 액세스는 피리 페치(메모리 셀에서 읽기 단위) 스펙은 4n이나, 이번 HBM2는 뱅크 그룹을 써서 2n으로 바꿨습니다. 뱅크 그룹에서 좌우 뱅크에 액세스를 나눠 각각 2n 프리패치를 수행해 4n 데이터 아웃이 나옵니다. 그래서 타이밍 마진에 여유가 생기고 오버헤드도 줄었습니다.

HBM의 유사 채널 분할

뱅크 그룹핑을 도입

SK 하이닉스는 전통적인 HBM2 다이 중앙을 TSV 영역으로 지정해, 신호와 전력 라인이 집중됩니다. 반면 신형 HBM2는 뱅크 사이에 전력 TSV를 넣어 보다 안정적인 전력 공급이 가능합니다. 이 외에도 다이 온도 센서를 통해 데이터 전송도 최적화했습니다.

메모리 뱅크 사이에 전원 TSV를 배치

뱅크 파워 TSV로 전력 공급 안정화

SK 하이닉스의 2세대 HBM2는 이전 세대와 같은 20nm 공정으로 제조하며, 다이 크기는 81.8제곱mm. DRAM의 스택 수는 8Hi만 나와 있으나 다른 슬라이드에선 4Hi도 취급한다고 설명했습니다. 칩의 메모리 용량은 8G-bit, ECC 용 1G-bit을 더하면 물리적인 용량은 총 9G-bit가 됩니다.

SK 하이닉스의 2세대 HBM2 스펙

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '4'

까마귀 잠을 미루는 건 내일이 오지 않길 바래서야. 2018.03.06 23:57

대체 이런 설계는 어떤 사람들이 해내는 걸까요...
?
개김 2018.03.07 00:38

수리...라니...
생선이라고 해서 오타인가 했더니...
선을 만든다는 건가요?? 엄청나네... ㅡ,.ㅡ;;
?
마라톤 2018.03.07 09:54

좋은 정보 감사합니다. ^_^
?
꾸루룽꽝 2018.03.08 05:56

잘보고갑니다!

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

No Image

프리미티브 쉐이더의 추가. 라데온 RX 베가

7월 30일부터 8월 30일까지 개최된 시그래프 2017에서 AMD의 GPU 부문인 라데온 테크놀러지 그룹은 새로운 세대의 GPU인 라데온 RX 베가에 대해 설명했습니다. 기본적인 정보는 올해 1월에 공개가 됐으나, 이번에 새로 알려진 내용도 있...

Date2017.08.06 분석 By낄낄 Reply19 Views2773

Read More
5nm 공정 세대의 트랜지스터. 나노시트 기술

5nm 프로세스가 드디어 보이기 시작하다 　 5nm 공정 세대의 트랜지스터는 현재와 크게 구조가 바뀔 가능성이 있습니다. 현재의 트랜지스터는 Fin을 세우는 FinFET을 사용합니다. 그러나 5nm 이후의 프로세스는 얇은 튜브를 수직으로 세우...

Date2017.07.31 분석 By낄낄 Reply18 Views6934

Read More
마이크로소프트 서피스 키보드 분해 사진

마이크로소프트 서피스 키보드의 분해 사진입니다. 박스입니다. 실물 크기가 그대로 나와 있습니다. 키보드입니다. 박스 아닙니다. 아래엔 설명서. 왜 분해하느냐. 이베이에서 샀는데 키보드 키 하나가 고장났거든요. 이렇게 보면 알 수 ...

Date2017.07.20 분석 By낄낄 Reply21 Views6721

Read More
인텔 박물관: 4004 프로세서

인텔 박물관의 메모리 편: https://gigglehd.com/gg/1361250 에 이어서 이번엔 세계 최초의 마이크로 프로세서인 4004의 전시 코너입니다. 4004가 개발됐을 당시엔 숫자를 계산하는 소형 제품을 계산기라 불렀고, 대규모 로직과 메모리가 ...

Date2017.07.14 분석 By낄낄 Reply9 Views2068

Read More
메모리의 수리 과정

일본 센추리 메모리에서 메모리를 수리하는 과정을 간단히 소개했습니다. 일단 외관에 상처가 나지 않았는지를 현미경으로 확인. 이건 단자에 상처가 난 것입니다. 충격이나 압력을 받아 DRAM 칩이 떠있진 않은지도 확인합니다. 외관이 ...

Date2017.07.12 분석 By낄낄 Reply19 Views5061

Read More
인텔 박물관: 메모리

미국 캘리포니아주 산타 클라라에는 인텔 본사가 있고, 그 옆의 로버트 노이스 빌딩 RNB 1층이 인텔 박물관이 있습니다. 이곳은 돌아보는데 1시간 정도 걸리는데 여느 박물관과 비교하면 그리 크진 않습니다. 대신 입장료는 없음, 사진 ...

Date2017.07.05 분석 By낄낄 Reply12 Views2453

Read More
인텔 스카이레이크-X 분석과 벤치마크

인텔 스카이레이크-X의 아난드텍 리뷰입니다. 이미 알려져 있는 부분은 제외하고 요약해서 올립니다. 이해하기 힘든 부분도 있고, 양도 좀 많아서.. 다 써놓고 보니 참 글이 복잡한데, 마지막 부분만 봐도 요약은 충분히 될겁니다. 스카...

Date2017.06.20 분석 By낄낄 Reply46 Views3546

Read More
애플 아이맥 21.5인치 4K (2017) 분해 사진

애플의 아이맥 21.5인치 레티나 4K (2017) 모델의 분해 사진입니다. 인텔 쿼드코어 코어 i5 3~3.5GHz DDR4-2400MHz 8GB 메모리 라데온 프로 555, 2GB 램 1TB 5400rpm 하드디스크 802.11ac WiFi, 블루투스 4.2 밝기 500nits, 4096x2304 해...

Date2017.06.09 분석 By낄낄 Reply17 Views5554

Read More
매드캣츠는 뭐가 문제였는가?

매드캣츠가 왜 망했냐는 주제로 쓰여진 글입니다. PC 쪽에서는 독특한 디자인의 마우스로 유명하지만, 실제로 매드캣츠는 콘솔 게임의 주변기기에 더 큰 비중을 두고 있지요. 원래 헤드셋을 다루던 사람과 인터뷰한 내용이라 그런게 '...

Date2017.06.08 분석 By낄낄 Reply11 Views2464

Read More
CPU 점유율의 진실

넷플릭스의 프로그래머인 Brendan Gregg가 자신의 블로그에 올린 글입니다. 우리는 CPU 점유율이 90%라고 치면, 대충 이런 상황일 거라고 생각합니다. 하지만 실제론 이렇습니다. 프로세서가 명령어를 수행하지 않고, 메모리 I/O를 기다리...

Date2017.05.22 분석 By낄낄 Reply19 Views17965

Read More
PC 하드웨어 리뷰의 소음측정에 대한 간단한 이야기

최근의 PC 시스템은 어느정도 정숙성을 중시하여 설계를 편이며 저소음에 관심을 가지는 사용자들 또한 늘어나고 있습니다. 하지만 제품 사양 고지 및 리뷰에서는 불충분한 정보를 제공하고 있는 실정입니다. 그렇기 때문에 잘못된 예시...

Date2017.05.22 분석 By시네바 Reply3 Views3081

Read More
2018년 GPU의 새로운 메모리 GDDR6의 특징. 속도와 전력이 핵심

SK 하이닉스가 공개한 GDDR6 메모리 칩 지난 4월 23일에 한국의 메모리 업체인 SK 하이닉스는 차세대 그래픽 메모리인 GDDR6 DRAM을 발표했습니다. 현재 그래픽 메모리에서 주로 쓰이는 GDDR5의 후속작으로, 2018년 이후에 나올 중급형~...

Date2017.05.22 분석 By낄낄 Reply3 Views9494

Read More
No Image

본격적으로 딥 러닝을 공략하는 자이언트 코어. 테슬라 V100

볼타와 자비에르가 3분기에 출시 NVIDIA는 차세대 GPU 아키텍처 볼타(Volta)와 차세대 SoC 자비에르(Xavier)의 개요와 일정을 발표했습니다. 볼타는 내부 마이크로 아키텍쳐를 일신한 NVIDIA의 차세대 GPU로 하이엔드 GV100이 먼저 나옵니...

Date2017.05.12 분석 By낄낄 Reply4 Views2924

Read More
라이젠: SMT, CCX, 캐시, 바이오스, 메모리, 전원 관리, 인터뷰

AMD 라이젠에 대해 많은 사람들이 궁금해하는 점을 가지고 테스트한 글입니다. 어떤 건 이미 꽤 전에 이슈가 지나가기도 했으나, 새로운 내용이 있으니 복습할겸 보시죠. 사실 테스트 결과보다도 방법이 좀 참신하다 싶은게 많아 올려 봅...

Date2017.05.04 분석 By낄낄 Reply8 Views3958

Read More
무어의 법칙은 굳건하다. 인텔이 발표한 10nm 공정 기술

10nm 공정으로 미세화 리더십을 회복 인텔 프로세스 기술이 4년만에 크게 진화합니다. 인텔은 올해 하반기에 양산될 예정인 10nm 프로세스의 개요를 발표했습니다. 내년엔 본격적인 양산으로 전환할 계획입니다. 인텔은 지금까지 2년 간격...

Date2017.04.15 분석 By낄낄 Reply15 Views3568

Read More
메모리 랭크란?

라이젠은 메모리 랭크에 따라 최고 클럭이 달라집니다. 2 DIMM(2개의 메모리 모듈)일 경우 싱글 랭크에서 2667MHz까지 올라가는데 듀얼 랭크면 2400MHz에 그치며, 4 DIMM이라면 2133MHz, 1866Mhz까지 떨어집니다. PC에서 사용하는 메모리...

Date2017.04.13 분석 By낄낄 Reply17 Views28217

Read More
AMD의 칩 설계 방법을 바꾼 인피니티 패브릭 컨트롤 패브릭

AMD 칩 설계의 핵심인 컨트롤 패브릭 　 AMD는 새로운 CPU 라이젠에서 칩의 각 유닛을 연결하는 인터커넥트 패브릭에 인피니티 패브릭을 채택했습니다. 인피니티 패브릭에는 데이터 전송을 수행하는 Infinity Scalable Data Fabric(SDF)와...

Date2017.04.11 분석 By낄낄 Reply9 Views5071

Read More
올해 이후 AMD 칩의 기반이 되는 인피니티 패브릭

데이터와 컨트롤의 2가지 패브릭 AMD는 새로운 CPU 라이젠에서 칩 안/밖의 인터커넥트 패브릭을 새로 바꿨습니다.인피니티 패브릭(Infinity Fabric)이라는 새로운 패브릭이 등장해 라이젠 이후의 AMD 칩에선 확장 가능한 데이터 전송과 정...

Date2017.04.07 분석 By낄낄 Reply6 Views8320

Read More
3nm 로직 양산을 노리는 EUV 리소그래피의 고NA 화 기술

차세대 반도체 미세 가공 기술인 EUV (Extreme Ultra-Violet) 리소그래피 기술 개발 로드맵이 명확해졌습니다. 빠르면 7nm 세대부터 양산에 채용되고, 최소한 3nm 세대까지 미세화를 견인해 나갑니다(고 NA로 3nm 세대의 초 고난도 제조를...

Date2017.04.06 분석 By낄낄 Reply11 Views9911

Read More
게이밍 노트북의 처참한 내구성에 대해서

(주의: 스압 경보) 0. 서문 근 수년간의 PC 시장 추세를 보면 어느정도 모바일 시장에 잠식되가는 경향이 있지만 그와는 반대로 게이밍 노트북 시장의 경우엔 갈수록 커지고 있음을 알수 있습니다. 본격적으로 이 주제에 대해서 논...

Date2017.03.27 분석 By청염 Reply60 Views87297

Read More