원문의 저자는 AMD가 베가 7nm를 게임용 그래픽카드를 출시하기란 어렵다고 생각했습니다. 하지만 라데온 VII이 나왔고, 출시 당일에 매진됐지요. 그럼 왜 그게 어렵다고 생각했느냐.
7nm로 미세화한 것 치고는 다이가 너무 크다
MI25에 탑재된 14nm 공정의 베가 10은 다이 크기가 486제곱mm, MI60에 탑재된 7nm 공정의 베가 20은 331제곱mm입니다. 제조 공정이 줄어든 것 치고는 다이 크기가 많이 변하진 않았습니다.
크기도 크기지만 그걸 효율적으로 쓰는지도 의문입니다. 다이 구조를 보면 베가 10은 486제곱mm를 거의 다 쓰고 있지만 베가 20은 비어있는 공간이 꽤 있습니다. 위 이미지에서 연두색으로 칠한 부분은 배선만 존재하는 영역으로 추측됩니다.
면적으로 따지면 전체의 26.8%, 89제곱mm 정도의 공간을 단순 연결에만 쓰고 있습니다. 반대로 말하면, 완벽하게 최적화해서 연결 부위를 줄이면 다이 크기가 242제곱mm로 줄어듭니다.
이런 최적화는 7nm 공정에서 대단히 중요합니다. 내년 이후에 시작될 EUV 공정을 도입하면 제조 원가가 다소 줄어드나, DUV 멀티 패터닝을 사용하는 TSMC 7nm는 웨이퍼 제조 비용이 16nm의 두배 정도 비싸기 때문입니다.
글로벌 파운드리의 14nm도 TSMC의 16nm와 거의 같습니다. 베가 20은 베가 10의 절반 수준으로 다이를 줄여야 제조 원가가 비슷해집니다.
실제로는 331제곱mm로 68% 정도로만 작아졌기에 칩 원가는 베가 10보다 36% 정도 비싸졌습니다. 즉 14/16nm 공정에서 660제곱mm 수준의 다이를 제조한 비용이 들어갔다고 보면 됩니다.
다이의 세로 방향 크기는 HBM2 메모리에 따라 결정
다이가 왜 이렇게 커졌을까요? 그 대답은 간단합니다. 다이의 세로 방향 크기는 HBM2 메모리의 크기에 영향을 받습니다. 다이 세로 방향은 인피니티 패브릭의 I/F가 들어가면서 더 줄일 수 없습니다.
JEDEC이 공개한 HBM Ball Out입니다. https://www.jedec.org/sites/default/files/JESD235B-HBM_Ballout.zip
HBM2는 신호에 1904 Ball, GND에 1762 Ball, VDDC, VDDQ, VPP(코어, I/O, 펌프 회로용 전원)에 1754 Ball을 씁니다. 300 x 68로 총 10200개의 Ball이 들어갑니다. NC(No Connection)이 883 Ball, Ball이 없는 영역이 3897개가 있어서 숫자는 좀 차이가 나지만, 어쨌건 순수 신호만 1900개 이상을 베가 20에서 관리해야 합니다.
배선 레이아웃은 가급적 직선으로 배치해야 하며, 실리콘 인터포저를 써도 대각선으로 넣긴 힘들고, 그렇게 하면 지연 시간도 늘어납니다. HBM을 90도 회전시켜 배치해도 배선이 늘어납니다. 따라서 HBM 2을 썼을 때부터 다이가 세로 방향으로 커질 수밖에 없었다는 이야기가 되겠습니다.
설계 기간 단축 때문에 NCU를 늘리지 못함
가로 방향을 봅시다. 위쪽은 PCI-E I/F와 HDMI/DP 같은 이미지 출력 인터페이스만 있으리라 추측됩니다. 아래에는 인피니티 패브릭 I/F가 배치되는데 신호 속도가 50Gbps로 빠른 편이라 배선을 최소한으로 줄여야 합니다. 그래서 다이의 크기 자체를 바꾸긴 힘듭니다.
다이 크기가 정해졌다면 반대로 생각해서 NCU의 수를 더 늘릴 수도 있었을 겁니다. 위쪽에 6개, 아래에 4개 정도 NCU를 늘리면 총 12개의 프로세서가 더해집니다. 그럼 64개가 아닌 76개로 NCU가 18% 늘어납니다. 그럼 클럭을 낮춰도 성능을 유지할 수 있고, 클럭이 1800Mhz라면 성능이 더 높아집니다. 그러나 이렇게 하지 않은 이유는 설계 시간 단축 때문이라 생각됩니다.
7nm 공정의 주인공은 나비(Navi) 입니다. 베가 20은 데이터 센터에 최적화한, NVIDIA의 볼타 아키텍처에 해당되는 제품입니다. 실제 제조 공정이 크게 달라지고(파운드리도 바뀌었습니다) 최적화 기법 자체가 달라졌음에도 불구하고, 14nm와 7nm 공정 다이의 레이아웃이 거의 같다는 건 7nm 전환에 시험적인 의미를 두고 최적화에 많은 시간을 투자하지 않았기 때문이라 봅니다.
베가 20기반의 라데온 인스팅트 MI60과 MI50이 2018년에 출시하고, 일반 소비자용 라데온 VII가 올해 2월에 나온 것도 그런 최적화가 충분하지 않아서 생겨난 일이라 추측됩니다.
베가 20 최적화보다 다음 GPU 나비의 개발에 주력
라데온 VII의 소비 전력은 굉장히 큽니다. 넥스트 호라이즌 이벤트에서 AMD는 7nm 공정이 동작 클럭을 1.25배, 즉 25% 가량 높였다고 설명했습니다. 라데온 RX 베가 64는 베이스 클럭 1247Mhz, 부스트 클럭 1546Mhz고, 여기서 25% 높이면 1932.5Mhz가 됩니다. 라데온 VII는 1800MHz니까 더 높일 여지가 있다고 보이는데, 아직 최적화가 부족한게 아닌가 생각됩니다.
다만 AMD는 베가 20에서 최적화를 더하기보다는 다음 세대인 나비에 집중하는 듯 합니다. 결과적으로 베가 20 기반의 라데온 VII의 스펙은 아쉬운 부분이 있습니다. 나비의 제품 출시까지는 시간이 좀 있으니 어서 베가 20의 라데온 VII를 출시해 점유율을 조금이나마 확보하는 게 낫다고 판단한 듯 합니다.
지포스 RTX 2080 Ti와 원가 비교
그 대신이라고 말하면 좀 그렇긴 한데, 4스택 HBM2를 탑재해 16GB 메모리를 장착하면서 생긴 장점도 있습니다. 아직 드라이버 튜닝이 부족하고 16GB를 충분히 활용한다고 말하긴 어렵지만, 최적화가 좀 더 된다면 성능이 개선될 가능성도 있습니다. 지포스 RTX 2080보다는 성능이 낮으나 가격은 저렴하고 16GB 메모리니 포지션 자체는 나쁘지 않습니다.
그러나 라데온 VII의 제조 원가는 상당히 비쌉니다. 지포스 RTX 2080보다는 확실히 비쌉니다. 어쩌면 지포스 RTX 2080 Ti 수준일지도 모릅니다. 그 이유는 거대한 다이 크기 때문입니다. 16/14nm 였다면 660제곱mm에 달하는 다이를 쓰는데, TU104는 545제곱mm, TU102는 754제곱mm입니다. 여기에 GDDR6보다 몇 배 빘나 HBM2를 4개 넣고 실리콘 인터포저도 씁니다.
지포스 RTX 2080보다 가격이 저렴한 부분은 기판 정도밖에 없습니다. 메모리 배선이 모두 실리콘 인터포저로 들어가니 카드의 기판 자체는 단순하며 층 수도 적습니다. 이 모두를 더해 650달러 이상이 제조 원가라고 가정하는 글도 있습니다. 손해보고 파는 수준까진 아니어도 상당히 저렴한 가격임엔 틀림 없습니다.
다음 GPU, 나비는 PS5에 먼저 사용?
나비는 소니 PS5에 먼저 쓴다는 소문이 있습니다. 다음 Xbox 역시 나비 기반(이건 나비 10 라이트)이란 소문이 있고, 그럼 PC 버전은 뒤로 밀리게 됩니다. 올 하반기에 발표, 올해 안에 출시할 것 같지만 정확한 날짜는 아직 모릅니다.
그 이전까지 라데온 VII의 파생 버전으로 버틸 가능성도 적습니다. 제조 원가가 너무 비싸니까요. 클럭을 낮추고 HBM을 2GB x4스택으로 바꿔 100달러 정도 저렴한 가격에 나노 버전을 만드는 게 고작이겠죠. 어디까지나 추측입니다. 그리고 AMD는 할 수는 있으나 적극적으로 나설 것처럼 보이지 않습니다.
AMD의 2018년 실적을 보면 1주 당 0.03달러의 적자에서 0.32달러의 흑자로 바뀌었습니다. 다만 올해 1분기는 전년 대비 24%의 매출 감소를 예상하는데, 계절적인 요인과 그래픽 매출을 그 이유로 꼽습니다. 가상화폐 거품이 꺼지면서 채굴 카드의 매출이 줄어들었지만, 데이터센터 GPU는 괜찮을 걸로 전망하며, 당분간 AMD는 이쪽에 주력할 겁니다. 본격적인 그래픽카드 사업은 데이터센터 쪽이 어느 정도 마무리되는 올해 말-내년 사이로 미뤄질 듯.