지난 컴퓨텍스에서 리사 수 CEO가 손에 든 7nm 베가입니다. 이걸로 7nm 베가의 다이 크기가 얼마나 될지 예측해 봅시다. 다이 옆을 둘러싼 HBM2의 크기는 이미 알려져 있습니다. 7.75x11.87mm입니다. 따라서 7nm 베가의 다이 크기는 15x23.9mm, 즉 358.5제곱mm 쯤 될 겁니다. 사진을 가지고 추측한 것이니 여기서 좀 다를 수 있겠죠. 어쨌건 360제곱mm라 가정해 봅시다. 14nm LPP를 쓴 라데온 RX 베가 64/56의 다이 크기는 510제곱mm니까 면적이 70% 정도 줄어든 셈입니다.
그러나 글로벌 파운드리 7LPP는 14LPP에 비해 트랜지스터 밀도가 2배가 됩니다. 사실 글로벌 파운드리는 로직 밀도가 2.8배가 된다고 설명하지만, 이건 표준 셀 라이브러리를 14LPP의 7.5T에서 6T로 바꾸는 것까지 포함합니다. 반면 AMD는 표준 셀 라이브러리를 쓰지 않고 자사 개발 라이브러리를 쓴다고 했습니다. 2세대 라이젠도 글로벌 파운드리의 12LPP 라이브러리는 쓰지 않습니다. 그래서 1세대 라이젠과 다이 크기가 비슷합니다.
베가 7nm도 AMD가 자사 개발 라이브러리를 쓴다고 치면 밀도는 2배 늘어나는데 그칠 겁니다. 즉 베가 7nm의 다이는 14LPP로 만들면 720제곱mm로 나왔어야 할 겁니다. 여기에 CU 수와 다이 크기가 비례한다고 가정하면 89.6CU가 되니까 대충 89CU가 나오거나 아니면 그보다 더 많은 96CU일 겁니다. 86CU라면 클럭이 같을 경우 CU 수가 37.5% 정도 늘어납니다. 클럭은 소비 전력이 같을 경우 40% 정도 늘어난다고 작년 IEDM에서 밝힌 바 있습니다.
다만 소비 전력이 같은데 성능이 40% 늘어난다면, CU의 수가 늘어난 만큼 소비 전력이 높아진다는 말이 됩니다. 안그래도 라데온 RX 베가 64가 TDP 295W고, HBM의 수도 늘었으니 400W가 넘을지도 모릅니다. 그럼 클럭 상승은 타협하고 전력 사용량을 줄이는 게 알맞는 선택입니다. 20% 정도 클럭을 높인다면 전력은 40%가 됩니다. 이걸로 CU가 늘어난 만큼의 전력 사용량을 커버합니다. 이렇게 잡으면 총 성능 향상은 65% 정도 됩니다. 그럼 이론적인 성능은 단정밀도 기준 20.9TFLOPS가 되는군요. 테슬라 V100이 15.7TFLOPS니까 일단은 나쁘지 않아 보입니다.
문제는 가격입니다. 7LPP는 14LPP에 비해 웨이퍼 제조 비용이 두배 이상으로 뛸 겁니다. 그 이유는 복잡한 제조 공정 때문입니다. 트랜지스터는 SAQP, M0~M3 배선층은 SADP로 구축하니 인텔만큼 모험을 벌이진 않지만 그래도 복잡해진 건 분명합니다. 다이 크기가 30% 줄어들어도 실질적인 다이 제조 원가는 40% 이상 늘어납니다. 여전히 비싼 HBM의 용량이 4배가 되니 가격도 그만큼 비싸집니다. 그럼 현실적으로 구입할 수 있는 가격은 타이탄 V 수준이 되겠지요.
생산량도 문제입니다. 글로벌 파운드리는 SoC와 HPC용의 두가지 7nm 공정이 있습니다. 베가 7nm는 SoC용을 쓰며 Zen2는 어느 쪽인지는 아직 모릅니다. 어쨌건 둘 다 초기 단계이며 대량 생산은 불가능합니다. 글로벌 파운드리에서 7LPP를 생산하는 곳은 뉴욕의 Fab 8 뿐입니다. 여기에선 7LPP 외에도 12/14LPP, 22FDX/12FDX도 만들고 있습니다. EUV도 이곳에만 들어갑니다. 따라서 생산 능력이 부족합니다. 글로벌파운드리가 Fab 8을 확장할 계획을 세우고 있다지만 실행에 옮기기까지는 시간이 걸립니다. 그럼 일단 비싼 값에 팔 수 있는 라데온 인스팅트와 에픽에 7nm를 우선 할당하고, 라데온은 뒤로 밀릴 수밖에 없습니다. 그러니 12nm 공정의 베가 리프레시를 중간에 끼;워넣는 선택지는 매우 현실적인데, 여기에 대해선 아직 정보가 없습니다.