NVIDIA가 MCM-GPU : Multi-Chip-Module GPUs for Continued Performance Scalability란 이름의 논문을 44회 컴퓨터 아키텍처 심포지움에 발표했습니다.
NVIDIA의 GPU는 갈수록 커져, 볼타 세대의 플래그쉽 칩인 GV100은 그 크기가 815제곱mm까지 늘어났습니다. 이것은 포토 마스크 크기의 한계에 가까운 숫자이며, 이렇게 다이가 커지면서 수율이 떨어지고 제조 비용이 늘어나고 있습니다.
반도체 기술의 미세화로 트랜지스터 집적도를 높여 더 크고 성능이 높은 GPU를 제조했으나, 이제는 프로세스 공정 미세화의 효과도 갈수록 기대하기 힘들어지고 있는 상황입니다.
그래서 NVIDIA는 커다란 다이의 GPU를 만드는 것 대신, 작은 크기의 GPU 모듈을 다수 만들고 이를 하나의 기판에 패키징합니다. 이러면 패키지의 크기는 커지지만 칩의 제조 비용 단가를 억제하면서 성능을 높일 수 있습니다. 쉽게 말하면 칩 내부에서 SLI를 하는 셈.
이 논문에서 GPU 사이의 상호 연결에 필요한 대역폭과, L1/L2 캐시 사이에 L1.5 캐시를 넣는 등, 구조의 최적화에 대한 고찰이 되어 있습니다.
NVIDIA는 256개의 스트리밍 멀티프로세서를 갖춘 MCM GPU(64 x4, 1GHz 클럭, 인터커넥트는 768GB/s, 메모리 대역폭 3TB/s)가 128개의 SM을 갖춘 빅 칩과 비교해 45.5% 빠르고, SLI와 비교해도 26.8% 성능이 높다고 합니다. 뭐 빅칩보다 SM 수가 두배니까 성능이 높은 건 당연하고, 캐시와 인터커넥트도 늘었으니 SLI보다 성능이 더 나오는 것도 맞겠죠.