Cerebras는 웨이퍼 스케일 엔진이라는 프로세서를 2년 전에 발표했습니다. 12인치 웨이퍼 수준의 크기에 16nm 공정으로 만든 대형 AI 프로세서지요.
이번에는 TSMC 7nm 공정으로 2세대 웨이퍼 스케일 엔진을 만들었는데, 그 수율이 100%라고 합니다. 웨이퍼 한 장에서 저 프로세서 한 개밖에 안 나오겠지만, 어쨌건 불량은 없다는 소리.
Cerebras Wafer Scale | |||
AnandTech | Wafer Scale Engine Gen1 |
Wafer Scale Engine Gen2 |
Increase |
AI Cores | 400,000 | 850,000 | 2.13x |
Manufacturing | TSMC 16nm | TSMC 7nm | - |
Launch Date | August 2019 | Q3 2021 | - |
Die Size | 46225 mm2 | 46225 mm2 | - |
Transistors | 1200 billion | 2600 billion | 2.17x |
(Density) | 25.96 mTr/mm2 | 56.246 mTr/mm2 | 2.17x |
On-board SRAM | 18 GB | 40 GB | 2.22x |
Memory Bandwidth | 9 PB/s | 20 PB/s | 2.22x |
Fabric Bandwidth | 100 Pb/s | 220 Pb/s | 2.22x |
Cost | $2 million+ | arm+leg | ‽ |
이건 스펙 비교입니다. 제조 공정이 16nm에서 7nm가 되면서 거의 모든 스펙이 2배가 됐군요. 가격도 두 배가 되려나.
단순히 제조 공정을 바꿔서 수율이 100%가 된 건 아니고, 제조 결함을 커버할만한 시스템을 도입했습니다. 1세대에선 결함을 커버할 만큼의 추가 코어를 1.5% 넣었지만 지금은 그만큼 필요하지 않다고 파악해 숫자를 더 줄였습니다.
이렇게 큰 프로세서를 만드는 이유는 이렇습니다. 텐서플로우의 각 계층의 칩의 물리적인 부분에 맵핑해, 데이터가 메모리에서 기다릴 필요 없이 다음 파이프라인으로 계속 넘겨가며 바로바로 연산해 냅니다. 컴파일러와 프로세서는 배치 크기에 상관 없이 작업을 수행해 냅니다.
이 프로세서를 사용하면 42U 랙에 170만개의 AI 코어, 46U 랙에 250만개의 코어를 구성할 수 있습니다. 출시는 3분기, 가격은 수백만 달러입니다.