화웨이가 핫 칩스 31에서 AI 트레이닝 SoC를 위한 다빈치 아키텍처에 대해 소개했습니다. 작년에는 이 아키텍처를 사용한 어센드 310, 어센드 910, 기린 810을 발표한 바 있지요.
이 프로세서이는 HBM2E 메모리가 들어갑니다. 얼마 전에 SK 하이닉스가 발표했던 그 칩이죠.
다빈치 코어는 3개로 나뉩니다. 맥스, 라이트, 타이니. 구분은 쉽죠? 가장 큰게 맥스인데 1사이클에 8192개의 MAC 연산을 합니다. 타이니는 512개밖에 안됩니다.
어센드 310은 12nm 공정, 반정밀도 8TFOPs의 성능을 지닙니다. 910은 7nm EUV 공정으로 개선해 1개의 다이에 32개의 다빈치 코어를 탑재, 반정밀도 256TFOPs의 성능을 냅니다. 소비 전력은 350W를 유지.
어센드 910의 연산 밀도는 테슬라 V100과 구글 TPU v3를 넘어섭니다. 화웨이는 2048개 노드의 AI 연산 서버도 설계하고 있는데, 전체 성능은 512페타플롭스에 달합니다.