파이슨이 GTC 2024에서 전시한 시스템입니다. 4개의 GPU가 장착된 하나의 워크스테이션인데, 시스템 메모리와 SSD를 조합해 이 한대로 700억 매개변수의 Llama 2 모델을 실행할 수 있다고 합니다.
NVIDIA RTX 6000 Ada A100 GPU 4대를 탑재하고, 제온 W7-3435X 프로세서, DDR5-5600 512GB 메모리, 파이슨 2TB SSD 2개로 구성했습니다. 여기에 파이슨의 aiDaptiv+ 솔루션을 사용해 AI 모델 레이어를 분할해서 사용도가 떨어지는 걸 시스템 메모리로 보내고, 시스템 메모리에 남아 있는 데이터는 SSD로 보냅니다. 반대로 자주 쓰는 걸 다시 GPU로 보내기도 합니다.
파이슨은 이 정도 크기의 AI 모델을 실행하려면 일반적으로 6개의 서버와 24개의 AI GPU, 1.4TB의 비디오 메모리가 필요하다고 설명합니다. 그리고 이 미들웨어는 파이토치/텐서플로우 레이어 아래에서 실행되기에 AI 앱을 수정할 필요가 없습니다.