구글은 자신들의 클라우드 서비스를 분석한 결과, AI/ML 추론 워크로드에서는 여전히 CPU를 가장 많이 쓴다고 밝혔습니다.
AI는 훈련과 추론의 두 가지로 나뉩니다. 훈련은 계속해서 확장되는 AI 모델을 커버하기 위해 방대한 메모리 용량과 고성능 컴퓨팅이 필요합니다. 신형 AI 모델은 수십억개의 매개변수를 다루기에 많은 코어가 병렬로 작동하는 프로세서가 필요합니다. GPU 이야기입니다.
하지만 추론의 경우 그렇게까지는 필요하지 않습니다. 실시간 추론 성능을 위해서는 레이턴시와 처리량이 중요합니다. 그래서 GPU가 높은 성능을 내지만 실제로는 CPU를 쓰는 고객이 더 많습니다. CPU는 고성능 GPU나 특수한 AI 가속 장치보다 싸고 쓰기 쉽습니다. CPU가 없는 시스템은 없으니 거기에 맞춰 작은 AI 모델을 배포하기도 합니다. 또 AVX-512나 AMX 같은 CPU 최적화도 계속해서 나오고 있습니다.
인텔은 200억 개의 매개변수를 지닌 모델까지는 CPU에서 제대로 작동하지만, 더 큰 걸 원한다면 전문 가속 장치를 써야 한다고 말합니다. 일반적으로 수십억 개의 매개변수는 CPU에서 처리할 수 있습니다. GPT-4나 제미나이 같은 AI 모델은 1조 이상의 매개변수를 다룰 수 있지만 이건 텍스트와 비디오를 모두 고려한 것이고, 특정 분야에 맞춘 거라면 몇 개의 CPU로 로컬이나 클라우드 서버에서 커버할 수 있습니다. 이쪽이 더 저렴하고, 더 단순한 방법입니다.