황가놈 덕분에 VRAM 많이 필요한 AI 모델들은 개인 PC에서 학습은 고사하고 추론도 안되었는데, Apple Silicon 통합 메모리가 대역폭이 생각보다 낮지 않다는 점을 생각해서 이 위에서 구동하는 작업이 활발하게 나오네요.
실제로 구동해 보니, 4090 4 Way 만큼은 아닌데, M1 Ultra 128GB 에서 최대 VRAM 할당인 96GB로 잘 돌아갑니다.
일단, DDR4나 DDR5로 PC에서 그냥 CPU 연산 받는 것 보다 훨씬 빠르게 도네요.
특히, 이번 M2 Ultra가 SSD 제외 풀옵션으로 196GB인데, 대략 950만원 언더로 구매 가능한데 LLAMA 65B는 생으로 돌아갈 것 같네요...
프로젝트 보니 학습 부분도 구현하고자 하는데, 이러다가 상대적 가성비(?)라 불리게 될 것 같습니다.