DNN학습을 할 때.... 메모리를 꽉꽉 채워서 batch(입력 데이터의 수)를 넣을 수 있다는 의미지요.
다만 아무리 Tesla 라인업 이라도 (A100부터 Tesla라는 명칭은 사라졌지만요) double precision(DP)을 사용할 것 아니면, 깡 single precision (FP32라 하는) FLOPS가 높은 암페어 시리즈에 밀리더군요.
VRAM이 HBM 32GB인 V100이 GDDR6X 24GB인 3090보다 batch사이즈를 많이 꾸겨넣는 상황이라도..... 3090은 35.5TFLOPS, V100은 14.13TFLOPS라서.... 2배 넘는 FLOPS는 어쩔 수 없....
이 추세는 계속 이어져서, (원래라면 Tesla 라인인) H100이 48TFLOPS찍을 때 ADA 풀칩인 AD102가 95.42 TFLOPS 정도 예상되니, 저렴한 RTX카드를 연산에 사용하는 곳에서는 기쁘기 그지 없습니다. (4000시리즈가 얼마나 하던, x100 시리즈는 최소 1~2천만원이니... )
물론 VRAM크기가 하이퍼스케일급 모델을 학습하는데는 중요하지만, 또 너무 하이퍼스케일급으로 가면 VRAM은 고사하고 CPU메모리나 NVMe스토리지 까지 사용해서 모델을 학습하는 솔루션 밖에 없더군요.