신규 M1 칩들이 GPU 성능이 많이 좋아졌다고 해서 Tensorflow 성능은 어떨까 궁금했는데, 마침 따끈따끈한 벤치마크 자료가 있어서 찾아와 보았습니다.
테스트는 M1 MAX 32코어 GPU에서 Tensorflow Metal 버전으로 진행하였다고 합니다.
아래는 동일한 모델을 RTX 3090이 장착된 PC에서 돌렸을 때의 결과입니다. 혼합 정밀도와 JIT 컴파일로 추가적인 최적화가 들어가서 큰 차이를 보이는 듯 합니다.
같은 모델 중 ResNet50을 제 RTX 2080Ti PC에서도 돌려보았습니다. JIT 없이 초당 320장을 처리하는 것으로 나오네요.
----------------------
다른 유저가 같은 벤치마크 결과를 추가하였습니다.
각각 M1 7코어 GPU, RTX A100 40GB 입니다.