<거대한 메모리 대역폭>
- 애플은 발표 도중 400GB/s 대역폭을 매우 강조했음.
- 이는 너무나도 큰 수치이기 때문에 먼저 확인해봐야 할 부분임.
- 코어 클럭, L1, L2 캐시에서는 아무 변화가 없었음.
- 그러나 시스템 캐시는 큰 변화가 있음 > 용량이 8MB에서 48MB로 크게 증가함.
- 그러나 더 복잡한 구조, 더 큰 용량, LPDDR5의 타이밍 증가는 메모리를 약간 느리게 만듬.
- 정확히는 M1 대비 메모리 액세스 시간이 약 15ns 느려짐. (128MB 테스트 기준)
- 그러나 아마 거대한 용량 증가로 캐시 적중율이 높아 실제 성능 하락은 거의 없을 것.
- 400GB/s 대역폭은 서버급의 엄청난 칩에서나 가능한 것으로, CPU 코어도 이런 대역폭을 사용할 수 있는지가 의문이었음.
- 불행히도 그렇지는 않음 > CPU 코어는 400GB/s 대역폭을 완전히 활용하지는 않음.
- 단일 스레드로 메모리에 최대 102GB/s의 부하를 줄 수 있음.
- 이는 매우 인상적이며 여러 면에서 업계의 다른 어떤 설계보다 엄청남.
- M1에서는 CPU 코어가 메모리 대역폭의 한계에 가로막혔음.
- 이번에는 반대의 상황임: CPU 코어 성능의 한계가 메모리 대역폭보다 작음.
- 4개 이상의 성능코어 스레드를 사용해도 메모리에 224GB/s 이상의 부하를 줄 수 없었음.
- 효율 코어 스레드까지 같이 동작했을 때 최대 243GB/s의 부하를 줄 수 있었음.
- 이는 물론 거대한 것이고 업계의 다른 어떤 설계도 무색하게 만들 수 있지만 400GB/s라는 한계만큼은 아님.
- 그렇다면 M1 Max의 대역폭은 왜 그렇게 큰 것일까?
- GPU 때문이라고 말할 수 있겠지만, 3D 렌더링에서도 메모리에 90GB/s 까지의 부하만 걸림.
- GPU가 400GB/s를 거의 온전히 사용하는 작업이 있겠지만, 지금은 그게 뭔지 잘 모르겠음.
- 아마 CPU, GPU, NPU 등을 동시에 사용하는 작업일 것.
- M1 Max의 새로운 미디어 엔진은 이제 ProRes RAW 형식을 디코딩 및 인코딩할 수 있음.
- 우리는 비트레이트 1.59Gbps의 5K 12비트 비디오를 테스트함.
- M1 Max는 실시간으로 재생할 수 있을 뿐만 아니라 여러 배의 속도로 즉시 탐색할 수 있음.
- 5950X 에서 동일한 작업을 수행하면 프레임은 한 자리수임.
<전력 소모 - 넓은 범위, 정해진 TDP는 없음>
- 애플은 칩 정보에서 TDP를 광고하지 않음.
- 아마 그런 것이 실제로 존재하지 않기 때문일 것임 > 발열에 따라 유동적으로 전력 제한을 설정할 것.
- 그러나 다양한 작업마다 평균 전력 소모는 측정할 수 있음
- 아이들 상태에서 0.2W > 경쟁사에 비해 매우 낮은 수치로, 맥북의 환상적인 배터리타임을 설명해줌.
- 싱글 스레드 워크로드에서는 약 11W 소모한다고 나오지만, 벽면 AC 전력에서는 8.7W로 나옴.
- 즉, 소프트웨어가 사용량을 과장해서 보고했을 가능성이 있음.
- 메모리 부하가 거의 없는 워크로드에서는 약 5W의 전력소모를 나타냄.
- 즉, 실제로 CPU 클러스터는 약 4~5W만 소모하여 M1과 크게 차이나지 않는 수준인 것으로 보임.
- 아마 M1보다 높은 패키지 전력소모는 M1보다 훨씬 큰 메모리 시스템 때문일 가능성이 높음.
- 멀티 스레드 워크로드에서는 패키지 기준 34~43W, 벽면 AC 전력 기준 40~62W를 소모함.
- 차이가 커지는 경우는 DRAM을 많이 사용하는 워크로드인 것으로 보아 추가적인 전력 소모는 DRAM 때문일 것.
- GPU는 Aztec High Offscreen 기준 패키지 전력 56.8W를 기록했으며, GPU 자체는 43W를 소모함.
- CPU와 GPU에 동시 부하를 걸었을 때는 패키지 전력 92W, 벽면 AC 전력 120W를 소모함.
- 이러한 전력 소모는 꽤 높은 수치임.
- 이러한 부하가 얼마나 오래 지속되는지 테스트하지는 않았지만, 시스템은 온도가 버티는 최대한으로 성능을 유지하는 것으로 보임.
- i9-11980HK와 RTX3080 모바일을 탑재한 MSI GE76 노트북과 비교해 봄.
- 단일 스레드 워크로드에서 애플은 인텔의 최고 CPU에 비해 엄청난 성능과 전력 이점을 제공.
- 시네벤치는 M1 Max의 점수가 조금 낮은 드문 경우임.
- 그러나 M1 Max가 8.7W, 인텔이 43.5W를 소모함에도 불구하고 둘의 점수는 거의 비슷함.
- 다른 벤치마크에서는 애플의 점수가 크게 앞서거나 혹은 비슷함.
- 애플 실리콘과 인텔은 전성비가 2.5~3배 차이남.
- 멀티 스레드 워크로드에서 인텔은 패키지 80W, AC 전력 기준 105~110W를 소모함.
- 애플이 더 높은 성능으로도 4~6배의 전성비를 보여주기 때문에, 비슷한 성능에서는 전성비 차이가 더 클 것임.
- Aztec High Offscreen에서 RTX 3080은 200W를 사용하며 266fps, M1 Max는 70W를 사용하며 307fps를 기록.
- 인텔 CPU와 엔비디아 GPU에 동시 부하를 걸면 최대 256W를 사용, 이는 애플의 두 배 이상.
- i9-11980HK는 별로 효율적인 칩이 아니며, AMD 5980HS는 더 나을 것.
- 하지만 그래도 애플이 훨씬 앞서 있을 것으로 추측함.
<CPU 싱글 스레드 성능: M1과 큰 차이 없음>
- M1 Max는 8개의 성능 코어와 2개의 효율 코어로 구성됨.
- M1과 똑같은 세대의 CPU IP를 사용.
- 성능 코어 클럭: 싱글코어에서 피크 3228MHz, 4코어 활성화 시 3036MHz
- 효율 코어 클럭: 피크 2064MHz
- 4코어짜리 클러스터 2개로 구성되며 완전히 별도로 동작 가능하기 때문에, 하나의 클러스터에서는 4코어 3036MHz로 동작하는 동시에 반대쪽 클러스터는 싱글코어 3228MHz로 동작할 수도 있음.
- M1 Max는 워크로드에 따라 경쟁사들의 다른 칩보다 낫거나 비슷하지만 M1에 비해 크게 나아지지는 않았음.
- 여전히 노트북 칩 중 최고 수준이며 데스크탑 최상위 칩과 동등하지만 지평을 바꿀 정도는 아님.
<CPU 멀티 스레드 성능: 진정한 괴물>
- 여태까지의 애플 실리콘 중 가장 거대한 칩으로, 인텔과 AMD의 최상위 노트북용 칩을 분명하게 앞서고 있음.
- 성능 차이는 매우 크며, 메모리를 혹사시키는 워크로드에서 CPU의 성능을 받쳐줄 수 있는 메모리 시스템이 얼마나 진보된 것인지 보여줌.
- SPECint에서 경쟁사 노트북용 칩보다 37% 우수하며, 전성비도 매우 우수함.
- 심지어는 11900K나 5800X 같은 데스크탑용 칩을 능가함.
- SPECfp에서는 압도적이라 비교군이 없음. 두 번째로 뛰어난 11980HK의 두 배에 달하는 성능.
- 심지어 패키지 전력이 142W인 16코어 5950X를 앞서는 결과를 보여줌.
- 이건 정말 터무니없고 우리가 본 적 없는 상황임.
- 효율 코어를 빼고 8개의 성능 코어만 활성화하면 성능이 약 7~9% 내려감.
- 효율 코어 갯수가 줄었기 때문에 전체 멀티스레드 성능에서 M1 대비 효율 코어의 비중이 훨씬 적음.
- 특정 워크로드에서 애플이 현저히 좋은 결과를 나타내는 것은 이 칩이 무엇에 중점을 두고 설계되었나를 질문하게 함.
- 이런 설계를 본 적이 없기 때문에 성급히 결론을 낼 수는 없지만, 비디오 편집/오디오 마스터링/컴파일링 등 대규모 생산성 앱에 최적화하고 있다고 유추해볼 수 있음.
- 이는 모두 M1 Max의 마이크로아키텍쳐 특성이 빛을 발할 수 있는 분야이며, 다른 어떤 경쟁자보다 성능이 뛰어남.
<GPU 성능: 2~4배 향상된 생산성, 약간의 게임>
- M1 Max의 진짜 주인공은 GPU와 이를 뒷받침해주는 시스템.
- 570억개에 달하는 거대한 트랜지스터 중 얼마만큼이 GPU인지는 분명하지 않지만, 4배나 증가한 요소는 GPU 뿐.
- 작년에 애플은 경쟁력 있는 노트북용 하이엔드 CPU를 개발할 수 있다는 걸 증명했고, 올해는 GPU에서도 같은 시도를 함.
- GPU에는 거대한 메모리 대역폭이 필요함.
- 일반적으로 외부 GPU에는 HBM2나 GDDR6 같은 고속 인터페이스를 사용하는 전용 DRAM이 제공됨.
- 그러나 애플은 512비트 크기의 놀라운 LPDDR5 메모리로 이를 충족시킴.
- 이런 식으로 LPDDR을 사용하는 것은 불가능하진 않았지만, 소비자 제품에서는 처음.
- 이렇게 확보한 409.6GB/s의 메모리 대역폭은 엔비디아의 가장 빠른 노트북용 그래픽이 제공하는 것과 맞먹음.
- 이는 또한 궁극적으로 하이엔드 GPU와 동등한 대역폭을 제공하며 전력을 매우 절감하고 발열을 줄임.
- Aztec Ruins 벤치마크에서 애플은 RTX3080보다 단지 6프레임 뒤처져 2위를 차지함.
- 이 벤치마크는 Metal을 우수하게 구현하기 때문에, 모든 것이 잘 최적화되었을 때 애플이 도달할 수 있는 수준을 보여줌.
- 또한 M1과 M1 Pro, M1 Max는 거의 정확하게 2배씩의 성능 향상을 보여줌.
- 게이밍 벤치마크에서, 불행하게도 애플의 강력한 GPU는 제대로 발휘되지 못함.
- M1 Max는 섀도우 오브 툼 레이더와 보더랜드의 벤치마크에서 최하위를 차지.
- M1 Max는 게이밍에서 나쁜 경험을 제공함. 게임을 즐긴다면 좋지 못한 선택.
- 어도비 프리미어 프로의 Puget 벤치마크 점수는 RTX3080을 탑재한 하이엔드 데스크탑에 견줄 만한 점수임.
- 다빈치 리졸브에서도 훌륭한 성능을 보여주며, GPU 가속을 통해 이점을 누릴 수 있음.
<결론>
- M1 Max는 파워 유저를 염두에 두고 만들어진 진정한 새로운 SoC임.
- 크게 기대했음에도 불구하고 그 이상을 보여주는 성능.
- CPU 파트에서는 성능 코어를 2배로 늘리고 자체 L2를 포함한 새로운 클러스터로 확장.
- 이를 통해 노트북에서는 불가능하다고 여겨지던 성능 수치를 달성함.
- 경쟁사의 노트북용 칩을 능가할 뿐 아니라, 최고의 데스크탑 시스템과 경쟁할 수 있음.
- M1 Max를 완전히 앞지르기 위해서는 서버급 하드웨어가 필요함. 터무니없는 성능임.
- GPU 파트에서는 M1 대비 2~4배 좋아져 프로 유저들에게 매우 우수한 생산성을 제공함.
- 게임은 macOS 생태계에서 아주 애매한 위치에 있음. 아마 새 칩의 성능을 게임에서 활용하기 위해서는 매우 오랜 시간이 필요할 듯.
- 컨텐츠 제작을 용이하게 하는 미디어 엔진 또한 M1 Max의 주요 장점 중 하나임.
- 특히 ProRes를 사용한다면 워크플로우가 몇 배 이상 향상될 것임.
- 따라서 이 분야의 많은 사용자들이 빠르게 새로운 맥북을 구매하게 될 것.
- 전반적 성능, 특정 분야 가속, 전력 효율성의 조합은 현재 다른 플랫폼에서는 찾아볼 수 없는 수준.
- 새로운 맥북 프로는 파워 유저들을 위한 최고의 노트북일 뿐 아니라 작업에 가장 적합한 기기일 것.
게이밍 벤치 부분에 로제타 언급한 걸 번역해서 넣으시면 화룡정점 일 것 같습니다.