인텔이 2세대 제온 스케일러블 프로세서를 발표했습니다. 코드네임 캐스케이드 레이크-AP, 2017년에 나온 스카이레이크-SP의 1세대 제온 스케일러블 프로세서의 후속작입니다.
스카이레이크-SP를 이은 아키텍처, 2다이/1패키지 제온 플래티넘 9200 출시
1세대 제온 SP와 같은 LGA 3647 소켓, 칩셋도 여전히 인텔 C620(루이스버그)를 씁니다. 메인보드 바이오스 업데이트로 2세대 제온 SP를 지원 가능. CPU 코어 수는 최대 28코어, 1개의 코어에 1MB의 L2 캐시, 38.5MB의 LLC 같은 스펙은 1세대와 같습니다. 제조 공정은 14nm인데 그게 14nm+인지 14nm++인지 모릅니다. 나중에 설명할 인텔 DL 부스트 지원만 빼면 그냥 스카이레이크-SP와 같다고 해야 할지도.
브랜드 | 제온 5600 시리즈 | 제온 E5 | 제온 E5 v2 | 제온 E5 v3 | 제온 E5 v4 | 제온 SP | 2세대 제온 SP |
---|---|---|---|---|---|---|---|
코드네임 | 웨스트메어-EP | 샌디브릿지-EP | 아이비브릿지-EP | 하스웰-EP | 브로드웰-EP | 스카이레이크-SP | 캐스케이드레이크-SP |
출시년도 | 2010년 | 2012년 | 2013년 | 2014년 | 2016년 | 2017년 | 2019년 |
제조 공정 | 32nm | 32nm | 22nm | 22nm | 14nm | 14nm | 14nm |
CPU 코어(최대) | 6 | 8 | 12 | 18 | 22 | 28 | 56 |
다이 구성 (HCC / MCC / LCC) | 6 | 8 | 15/10/6 | 18/12/8 | 24/15/10 | 28/18/10 | 28/18/10 |
패키지 당 다이 수 | 1 | 최대 2 | |||||
하이퍼스레딩 | 지원 | ||||||
L2 캐시 (코어 1ㄱ개) | 256KB | 1MB | |||||
LLC 캐시 (코어 1개당) | 2MB | 2.5MB | 1.375MB | ||||
LLC 캐시 (다이 당 최대) | 12MB | 20MB | 30MB / 20MB / 15MB | 45MB / 30MB / 20MB | 55MB / 37.5MB / 25MB | 38.5MB / 24.75MB / 13.75MB | |
코어 마이크로 아키텍처 | 네할램 | 샌디브릿지 | 샌디브릿지(개선) | 하스웰 | 하스웰(개선) | 스카이레이크 | |
코어 인터커넥트 | - | 링 | 메쉬 | ||||
CPU 소켓 | 소켓 B (LGA1366) | 소켓 R (LGA2011) | 소켓 R3 (LGA2011v3) | 소켓 P (LGA3647) | 소켓 P (LGA3647) / BGA (5903ball 2 다이 구성) | ||
최대 소켓 | 2 | 2/4/8 | 2/4/8 | ||||
최대 메모리 용량 | 288GB | 384GB | 768GB | 1.5TB | 1.5TB | 1.5TB | 4.5TB (Optane DCPM 이용시) |
메모리 | DDR3-1333 | DDR3-1600 | DDR3-1866 | DDR4-2133 | DDR4-2400 | DDR4-2666 | DDR4-2933 |
옵테인 DC 퍼시스턴트 메모리 | 지원 안함 | 지원 | |||||
메모리 채널 수 (CPU 소켓 당) | 3 | 4 | 6 | 6/12 | |||
명령 세트 | SSE4.2 | SSE4.2 / AVX | SSE4.2 / AVX2 | SSE4.2 / AVX2 / TSX | SSE4.2 / AVX2 / TSX / AVX512 | SSE4.2 / AVX2 / TSX / AVX512 / Intel DL Boost | |
QPI / UPI (다이 당) | 2x 최대 6.4GT / s | 2x 최대 8GT / s | 2x 최대 8GT / s | 2x 최대 9.6GT / s | 3x 최대 10.4GT / s | 3x 최대 10.4GT / s | |
PCI Express | PCI Express Gen2 (칩셋 쪽) | PCI Express Gen3 | |||||
PCI Express 레인 | 36 (칩셋 쪽) | 40 | 64 (MCC / LCC는 48) | 48 | |||
DMI | - | DMI / Gen2 (4 레인) | DMI / Gen3 (4 레인) | ||||
칩셋 | 5500 (Tyrusburg) | C600 (Patsburg) | C610 (Wellsburg) | C620 (Lewisburg) |
제온 플래티넘 9200 패키지 내의 구조
2세대 제온 스케일러블 프로세서의 가장 큰 변화는 제온 플래티넘 9200의 출시입니다.
2개의 캐스케이드레이크-AP 다이를 하나의 패키지에 탑재했습니다.
3개의 UPI(제온 CPU와 CPU를 연결하는데 쓰는 인터커넥트) 중 1개는 내부 다이의 연결, 나머지 2개는 두번째 소켓의 패키지에 탑재된 2개의 다이에 직접 연결합니다.
그럼 패키지 내부의 다이 연결은 70ns, 패키지 외부의 다이는 130ns의 딜레이로 액세스됩니다. 1개의 패키지에서 쓸 수 있는 메모리 채널은 최대 12채널, 패키지 당 메모리 대역폭은 281GB/s, 기존의 140.5GB/s의 두배입니다.
1세대 제온 SP는 DDR4-2666까지 지원했으나 2세대는 DDR4-2933까지 지원합니다. 1패키지 1다이 제품의 대부분은 인텔 옵테인 DC 퍼시스턴트 메모리를 지원하며, 1패키지의 메모리 용량을 4.5TB까지 늘릴 수 있습니다.
다만 2다이 1패키지의 제온 플래티넘 9200은 LGA 3647로 나오지 않고 메인보드에 직접 장착하는 BGA 패키지로만 출시합니다. 그리고 최대 TDP는 LGA 버전의 두배인 400W입니다.
인텔은 지금까지 그랬던대로 1다이 1패키지도 출시하고, 제온 플래티넘 9200은 2다이 1패키지로 출시해 나갑니다. 제온 플래티넘 9200의 면적이 큰 것도 2다이에 소켓이 전혀 달라서 그렇습니다.
VNNI/DL 부스트를 지원해 INT8를 이용한 딥 러닝 추론 성능을 285배로
2세대 제온 SP에서 새로 도입된 기능 중에 VNNI (Vector Neural Network Instructions)라는 AVX512 확장 명령이 있습니다.
제온 파이 시리즈에서 이미 도입돼 vpdpbusd(8비트), vpdpswwd(16비트)의 2가지 명령어 세트가 있습니다. 인텔은 이를 묶어 인텔 DL 부스트라고 부릅니다.
vpdpbusd에서 8비트 정수(INT8)을 CPU가 INT32 어큐뮬레이터를 이용해 더 효율적으로 연산합니다. 기존의 AVX-512 명령은 3개의 명령(vpmaddubsw, vpmaddwd, vpaddd)을 실행할 필요가 있어 3사이클이 걸렸습니다. 그러나 vpdpbusd는 INT32 어큐뮬레이터에 1클럭 사이클로 저장하기에 처리 속도가 3배가 됩니다.
인텔 제온 프로세서는 데이터센터에서 딥러닝 추론에 쓰는 경우가 많습니다. 이런 추론 연산에선 정확도가 높을 필요가 없기에 FP32와 FP16은 쓰지 않고, INT8로 연산 성능을 높입니다.
VNNI를 쓰려면 프로그램 코드가 지원해야 합니다.
인텔은 1세대 제온 SP에서 Caffe를 쓴 딥러닝 성능을 1로 가정했을 경우, MKL-DNN으로 최적화하면 50배가 된다고 설명합니다. 또 VNNI 최적화, CPU 성능 향상까지 더하면 2세대 제온 SP는 285배의 성능 향상 효과가 있습니다.
RDT, SST를 효율적으로 활용하는 기능과 하드웨어 사이드채널 공격 방어
2세대 제온 SP는 Intel RDT(Resource Director Technology)라는 서버 자원 관리 기능이 추가됩니다. 특정 스레드를 모니터링해 요청이 많거나 대역폭 압박이 많은 스레드를 검출, 메모리 대역 할당/캐시 할당 순서를 바꿔 보다 효율적으로 사용합니다.
인텔 SST(Speed Select Technology)는 CPU에서 실행하는 작업 내용을 CPU가 동적으로 관리해, 우선순위가 높은 작업의 코어는 클럭을 올리고 그렇지 않으면 낮춰 전력 사용량을 줄이며, 우선도가 높은 작업은 터보 부스트로 진입하도록 돕습니다.
적은 코어가 고클럭, 많은 코어가 저클럭으로 작동하는 등의 프로파일이 있습니다. 바이오스 설정 등에 따라 작동 모드가 달라집니다. 기존 제온에선 SKU로 구분했으나 스피드 셀렉트로 관리자가 고를 수 있게 됐습니다. 다만 이를 지원하는 프로세서는 제품명 뒤에 Y가 붙은 프로세서(8260Y, 6240Y, 4214Y) 뿐입니다.
분기 예측을 악용한 사이드 채널 공격 방어도 추가됐습니다. Variant 1은 OS/가상화 소프트웨어에서 해결 완료, Variant 2는 하드웨어 분기 명령 처리와 OS/가상화 소프트웨어에서 해결, Variant 3은 메모리 오류를 하드웨어 강화로 해결, Variant 3a는 하드웨어 해결, Variant 4는 하드웨어/OS/가상화 소프트웨어/런타임에서 해결, L1TF는 Variant 3의 하드웨어 패치로 해결합니다.
이로서 소프트웨어 패치에 비해 성능 하락이 줄었다고 합니다.
스펙/가격
용도 | 제품명 | 프로세서 | CPU 코어 수 | 베이스 클럭 | 부스트 클럭 | 캐시 | TDP | Optane DCPM 지원 | 가격 (USD) |
---|---|---|---|---|---|---|---|---|---|
최고 성능 | Xeon Platinum 9200 | 9282 | 56 | 2.6GHz | 3.8GHz | 77MB | 400W | - | 미정 |
9242 | 48 | 2.3GHz | 3.8GHz | 71.5MB | 350W | - | 미정 | ||
9222 | 32 | 2.3GHz | 3.7GHz | 71.5MB | 250W | - | 미정 | ||
9221 | 32 | 2.1GHz | 3.7GHz | 71.5MB | 250W | - | 미정 | ||
고성능 | Xeon Platinum 8200 시리즈 | 8280 | 28 | 2.7GHz | 4GHz | 38.5MB | 205W | ○ | 100,009 달러 |
8270 | 26 | 2.7GHz | 4GHz | 35.75MB | 205W | ○ | 7,405 달러 | ||
8268 | 24 | 2.9GHz | 3.9GHz | 35.75MB | 205W | ○ | 6,302 달러 | ||
8256 | 24 | 3.8GHz | 3.9Ghz | 16.5MB | 105W | ○ | 7,007 달러 | ||
Xeon Gold 6200/5200 시리즈 | 6254 | 18 | 3.1GHz | 4GHz | 24.75MB | 200W | ○ | 3,803 달러 | |
6244 | 8 | 3.6GHz | 4.4GHz | 24.75MB | 150W | ○ | 2,925 달러 | ||
6242 | 16 | 2.8GHz | 3.9GHz | 22MB | 150W | ○ | 2,529 달러 | ||
6234 | 8 | 3.3GHz | 4GHz | 24.75MB | 130W | ○ | 2,214 달러 | ||
6226 | 12 | 2.8GHz | 3.7GHz | 19.25MB | 125W | ○ | 1,776 달러 | ||
5222 | 4 | 3.8GHz | 3.9GHz | 16.5MB | 105W | ○ | 1,221 달러 | ||
5217 | 8 | 3GHz | 3.7GHz | 16.5MB | 115W | ○ | 1,522 달러 | ||
5215 | 10 | 2.5GHz | 3.4GHz | 16.5MB | 85W | ○ | 1,221 달러 | ||
Xeon Silver 4200 시리즈 | 4215 | 8 | 2.5GHz | 3.5GHz | 16.5MB | 85W | ○ | 794 달러 | |
보급형 | Xeon Platinum 8200 시리즈 | 8276 | 28 | 2.2GHz | 4GHz | 38.5MB | 165W | ○ | 8,719 달러 |
8260 | 24 | 2.4GHz | 3.9GHz | 35.7MB | 165W | ○ | 4702 개 달러 | ||
8253 | 16 | 2.2GHz | 3GHz | 35.7MB | 165W | ○ | 3,115 달러 | ||
Xeon Gold 6200/5200 시리즈 | 6252 | 24 | 2.1GHz | 3.7GHz | 35.75MB | 150W | ○ | 3,665 달러 | |
6248 | 20 | 2.5GHz | 3.9GHz | 27.5MB | 150W | ○ | 3,072 달러 | ||
6240 | 18 | 2.6GHz | 3.9GHz | 24.85MB | 150W | ○ | 2,445 달러 | ||
6238 | 22 | 2.1GHz | 3.7GHz | 30.25MB | 140W | ○ | 2,612 달러 | ||
6230 | 20 | 2.1GHz | 3.9GHz | 27.5MB | 125W | ○ | 1,894 달러 | ||
5220 | 18 | 2.2GHz | 3.9GHz | 24.75MB | 125W | ○ | 1,555 달러 | ||
5218 | 16 | 2.3GHz | 3.9GHz | 22MB | 125W | ○ | 1,273 달러 | ||
Xeon Silver 4200 시리즈 | 4216 | 16 | 2.1GHz | 3.2GHz | 16.5MB | 100W | - | 1,002 달러 | |
4214 | 12 | 2.2GHz | 3.2GHz | 16.5MB | 85W | - | 684 달러 | ||
4210 | 10 | 2.2GHz | 3.2GHz | 13.75MB | 85W | - | 501 달러 | ||
4208 | 8 | 2.1GHz | 3.2GHz | 11MB | 85W | - | 417 달러 | ||
Xeon Bronze 3200 시리즈 | 3204 | 6 | 1.9GHz | 1.9GHz | 8.25MB | 85W | - | 213 달러 | |
스피드 셀렉트 지원 | Xeon Platinum 8200 시리즈 | 8260Y | 24 | 2.4GHz | 3.9GHz | 35.75MB | 165W | ○ | 5,320 달러 |
Xeon Gold 6200/5200 시리즈 | 6240Y | 18 | 2.6GHz | 3.9GHz | 24.75MB | 150W | ○ | 2,726 달러 | |
Xeon Silver 4200 시리즈 | 4214Y | 12 | 2.2GHz | 3.2GHz | 16.5MB | 85W | - | 768 달러 | |
NFV 전문 | Xeon Gold 6200/5200 시리즈 | 6252N | 24 | 2.3GHz | 3.6GHz | 35.75MB | 150W | ○ | 3,984 달러 |
6230N | 20 | 2.3GHz | 3.5GHz | 27.5MB | 125W | ○ | 2,046 달러 | ||
5128N | 16 | 2.3GHz | 3.9GHz | 22MB | 105W | ○ | 1,375 달러 | ||
VM 고밀도 서버 | Xeon Gold 6200/5200 시리즈 | 6262V | 24 | 1.9GHz | 3.6GHz | 33MB | 135W | ○ | 2,900 달러 |
6222V | 20 | 1.8GHz | 3.6GHz | 27.5MB | 115W | ○ | 1,600 달러 | ||
롱 라이프/저발열 | Xeon Gold 6200/5200 시리즈 | 6238T | 22 | 1.9GHz | 3.7GHz | 30.25MB | 125W | ○ | 2,742 달러 |
6230T | 20 | 2.1GHz | 3.9GHz | 37.5MB | 125W | ○ | 1,988 달러 | ||
5220T | 18 | 2.2GHz | 3.9GHz | 24.75MB | 105W | ○ | 1,727 달러 | ||
Xeon Silver 4200 시리즈 | 4209T | 8 | 2.2GHz | 3.2GHz | 11MB | 70W | - | 501 달러 | |
검색 애플리케이션 특화 | Xeon Gold 6200/5200 시리즈 | 5220S | 18 | 2.7GHz | 3.9GHz | 24.75MB | 125W | ○ | 2,000 달러 |
그리고 인텔은 2다이 1패키지의 제온 플래티넘 9282, 1다이 1패키지의 최상위 모델인 제온 플래티넘 8280, 1세대 제온 SP의 최상위 모델인 제온 플래티넘 8180, 경쟁 상대인 AMD 에픽과의 성능을 비교했습니다.
제온 플래티넘 9282는 8180에서 다이/코어 수개 두배로 늘어난 만큼의 성능을 냅니다. 높아진 성능에 비해 I/O 병목 현상이 보이지 않는 게 특징. 1다이/1패키지끼리 비교하면 몇 % 정도 성능 향상에 그칩니다.