8월 13일 밤에 AMD는 HEDT(High End DeskTop) 시장을 위한 라이젠 프로세서의 2세대 모델인 2세대 라이젠 스레드리퍼를 공식 발표했습니다.
이번에 발표된 건 아래 4 제품입니다. 상위 2개 모델은 크리에이터와 첨단 기술 개발자를 위한 WX, 아래 2개 모델은 매니아와 게이머를 위한 X 시리즈가 됩니다.
2990WX : 32C 64T, 클럭 3.0~4.2GHz, L3 캐시 64MB, TDP 250W, 1799달러, 8월 13일에 출시
2970WX : 24C 48T, 클럭 3.0~4.2GHz, L3 캐시 64MB, TDP 250W, 1299달러, 10월 출시 예정
2950X : 16C 32T, 클럭 3.5~4.4GHz, L3 캐시 32MB, TDP 180W, 899달러, 8월 31일 출시 예정
2920X : 12C 24T, 클럭 3.5~ 4.3GHz, L3 캐시 32MB, TDP 180W, 649달러, 10 월 출시 예정
2세대 스레드리퍼는 피나클 릿지 세대의 라이젠 데스크탑 2000과 마찬가지로, Zen 아키텍처의 개량형인 Zen+를 사용하며 글로벌 파운드리의 12nm LP (Leading Performance) 공정 기술으로 제조됩니다.
Zen+는 캐시와 메인 메모리 액세스 레이턴시를 줄였습니다.
12nm 공정은 최대 클럭을 높이고 전력 사용량을 낮췄습니다.
Zen 기반 CPU는 4개의 CPU 코어를 하나의 CPU 컴플렉스(CCX)로 관리하고, 2개의 CCX를 하나의 실리콘 다이에 통합합니다. 라이젠 스레드리퍼 CPU는 이 실리콘 다이 4개가 탑재되는데, 2017년에 나온 1세대 라이젠 스레드리퍼는 그 중 2개만 실제로 사용하는 다이였지만 이번의 2세대 스레드리퍼는 4개 모두 활성화, 총 CPU 코어 수는 4 CCX x 2 다이 x 4 패키지로 최대 32개가 됩니다.
Joe Macri(Vice President & Chief Technology Officer, AMD)의 설명을 바탕으로 2세대 스레드리퍼의 구조를 봅시다.
AMD는 12nm LP 공정으로 제조된 실리콘 다이의 상위 5%를 선별해 2세대 라이젠 스레드리퍼를 만든다고 설명합니다. 이렇게 선별 작업을 거치는 이유는 안정적인 동작과 더 높은 클럭을 위해서입니다.
스레드리퍼 2990WX와 2970X는 선별한 실리콘 다이를 4개 탑재, 2950X와 2920X는 2개를 탑재합니다. 2970X는 24코어 48스레드지만 3개가 아닌 4개를 탑재합니다. 각 CCX의 최대 코어 수에 맞추지 않고 CCX의 균등한 배분을 중시했기 때문입니다. 그 결과 CCX에서 CPU 코어를 1개씩 비활성화, 실리콘 다이 1개당 6코어 12스레드가 나오고 이걸 4개 탑재해 24코어 48스레드를 실현했습니다.
X 시리즈는 실리콘 다이 2개가 더미가 되고 2920X는 실리콘 다이 1개에 6코어 12스레드가 들어갑니다. 이 2개의 실리콘 다이는 블럭 다이어그램에 ∞ 마크로 표시된 인피니티 패브릭으로 연결됩니다.
인피니티 패브릭은 AMD의 다양한 프로세서와 주변 I/O를 연결하는 데이터 전송 아키텍처를 가리킵니다. 이 인터페이스 기능 블럭은 Infinity Fabric On-Package(IFOP)라 부릅니다. Zen 세대의 CPU는 실리콘 다이 당 4개의 IFOP를 탑재하며, 라이젠 스레드리퍼의 경우 그 중 2개를 써서 상호 연결됩니다. 링크 당 대역폭은 50GB/s, 2링크는 100GB/s가 나옵니다.
2세대 스레드리퍼에서 히트 스프레더를 제거한 사진. 4개의 실리콘 다이가 서로 대칭을 이루어 배치됩니다. IFOP는 실리콘 다이에 4개 있지만, 각 다이의 모든 모서리 부분에 들어가는 것이 아니고 다이끼리 마주보는 모서리에 2개씩 배치됩니다. 따라서 서로 인접한 다이 사이에서만 연결됩니다. Zen은 이렇게 가지런히 줄을 지어 배치된 MCM 프로세서를 전제해 물리적 설계가 이루어졌습니다.
4개의 실리콘 다이가 모두 작동하는 2세대 스레드리퍼 WX 시리즈의 블럭 다이어그램입니다. 4개의 IFOP 중 3개를 다른 실리콘 다이와의 연결에 사용합니다. X 시리즈의 블럭 다이어그램에선 2개의 IFOP가 하나의 인피니티 패브릭에 연결되는데 WX 시리즈는 하나가 연결됩니다. 4개의 다이 중 3개의 다이에 연결하고 나면 1개의 IFOP가 남지요.
인피니티 패브릭 온 패키지의 물리적 배치를 나타낸 이미지입니다. IFOP는 위 그림에 나온 위치에 4개씩 배치되며, 4개가 모두 활성화되도 최대 3개의 IFOP만 사용 가능합니다. 쓰지 않는 IFOP는 낭비라 여길 수 있지만, 실리콘 다이의 물리 설계를 한가지로 통일하고 이를 대량 생산해 제조 원가를 낮추는 효과를 냅니다.
다시 2세대 스레드리퍼 WX의 블럭 다이어그램을 봅시다. 여기에서 DDR이라고 써진 부분은 2채널 메모리 인터페이스(메모리 컨트롤러)인데, WX 시리즈는 4개 중 2개의 메모리 인터페이스만 활성화됩니다. 이건 거의 같은 CPU 아키텍처를 써서 데이터센터용으로 출시된 에픽과의 차별화를 위한 부분입니다. 에픽은 실리콘 다이마다 2채널 메모리 인터페이스, 총 8채널이 필요하지만 라이젠 스레드리퍼의 메모리 인터페이스는 실리콘 다이마다 2개, 총 4채널이면 충분하다고 판단한 듯 합니다.
그리고 니어 메모리와 파 메모리의 구분이 있습니다. 니어 메모리는 실리콘 다이의 메모리 인터페이스와 직접 연결된 메모리 모듈입니다. 이 경우엔 액세스 지연이 최대 64ns입니다. 반면 파 메모리는 다른 실리콘 다이의 메모리 인터페이스와 연결된 메모리 모듈입니다. 인피니티 패브릭을 거쳐 메모리 엑세스를 하다보니 오버헤드가 커져, 엑세스가 최대 105ns가 걸립니다.
2세대 스레드리퍼는 1세대와 같은 TR4 소켓을 사용하며, 기존의 X399 메인보드에서 바이오스만 업데이트하면 사용이 가능합니다. 즉 하드웨어는 그대로지만 소프트웨어에선 달라진 점이 있습니다.
그 핵심은 Zen CPU를 제어하는 소프트웨어인 라이젠 마스터입니다. 2세대 스레드리퍼를 지원하는 라이젠 마스터 1.4에선 인터페이스와 화면 구성이 달라졌습니다.
기존의 Legacy Compatibility Mode, Memory Access Mode도 32코어 64스레드를 달성하면서 확장됐습니다. 하나씩 봅시다.
오래된 게임에서 CPU 코어 수가 너무 많으면 비정상적으로 작동하는 경우가 있습니다. Legacy Compatibility Mode는 이를 해결하는 모드입니다. 기존에는 2개의 실리콘 다이 중 한쪽을 비활성화해 8코어 16스레드, 2채널 메모리 인터페이스가 내장된 싱글 다이 CPU로 동작시켰지만 이번에는 WX 시리즈의 4개 다이 중 3개를 끌 수 있습니다.
Memory Access Mode는 확장보다는 현상 유지에 가깝습니다. 기존의 라이젠 마스터는 1세대 라이젠에서 메모리 액세스를 Local Mode와 Distributed Mode 중 하나로 지정했습니다.
Local Mode는 NUMA (Non-Unified Memory Access), 즉 CPU 코어의 실행과 메모리 액세스를 국한시켜 적극적으로 제어하는 모드입니다. 즉 해당 애플리케이션이 니어 메모리에서만 작동하도록 제어하는 모드입니다. 니어 메모리는 실리콘 다이에 내장된 로컬 메모리 인터페이스와, 여기에 연결된 메모리 모듈만 액세스하면 되니 메모리 액세스 레이턴시가 극적으로 줄어듭니다. 실시간 처리가 중요한 게임 애플리케이션에서 효과가 좋습니다.
Distributed Mode는 UMA (Unified Memory Access)에서 다른 실리콘 다이에 연결된 메모리 모듈에도 액세스를 허용하는 동작 모드입니다. 파 메모리까지 쓰도록 바꾸는 것입니다. 여기에선 파 메모리의 액세스 빈도가 증가하니 액세스 지연이 커지지만, 로컬 모드에서 2채널이었던 메모리가 4채널로 확장되면서 메모리 버스 대역폭이 2배가 됩니다. 즉 메모리 데이터 전송까지 지연 시간은 늘어니지만, 일단 전송을 시작하면 대량의 데이터를 빠르게 전송합니다.
위에서 현상 유지라고 한 이유는 이렇습니다. 2개의 실리콘 다이가 동작하는 X 시리즈는 1세대 스레드리퍼의 스펙을 그대로 이어 받았습니다. 그럼 뭐가 확장했다는 걸까요? 4개의 실리콘 다이가 모두 작동하는 WX 시리즈는 메모리 액세스 모드가 Distributed Mode로 고정됩니다. 4개의 다이 중 2개의 다이는 니어 메모리가 없으니 당연하지만, WX 시리즈와 X 시리즈의 큰 차이 중 하나입니다.
이 슬라이드는 Local Mode와 Distributed Mode에서 데이터 전송의 실제 속도를 비교한 것입니다. 하나의 실리콘 다이에서여러 데이터를 복사하는 스레드를 16개나 8개 동작한 경우, Distributed Mode의 4채널 액세스가 더 높은 메모리 대역을 보여줍니다. 반면 데이터 복사 스레드를 8개나 4개로 낮춘 경우, 현재 작동중인 CPU 코어 가까이의 니어 메모리에 액세스되는 Local Mode가 메모리 버스 대역폭이 더 높습니다. 이건 1세대 스레드리퍼와 그대로입니다.
그리고 X 시리즈에 게임 모드와 크리에이트 모드가 탑재되며, 라이젠 마스터에서 이 둘을 전환한다는 점도 같습니다.
게임 모드에서 2950X는 라이젠 데스크탑 2000 시리즈보다 메모리 액세스 레이턴시가 약간 작습니다.
Game Mode : Legacy Compatibility Mode 설정, 메모리 액세스는 NUMA의 Local Mode
Creator Mode : Legacy Compatibility Mode 잘못된 메모리 액세스는 UMA의 Distributed Mode
성능 향상의 가능성이 있다면 게임 모드를 쓰기를 AMD는 권장합니다.
라이젠 데스크탑 2000 시리즈에 도입된 클럭 부스트 기능은 2세대 스레드리퍼에서도 그대로 사용 가능합니다. Precision Boost 2, "Extended Frequency Range 2 'Precision Boost Overdrive가 있습니다.
Precision Boost 2는 CPU 코어의 부하 상황에 따라 발열을 고려해 25Mhz 단위로 클럭을 제어하는 기능입니다. XFR2는 각 CPU 코어의 온도가 낮으면 25Mhz 단위로 클럭을 부스트합니다. 모두 AMD가 개발-테스트 과정 중에 터득한 동작 특성을 바탕으로 클럭을 제어하는 기능이며, AMD가 부스트 클럭을 보장합니다.
PBO는 AMD가 라이젠 마스터에 더한 오버클럭 모드로, 프로세서 전체의 전력 공급량 PPT, 메인보드에서 지속적으로 공급하는 전류의 양 TDC, 메인보드에서 공급 가능한 최대 전류량 EDC 같은 설정을 해제해 오버클럭합니다. PBO를 써서 CPU가고장나면 AMD가 책임지진 않습니다.
PBO는 전문 오버클럭 수준의 설정을 간단히 쓸 수 있는 기능이라 소개됩니다.
2990WX는 PBO를 써서 시네벤치 R15의 점수가 13% 올랐습니다.
XFR2와 PBO를 쓰려면 고성능 CPU 쿨러가 필요합니다.
2세대 스레드리퍼는 포지션이 절묘합니다. 최소한 미국에서 판매되는 가격은 그렇습니다. 가격을 신경쓰지 않는 사람은 2990WX를, 경쟁 제품보다 높은 성능을 저렴하게 쓰고 싶다면 2970WX를. 1세대 스레드리퍼의 직접적인 후속작은 2950X와 2920X가 있습니다.
칩셋은 계속해서 X399지만 스레드리퍼의 TDP는 180W에서 250W로 크게 올랐습니다. 그래서 일부 메인보드 제조사는 WX 시리즈에 맞춰 VRM와 쿨링을 강화한 새로운 X399 메인보드를 준비중입니다. CPU 쿨러도 최소 일체형 수냉 쿨러는 쓰길 권장합니다.