스레드리퍼의 패키지
하나의 다이에서 제품을 파생시키는 AMD
AMD는 16코어/32스레드의 데스크탑 CPU인 라이젠 스레드리퍼(Ryzen Threadripper) 아키텍처의 정보를 발표했습니다. 스레드리퍼는 AMD의 세번째 젠 아키텍처 제품입니다.
여기 나온대로 2개의 다이를 패키지 내부에서 연결한 구성입니다. 각각의 다이는 라이젠 7과 같은 8코어입니다. 따라서 스레드리퍼는 라이젠 7 8코어/16스레드의 2배인 16코어/32스레드 구성입니다.
스레드리퍼의 소켓은 sTR4, 칩셋은 AMD X399, 메모리 인터페이스는 라이젠의 2배인 4채널, PCI Express는 3.0 60레인, 2.0 8레인의 방대한 수를 자랑합니다. 이것은 다이가 2개였던 라이젠 7에선 비활성화된 일부 PCIe 레인이 스레드리퍼에서 활성화된 것입니다. 원래 라이젠 7 다이는 PCIe 64레인을 탑재합니다.
스레드리퍼와 라이젠의 비교
스레드리퍼 시스템 구성도
2개의 다이를 새로운 인터커넥트인 인피니티 패브릭에 연결한 스레드리퍼
스레드리퍼의 다이는 제플린(Zeppelin) 라이젠 7(서밋 릿지)와 같습니다. AMD는 반도체 마스크 비용을 낮추기 위해 다이 변형을 최소화하고, 같은 다이에서 여러 제품을 파생시키는 전략을 쓰고 있습니다(마스크 버전은 다를 수 있음). 지금 라이젠 7/5/3은 물론 에픽(EPYC)도 같은 다이입니다. 다른 점은 다이 수와 코어 수, 캐시 용량입니다. 또 다이 사이의 상호 연결은 에픽과 스레드리퍼가 다릅니다.
AMD 라이젠, 스레드리퍼, 에픽의 차이
서밋 릿지의 다이, 제플린
기존의 AMD CPU보다 52%나 IPC가 늘어난 젠
인텔 CPU 코어에 비해 작은 코어를 쓰는 젠
상위 5%의 고성능 다이를 선별
스레드리퍼와 라이젠 7의 차이는 다이의 수 외에도 다이를 선별했다는 점에 있습니다. 같은 웨이퍼에서 채취한 다이어도 성능에는 차이가 있습니다. 저전압 고클럭으로 작동하는 다이가 있고, 고전압 저클럭 다이가 있습니다. 칩 제조사는 이들 다이를 선별해 서로 다른 모델로 배분합니다.
현재 AMD는 라이젠 다이 중 최상위 5%를 스레드리퍼용으로 선별합니다. 실제 스레드리퍼 판매량을 감안하면 2%가 될 거라는 이야기도 있네요. 고성능 다이는 전력 대비 성능 효율이 높아집니다. 고성능 다이를 선별해 스레드리퍼로 내놓으니, 라이젠보다 성능 효율이 더 높을 거란 이야기이기도 합니다. 또 오버클럭도 더욱 잘 될 것으로 예상됩니다.
다이를 선별한 스레드리퍼
16코어/32스레드의 라이젠 스레드리퍼 1950X가 기본 3.4GHz, 부스트 3GHz. 12코어/24스레드의 라이젠 스레드리퍼 1920X는 기본 3.5GHz, 부스트 4GHz.. 8코어/16스레드의 라이젠 스레드리퍼 1900X는 기본 3.8GHz, 부스트 4GHz입니다. 선별한 다이라고는 하나 이처럼 많은 코어에서 클럭을 높게 유지할 수 있다는 게 젠 마이크로 아키텍처의 장점입니다.
젠 마이크로 아키텍처
AMD의 제플린 다이는 1,300개 이상의 크리티컬 패스 회로, 48개의 전원 공급 회로, 20줄의 다이오드, 9개의 루프 탐지기를 탑재합니다. 2개의 제플린 다이를 사용한 스레드리퍼는 2배의 센서를 탑재합니다. 16코어/32스레드의 라이젠 스레드리퍼 1950X는 기본 3.4GHz로 작동하며, 4코어만 쓰면 4GHz까지 부스트됩니다. 라이젠은 2개의 코어만 사용했을 때 부스트 클럭까지 올라갑니다. 스레드리퍼는 각 다이에 2개씩 부스트되니 총 4코어 부스트가 됩니다. 클럭은 라이젠과 마찬가지로 25Mhz 단위로 제어됩니다.
스레드리퍼의 센서와 클럭 제어
2개의 다이에 분산된 DRAM 인터페이스
스레드리퍼의 DRAM 인터페이스는 DDR4 4채널입니다. 전송 속도는 DRAM의 수에 따라 달라집니다. 듀얼 랭크 DIMM을 각 채널에 2장씩 총 8개의 DIMM을 꽂은 경우 전송 속도는 1,866Mtps로 떨어집니다. 싱글 랭크 DIMM 8장은 2,133Mtps. 듀얼 랭크 DIMM 4장은 2,400Mtps. 싱글 랭크 DIMM 4장은 2,667Mtps가 됩니다. 2,667Mtps에서 대역폭은 85.3GB/s가 됩니다.
스레드리퍼의 공식적인 DRAM 속도
스레드리퍼는 4채널 메모리지만 2채널씩 2개의 다이로 분산됩니다. 따라서 각 채널마다 메모리 액세스 대기 시간이 다릅니다. 메모리 액세스 트랜잭션을 수행하는 CPU 코어가 포함된 다이의 메모리 컨트롤러에 연결된 DRAM 메모리는 near memory라 하며 메모리 엑세스 지연 시간은 78ns입니다. 반면 다른 다이에 연결된 DRAM 메모리는 far memory며 지연 시간이 133ns입니다.
스레드리퍼의 DRAM 인터페이스와 지연 시간
낮은 레이턴시에 광대역. 다이 사이를 연결하는 인피니티 패브릭
AMD의 CPU와 GPU는 모두 인터커넥트에 인피니티 패브릭을 사용합니다. 인피니티 패브릭의 데이터는 상위 프로토콜 계층에 AMD의 기존의 인터커넥트인 Coherent HyperTransport를 확장한 프로토콜을 사용합니다. 그러나 하위 물리 구현은 각 계층에 맞는 것을 사용합니다.
먼저 다이 내부에선 CPU 클러스터와 메모리 컨트롤러, I/O 컨트롤러의 연결을 인피니티 패브릭에서 합니다. 다이 내부에 256비트의 넓은 인터페이스를 사용합니다.
스레드리퍼 다이 사이를 연결하는 인피니티 패브릭
다이와 다이 사이 연결은 1링크 단방향 32비트로 전송 속도를 높인 패러럴 인터페이스를 사용합니다. 간단한 싱글 엔디드 신호에 클럭 포워딩 인터커넥트입니다. 패키지의 배선 거리가 짧아 기판의 제어가 가능하기에 배선 사이의 간섭을 줄일 수 있다고 합니다. 또 시리얼 전송 방식을 쓰지 않아 인코딩 대기 시간을 줄였습니다. 전력 소비량도 2pj/bit로 매우 낮습니다. 라이젠은 이 인터페이스를 탑재하지만 쓰진 않습니다.
AMD의 인피니티 패브릭
AMD는 고속 인터페이스 사이의 FIFO 버퍼를 최대한 줄여 대기 시간을 단축시켰습니다. 원래 라이젠은 CPU 코어 외의 장치를 메모리 클럭에 동기화하도록 설계했으며, 온칩 인피니티 패브릭과 메모리 컨트롤러도 메모리 클럭에 맞춰 동작합니다. 또 에픽은 다이 사이를 연결하는 인피니티 패브릭도 메모리 클럭과 동기화해 2배의 전송 속도로 작동되도록 설계했습니다. 스레드리퍼도 마찬가지라 볼 수 있습니다.
스레드리퍼의 패키지 내부에서 다이 사이를 연결하는 인피니티 패브릭은 양방항이 최고 102.22GB/s의 대역을 냅니다. 에픽의 인피니티 패브릭은 각 다이가 단방향 32비트 링크를 3쌍 갖춥니다. 이걸로 4개의 다이를 서로 연결하지요. 스레드리퍼의 다이 수는 2개니까2쌍을 사용해 연결하는 것으로 추정합니다. 2쌍은 단방향 64비트의 상호 연결입니다.
에픽의 구성
에픽에서 다이 사이를 연결하는 인피니티 패브릭의 전송 속도는 최대 5.33Gtps로 DDR4-2666과 동기화됩니다. 1링크의 메모리 대역은 양방향 42.6GB/s. 스레드리퍼는 다이 사이의 인피니티 패브릭 대역폭이 최대 102.2GB/s. 인터페이스 폭이 64비트라고 하면 최대 전송 속도는 6.38Gtps. 이것은 DDR4-3200의 데이터 전송 속도와 동기화됩니다.
스레드리퍼의 다이 사이 연결을 추측
스레드리퍼의 2가지 메모리 액세스 모드
스레드리퍼는 2개의 메모리 액세스 모드가 있습니다. 하나는 UMA (Uniform Memory Access), Distributed Mode입니다. 다른 하나는 NUMA (Non-uniform Memory Access), Local Mode입니다. 이 두 모드의 차이는 4개의 DRAM 메모리 채널에 어떻게 액세스하냐는 것입니다.
UMA / Distributed 모드에서는 메모리 액세스 트랜잭션이 스레드리퍼의 4개 DRAM 채널에 분산됩니다. 4개의 채널에 동등하게 최급되고 인터리빙 4채널에 동시에 분산 액세스합니다. 따라서 애플리케이션에 4개 메모리 채널의 대역폭을 최대한 활용할 수 있습니다. 실제론 연결된 다이마다 메모리 액세스 대기 시간이 다르기에 평균 메모리 대기 시간은 약간 늘어납니다. 대기 시간보다 메모리 대역폭이 중요한 애플리케이션인 3D CG 툴 마야처럼 작업 집합이 큰 애플리케이션에서 효과를 발휘합니다.
반면 NUMA / Local 모드에서는 메모리 액세스가 애플리케이션이 실행되는 CPU 코어의 다이에 연결된 2개의 DRAM 메모리 채널을 우선 사용합니다. 기본적으로 메모리 액세스 트랜잭션은 다이에 직결된 2개의 DRAM 채널에서만 진행됩니다. 덕분에 메모리 액세스 대기 시간이 줄어듭니다. NUMA / Local 모드에서 기본 메모리 액세스는 2채널이 되기에 애플리케이션 메모리 대역폭은 줄어듭니다. 메모리 대역폭보다 메모리 레이턴시가 중요한 애플리케이션, 배틀필드 시리즈 같은 게임은 NUMA / Local 모드에서 성능이 오릅니다.
UMA / Distributed 모드와 NUMA / Local 모드는 동적으로 전환되지 않으며 부팅할 때 고릅니다. 평균 메모리 액세스 지연 시간의벤치마크에서는 DDR4-3200가 UMA / Distributed 모드에서 86.9ns, NUMA / Local 모드에서 66.2ns로 UMA / Distributed 모드가 30% 정도 늦어집니다.
x86 계열 CPU의 멀티 소켓 구성에서 메모리 액세스는 원래 UMA였습니다. 메모리 컨트롤러를 내장하는 1개의 노스 브릿지 칩에 여러 CPU가 연결됩니다. 각각의 CPU는 노스 브릿지에 연결된 DRAM 메모리를 공유하는 UMA였습니다. 여기에 AMD가 CPU에 DRAM 컨트롤러를 통합한 옵테론을 내놓으면서, CPU에 연결된 니어 메모리와 다른 CPU에 연결된 파 메모리를 구분하는 NUMA 메모리 아키텍처가 도입됐습니다. 스레드리퍼는 두 메모리 모드를 모두 선택할 수 있습니다.
메모리 액세스 모드 전환 및 레거시 호환 모드
스레드리퍼는 AMD의 CPU 설정 소프트웨어인 라이젠 마스터에서 스레드리퍼의 작동 모드를 바꿀 수 있습니다. 기존의 게임을 위한 Legacy Compatibility Mode의 사용 여부, 그리고 Memory Access Mode의 전환입니다.
레거시 호환 모드를 선택하면 스레드리퍼의 스라드 수가 절반이 됩니다. 많은 수의 스레드를 제어하지 못하는 예전 게임을 위한 모드입니다. 다만 이 모드에서도 4개의 DRAM 인터페이스와 64레인 PCIe는 유효합니다.
스레드리퍼용 라이젠 마스터 아래쪽에 레거시 호환 모드와 메모리 액세스 모드 전환 스위치가 있음
메모리 액세스 모드 설정은 UMA / Distributed 모드와 NUMA / Local 모드 중 하나로 전환이 가능합니다. 기본적으로 UMA / Distributed입니다.
라이젠 마스터에선 스레드리퍼용 프로파일로 크리에이터 모드와 게임 모드를 제공합니다. 게임 모드에서 CPU는 레거시 호환 모드, 메모리 액세스는 NUMA / Local이 됩니다. CPU 스레드 수는 반이 되고 메모리 액세스를 낮추는 프로파일입니다. 크리에이터 모드는 게임 모드와 정 반대로 레거시 호환 모드를 끄고 메모리 액세스는 UMA / Distributed가 됩니다. CPU 스레드와 메모리 대역폭을 최대한으로 늘려 애플리케이션 실행 효율을 높입니다.
스레드리퍼와 3가지 색상의 라데온 베가 조합
스레드리퍼는 총 64 레인의 PCIe 3.0을 갖춰 최대 8개의 PCIe 디바이스를 연결할 수 있습니다. 실제로 X399 I/O 칩도 PCIe x4로 연결되게에 사용 가능한 PCIe는 60레인, 7개의 다비이스입니다. PCIe는 4웨이 크로스파이어/SLI 연결이 가능한데, 스레드리퍼의 장점 중 하나가 이 강력한 I/O 입니다.
AMD게 렌더 팜으로 제안하는 2개의 x16 그래픽, 2개의 x8 그래픽, 4개의 x4 스토리지 구성이 가능합니다. 그래픽카드로는 파란색 라데온 프로 베가를 권장합니다.
이렇게 3D CG 컨텐츠 제작을 위한 구성이 가능합니다.
하드코어 게이머를 위한 AMD의 권장 구성은 2개의 x16 그래픽카드, 1개의 x4 스토리지입니다. GPU는 빨간색 라데온 RX 베가입니다.
여기에 x8 캡처 카드와 10G 이더넷을 추가하는 시스템도 나올 수 있습니다.
데이터 연산에선 6개의 x8 GPU 컴퓨팅 카드, 1개의 x4 스토리지 구성, 그래픽카드는 노란색 라데온 인스팅트 MI25입니다. 이렇게 빨강, 노랑, 파랑의 3가지 색 라데온의 조합으로 각 영역에 특화된 강력한 플랫폼이 나온다는 게 AMD의 설명입니다.
그 외에 동영상 컨텐츠 크리에이터를 위한 구성
스트리머를 위한 구성 사례를 제시합니다.
각 조제사의 라이젠 쓰레드리퍼 메인보드
AMD는 스레드리퍼같은 고성능 CPU의 수요가 갈수록 늘어나고 있다고 설명합니다.
몇년전에 10g 네트워크 칩셋 발열이 상당한걸로 알고 있는데 요즘은 해결이 되었을지 모르겠네요.
용도에 맞게 구성 제안해주는건 좋은데 너무 끼워맞추기식이라서;;