AMD는 TSMC 7nm 공정으로 제조하는 세계 최초의 x86 CPU인 로마를 발표했습니다.
AMD, 새로운 디자인의 EPYC, 코드네임 로마 https://gigglehd.com/gg/3795752
거기에 관련된 추가 소식입니다.
리사 수 CEO가 들고 있는 로마의 샘플. 진짜 다이라네요.
가운데에 커다란 다이가 있고 주변에 8개의 다이가 2개씩 붙어 있습니다. 주변의 8개 다이는 Zen 2 아키텍처 코어로 7nm로 만들었습니다. 다이 1개가 8코어 16스레드로 구성된 건 기존의 Zen, Zen+와 같습니다. 이게 8개니 64코어 128스레드.
중앙의 거대한 다이는 14nm 공정의 I/O 다이입니다. 노스브릿지라고 이해하면 편합니다. 프로세서 사이의 인터페이스인 인피니티 패브릭, 크로스바 스위치, DDR4 메모리 컨트롤러, PCI-E Gen.4 컨트롤러가 탑재됩니다.
그럼 CPU 다이는 7nm인데 왜 I/O 다이는 14nm일까요? 이건 I/O-입출력에 관련된 디바이스 전압이 크기 때문이라고 합니다. DDR 메모리는 1.2V 이상, PCIe는 3V 이상의 전압이 걸리는데, 현재 7nm 공정 기술의 배선은 그 정도로 높은 전압을 맞추지 못합니다. 아직은요.
이건 기존의 Zen, Zen+ 아키텍처 다이입니다. 각각의 다이마다 인피니티 패브릭, 메모리 컨트롤러, PCIe 컨트롤러가 들어갑니다. 이 경우 I/O 기능이 중복돼 비활성화되는 낭비가 발생합니다.
다이 4개라면 그런갑다 하지만 8개의 낭비가 합쳐지면 훨씬 커지지요. 그래서 I/O 다이를 따로 나눈 것도 있습니다.
바꿔 말하면 로마와 같은 다이를 써서 데스크탑용 라이젠을 만든다면, 8코어 16스레드의 평범한(?) CPU도 따로 I/O 다이가 필요하다는 말이기도 합니다. 그럼 로마 다이를 데스크탑으로 돌리지 않고 전용 다이가 나올 가능성도 있습니다.
여기에 더 많은 코어, 복잡해진 패키징 구성 때문에 기존의 Zen+보다 가격이 오를 수밖에 없습니다. 아직 AMD가 가격이나 데스크탑 CPU에 대해서 밝힌 건 없으니 더 기다려야겠지요.
아키텍처의 개선점을 봅시다.
Zen 아키텍처는 CISC 명령어 세트의 x86 프로세서입니다. 가변 구조의 명령어 바이너리로 명령 실행 시간이 제각각이라 파이프라인 관리가 어렵습니다. 그래서 최근의 x86 프로세서는 겉으로는 CISC여도 내부 실행 방식은 RISC로 바꿉니다. 긴 CISC 명령을 짧고/길이가 정해진 RISC로 바꿔 실행하는데, 이걸 마이크로 오퍼레이션 μOp이라 부릅니다. Zen2는 μOp의 캐시 메모리 용량을 늘려 이용 효율을 높이고, 메모리에서 불러온 x86 명령 자체를 캐시하는 최적화도 진행합니다.
그리고 Zen에선 분기 예측을 할 때, 기존의 에측 적중 결과를 피드백해 정확도를 높이는 Neural Net Predicion 매커니즘을 사용했는데, Zen2는 분기된 주소의 x86 명령어를 예측하는 프리페치 동작을 개선했습니다.
부동소수점 연산도 개선합니다. 128비트 폭의 부동소수점 레지스터를 2배로 늘려 256비트가 됐습니다. AVX SIMD 연산의 경우 지금까지는 4개를 병렬 연산했으나 이제는 8개를 병렬 연산할 수 있습니다. 로드/스토어 유닛도 256비트 벡터 데이터를 취급하기에 AVX 명령 효율이 개선됩니다. AVX-512는 여전히 지원 안함.
그리고 스펙터 보안 취약점의 하드웨처 패치가 추가됐습니다.
출시는 내년 중. 아직 클럭이 확정되지 않아 정확한 성능도 나오지 않았습니다. 그래도 발표회의 데모에선 적잖은 성능 향상을 보여줬는데요.
C-RaY 벤치마크에서 제온 플래티넘 8180M(28코어 56스레드)를 2개 장착한 시스템은 30초, 에픽 7601(32코어 64스레드)를 2개 탑재한 시스템은 28초, 로마 프로세서(64코어 128스레드)를 1개 탑재한 시스템은 27초로, 기존의 2소켓 시스템을 넘어서는 성능이 나왔습니다. 로마 2소켓이라면 성능이 2배가 되겠네요.
기존 칩셋과 호환돼 CPU 교체만으로 PCIe 4.0을 사용 가능하며, 로마의 다음 세대인 Milan도 기존 에픽 플랫폼에서 쓸 수 있습니다.