슈퍼 컴퓨터 컨퍼런스 ISC 16에서 신제품을 선보인 인텔

 

인텔이 차세대 제온 파이(Xeon Phi) 프로세서인 나이츠 랜딩(Knights Landing)을 정식 발표했습니다. 하나의 칩에 최대 72코어를 직접, 각각의 코어가 512비트 벡터 유닛을 2개 갖춰, 32비트 단정밀도 부동 소수점 연산에서 6TFLOPS 이상, 64비트 배정밀도에서 3TFLOPS 이상이 나옵니다. 고급형 GPU에 필적하는 최고 성능을 지닌 새로운 매니 코어 프로세서로, 제품명은 제온 파이 7200 시리즈가 됩니다.

 

1.jpg

 

2.jpg

 

3.jpg

 

나이츠 랜딩의 패키지. 왼쪽이 일반 소켓 버전, 오른쪽이 옴니패스 패브릭 통합 버전

 

4.jpg

 

나이츠 랜딩의 웨이퍼

 

5.jpg

 

6.jpg

 

인텔은 독일 프랑크푸르트 메세 프랑크부트에서 개최되는 슈퍼 컴퓨팅 컨퍼런스 ISC(International Supercomputing Conference) 2016에 맞춰 나이츠 랜딩의 최종 스펙과 출시를 발표했습니다.

 

7.jpg

 

또한 ISC에서 인텔의 Rajeeb Hazra(Vice President, Data Center Group / General Manager Enterprise and Government Group)가 특별 강연을 통해 나이츠 랜딩의 성능을 강조했습니다.

 

나이츠 랜딩은 인텔의 14nm 공정으로 제조되는 MIC(Many Integrated Core) 아키텍처 CPU입니다. 매니 코어 프로세서이기에 인텔의 코어나 제온과 비교하면 CPU 코어의 크기는 작습니다. 아웃 오브 오더 실행형 아톰 코어인 실버몬트를 기반으로 512비트 벡터 유닛을 2개 갖춘 CPU 코어를 72개 집적했습니다.

 

인텔 메인스트림 CPU 코어의 차이는 CPU 코어가 상대적으로 작으나 벡터 연산 성능이 매우 높다는 점입니다. 아톰을 기반으로 AVX를 대폭 강화한 CPU 코어입니다. GPU와 큰 차이는 GPU 코어는 단일 스레드 실행을 위한 스칼라 파이프가 없지만 나이츠 계열의 매니 코어는 일반적인 CPU와 마찬가지로 스칼라 파이프를 갖췄다는 점입니다. 따라서 보통의 CPU처럼 프로그램할 수 있습니다.

 

기존 세대의 제온 파이인 나이츠 코너는 펜티엄(P54C) 계열 파이프 라인을 기반으로 벡터 유닛을 1개 넣은 코어인 반면, 나이츠 랜딩은 스칼라 파이프와 벡터 파이프 모두가 강화되었기에 싱글 스레드 성능도 크게 올랐습니다. 인텔은 싱글 스레드 성능이 나이츠 랜딩 세대가 나이츠 코너의 3배라고 설명합니다.

 

 

나이츠 랜딩은 4개의 제품, 2개씩 변종이 존재

 

나이츠 랜딩은 4개가 있습니다. 풀 스펙인 제온 파이 7290는 72 CPU 코어에 1.5GHz로 동작하며, 패키지의 메모리 전송 속도는 7.2GT/sec, 외부 패키지 메모리인 DDR4의 전송 속도는 2.4GT/sec가 됩니다. 제온 파이 7250/7230/7210으로 가면서 스펙이 줄어듭니다. 제온 파이 7210에서는 64 코어/.3GHz/6.4GT/sec 패키지 메모리/2.133GT/sec 오프 패키지 메모리입니다. 가격은 제온 파이 7290이 6,254 달러, 제온 파이 7210이 2,438 달러까지 나옵니다.

 

8.jpg

 

나이츠 랜딩의 제품군

 

TDP(Thermal Design Power)는 최상위인 제온 파이 7290이 245W며 나머지는 215W입니다. 또한 모든 제품에 인텔의 고속 인터커넥트 패브릭을 통합한 버전이 따로 나옵니다. 일반 버전은 부팅 가능한 소켓 버전 패키지고, 패브릭 통합 버전은 패브릭 단자가 추가된 다른 패키지를 씁니다.

 

중요한 점은 최상위부터 최하위까지 모든 제품군의 메모리와 메모리 인터페이스가 같다는 점입니다. 패키지 메모리는 16GB, DDR4는 384GB로 모두 같습니다. 대형 다이 CPU 나 GPU에서 흔히 볼 수 있는 메모리 인터페이스 비활성화 등의 차별화는 없습니다.

 

 

아키텍처가 완전히 개선된 나이츠 랜딩

 

나이츠 랜딩의 CPU 코어는 2 명령 디코딩 아웃 오브 오더 실행 형 코어로 22nm의 아톰 코어 실버몬트를 기반으로 확장했습니다. 명령 디스패치는 정수 연산 2, 메모리 오퍼레이션 2, SIMD / 부동 소수점 (FP) 연산 2의 2포트입니다. 2개의 벡터 유닛은 FP 유닛의 포트에 할당하고 있습니다. 최대 4개 스레드의 실행이 가능한 SMT (Simultaneous Multithreading) 기능도 있습니다.

 

9.jpg

 

나이츠 랜딩의 CPU 코어는 인텔의 최신 CPU와 명령어 셋트가 거의 호환됩니다. 레거시 코드를 다시 컴파일할 필요 없이 나이츠 랜딩에서 그대로 실행할 수 있습니다. 벡터 명령은 인텔 SIMD 명령인 AVX의 확장 버전에 해당되는 AVX-512로, 기존 나이츠 코너의 벡터 명령과는 다릅니다. 즉 나이츠 랜딩의 벡터 명령은 앞으로 인텔의 메인 스트림 CPU와 호환/공유됩니다. 인텔의 메인스트림 CPU 중에는 제온 스카이레이크가 AVX-512를 구현했으나 차이는 있습니다. 일반적인 AVX-512 명령과 MIC 아키텍처 기반의 MIC-AVX512, 코어 아키텍처 기반의 CORE-AVX512로 다릅니다. 이 차이는 인텔 컴파일러 옵션에 따라 맞춰집니다.

 

10.jpg

 

11.jpg

 

나이츠 랜딩에서 CPU 코어는 2코어에 바인딩된 1MB의 L2 캐시와 온칩 인터커넥트를 공유합니다. 온칩 네트워크는 2D 메쉬의 CPU 타일 및 I / O 장치가 타일 형태로 배치돼 있습니다. 기존 나이츠 코너에선 1개의 CPU 코어가 제각각 링버스에 연결되나, 이번 나이츠 랜딩에선 메쉬를 논리적으로 분할해 CPU 코어 수의 증가에 따라 내부 트래픽의 증가를 제어합니다.

 

12.jpg

 

13.jpg

 

나이츠 랜딩은 패키지에 마이크론과 공동 개발 한 광대역 메모리 MCDRAM를 탑재합니다. MCDRAM 메모리 용량은 16GB. 또 패키지 외부에 DDR4를 6채널 접속할 수 있습니다. 대역이 다른 2종류의 메모리는 3가지 모드로 제어가 가능합니다. MCDRAM을 DDR4의 캐시로 사용하는 캐시 모드, MCDRAM을 DDR4와 같은 메모리 어드레스 스페이스에 할당하는 평면 모드, 그리고 두 모드를 혼합한 하이브리드 모드입니다.

 

14.jpg

 

15.jpg

 

16.jpg

 

또한 나이츠 랜딩은 HPC(High Performance Computing)을 위한 고성능 인터커넥트도 패키지에 통합한 버전을 따로 내놓습니다. 인텔이 개발한 옴니 패스(Omni-Path) 패브릭은 포트 당 25GB/sec의 대역폭에 2개의 포트를 갖추고 있습니다. 옴니 패스는 별도 다이로 나와 있어, 나이츠 랜딩 본체 다이와 2x PCI Express x16 레인(총 32 레인)으로 연결되지만 앞으론 CPU 다이에 통합합니다.

 

17.jpg

 

18.jpg

 

 

엑사스케일 시대를 대비한 나이츠 계열 아키텍처

 

19.jpg

 

ISC 16에서 인텔은 AI and more on IA'라는 제목의 특별 강연을 Rajeeb Hazra(Vice President, Data Center Group / General Manager Enterprise and Government Group)가 발표했습니다. 인텔은 현재 HPC(High Performance Computing) 업계가 대상으로 하는 다음 다음 세대 슈퍼 컴퓨터의 성능 범위인 엑사스케일에 대해 언급했습니다. 현재의 슈퍼 컴퓨터는 하나의 시스템으로 100TFLOPS에 도달하기 시작했으며, 다음 목표를 1ExaFLOPS로 잡았습니다.

 

20.jpg

 

21.jpg

 

22.jpg

 

23.jpg

 

엑사스케일의 컴퓨터 성능이 필요한 예로는 자동 운전이 있습니다. 2만대의 차량이 하루 운행되는 데 필요한 인프라가 1엑사플롭스의 컴퓨팅 용량이라고 하네요.

 

24.jpg

 

25.jpg

 

엄청난 연산 능력을 필요로하는 워크로드가 다양해지는 상황에 유연하게 대응하기 위해선 단일 아키텍처 프레임워크가 필요하다고 호소했습니다. 인텔이 여기에 제시한 솔루션이 MIC 아키텍처의 나이츠 랜딩인 셈입니다.

 

26.jpg

 

이 강연 슬라이드에선 제온 파이 '코프로세서'의 '코'에 X자를 쳐 그냥 프로세서라고 소개했습니다. 나이츠 랜딩은 단순한 보조 프로세서가 아니라, 제온 파이 그 자체로 부팅해 호스트 OS를 실행, 메인 프로세서 없이도 동작이 가능하기 때문입니다. 인텔은 셀프 부팅을 나이츠 랜딩의 큰 특징으로 강조하고 있습니다. GPU나 가속형 호스트 CPU에서 제어하는​​ 프로세서와는 다른 모델이기 때문입니다.

 

인텔의 MIC 아키텍처는 본래 CPU 코어의 스칼라 파이프 자체는 인텔 x86 CPU에서 나온 것이니, 제온 파이만으로도 부팅해 단일 CPU로 동작할 수 있습니다. 그러나 이전 세대인 나이츠 코너까지 스칼라 파이프는 펜티엄 수준의 저성능 코어였습니다. 그래서 제온 파이만으로 부팅하는 것은 무리가 있었습니다. 

 

그러나 나이츠 랜딩에서 스칼라 파이프가 최신 아톰 코어 실바몬트 기반으로 바뀌었습니다. CPU 코어의 명령 디코드 폭은 나이츠 코너와 나이츠 랜딩 모두 최대 2명령/사이클입니다. 하지만 스칼라 파이프는 나이츠 코너 이전에는 인 오더 실행에 얕은 파이프 구조였던 P54C계열로, 나이츠 랜딩에선 아웃 오브 오더 실행에 깊은 파이프라인 구조인 실버몬트로 바뀌었습니다. 따라서 나이츠 랜딩은 코어의 단일 스레드 성능이 극적으로 상승했습니다.

 

또한 나이츠 랜딩에선 CPU 코어의 레거시 명령도 완벽하게 호환해 벡터 명령도 AVX512으로 변경, 인텔의 메인스트림 CPU와 거의 호환됩니다. 나이츠 랜딩은 인텔의 제온과 코어 등의 메인스트림 CPU와 같은 명령을 실행하기 위해 소프트웨어 코드를 거의 수정하지 않고 끝났습니다.

 

인텔은 지난 2세대의 MIC 아키텍처인 나이츠 페리와 나이츠 코너의 경험을 바탕으로 나이츠 랜딩을 발표했습니다. 아키텍처가 기존과 크게 바뀌었으며 인텔의 목적도 더 명확해졌습니다. 인텔은 나이츠 랜딩에서 단독 프로세서로 동작할 수 있는 간단한 실행 모델을 도입해 GPU와 차별화해, GPU가 강세를 보이는 HPC 시장뿐만 아니라 HPC화가 진행되는 앞으로의 데이터센터에 출시할 계획입니다. 

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.