인텔 스카이레이크-X의 아난드텍 리뷰입니다. 이미 알려져 있는 부분은 제외하고 요약해서 올립니다. 이해하기 힘든 부분도 있고, 양도 좀 많아서.. 다 써놓고 보니 참 글이 복잡한데, 마지막 부분만 봐도 요약은 충분히 될겁니다.
스카이레이크-X 프로세서 | |||
Core i7-7800X | Core i7-7820X | Core i9-7900X | |
코어/스레드 | 6/12 | 8/16 | 10/20 |
기본 클럭 | 3.5 GHz | 3.6 GHz | 3.3 GHz |
터보 클럭 | 4.0 GHz | 4.3 GHz | 4.3 GHz |
터보 맥스 클럭 | N/A | 4.5 GHz | 4.5 GHz |
L3 캐시 | 8.25 MB | 11 MB | 13.75 MB |
PCIe 레인 | 28 | 44 | |
메모리 채널 | 4 | ||
메모리 클럭 | DDR4-2400 | DDR4-2666 | |
TDP | 140W | ||
가격 | $389 | $599 | $999 |
코어 i9-7900X는 10코어의 프로세서로 999달러에 판매됩니다. 실제 리테일에선 1049~1099달러에 풀릴 듯. 44개의 PCIe 레인을 갖춘 유일한 제품이기도 합니다. 코어 i7-7800 시리즈와 차별화하기 위해서 이 기능은 최상위인 코어 i9 계열에만 들어갑니다. 기본 클럭은 높지 않으나 터보 클럭에선 4GHz 이상으로 작동합니다.
이들 제품의 경쟁상대는 우선 브로드웰-E(혹은 하스웰-E)를 비롯한 인텔의 구형 플랫폼이 있습니다. 인텔은 구형 프로세서의 가격을 인하하진 않았으나, 소켓이 바뀌기에 기존 플랫폼은 대체될 것입니다. 브로드웰 중에서도 10코어 20스레드 제품인 코어 i7-6950X가 있긴 한데 이건 1723달러니까 스카이레이크-X를 마다할 필요가 많진 않겠죠.
다음은 라이젠입니다. 브로드웰-E와 비슷한 수준의 성능이지만 가격은 그 절반 수준입니다. 라이젠은 듀얼채널 메모리, 16개의 PCIe 레인, 칩셋 스펙의 부족으로 스토리지와 메모리 등에 부족한 점이 있습니다. 그래도 쌉니다. 코어 수와 가격을 비교하면 라이젠은 여전히 인텔보다 앞서고 있습니다.
허나 라이젠보다는 쓰레드리퍼야말로 진짜 경쟁상대겠지요. 쓰레드리퍼는 최대 16코어에 60개의 PCIe 레인을 지니며 새로운 X399 칩셋을 제공합니다. AMD가 여름에 X399와 쓰레드리퍼를 내놓기 전까진 아직 세부 상황을 알 순 없으나, AMD가 가격으로 코어 i9와 경쟁할 가능성은 충분히 많습니다.
스카이레이크-X는 Basin Falls 플랫폼을 씁니다. 여기에는 X299라는 새로운 칩셋이 등장하는데, 기존의 X99의 기능과 PCIe 레인을 개선한 버전 되겠습니다. 칩셋의 DMI 3.0 링크는 기본적으로 PCIe 3.0 x4이며, 네으퉈크, 레이드, USB 3.1, 썬더볼트, SATA, 10GbE, 오디오까지 최대 24개의 PCIe 3.0 레인에 액세스 가능합니다.
스카이레이크-X의 모델별 스펙에 대해선 위 표를 보세요. 이들 프로세서는 코어 수에 따라 크게 3단계로 나눌 수 있습니다. 6/8/10코어가 작은 수의 코어 LCC, 12/14/16이 많은 수의 코어 HCC, 18코어가 최대 코어 XCC로 분류됩니다. 스카이레이크-X에서 LCC 풀칩은 10코어고 나머지 6/8 코어는 일부를 죽여서 내놓는 것. HCC 풀칩은 16코어고 12/14는 일부를 막아서 내놓는 것입니다. 지금 출시된 3개의 스카이레이크-X는 6/8/10코어니까 가장 하위 실리콘만 시장에 나온 셈입니다. 12/14/16 코어는 올해 4분기까지 나오지 않을 것입니다.
그리고 카비레이크-X가 있습니다. 메인스트림 시장의 카비레이크-S용 실리콘을 약간 바꿔 클럭과 전력을 더 엄격하게 설정하고, 내장 그래픽을 비활성화한 후 하이엔드 데스크탑 플랫폼 패키지에 넣었습니다. 이게 진짜 하이엔드일지는 논란이 일 것입니다. 16개의 PCIe 3.0 레인과 듀얼채널 메모리는 너무 빈약해 보이지요. 하지만 인텔은 이들 프로세서가 오버클럭이 매우 잘 되고, 고객들이 HEDT 플랫폼에서 최신 마이크로아키텍처를 원하기에 이들 제품을 내놓았다고 설명합니다. 카비레이크-X는 코어 i7/i5가 있는데 둘 다 쿼드코어고 i7은 하이퍼스레딩을 지원합니다.
인텔은 여러 데이터를 하나로 클러스터링하고 동일한 작업을 한번에 수행해 SIMD 성능을 향상시켰습니다. 이는 SSE, SSE2, AVX, AVX2에 AVX-512까지 발전했습니다. 스카리에이크X는 브로드웰-E에서 코어를 강화하고 캐시 계층을 조정하고 기능을 추가했습니다. 기본적으로 스카이레이크-S 백엔드는 5개의 마이크로 OP를 지원하는 1536 명령어 마이크로 OP 캐시와 결합된 5개의 디코더를 사용하는 6 와이드 디코더입니다. 1 사이클당 4개의 마이크로 OPs를 관리할 수 있습니다. 스카이레이크-S는 하스웰의 192 명령어 폭에서 224개로 늘었습니다. 명령 디코드 대기열의 루프 감지기는 하이퍼스레딩과 관계없이 프로세서당 최대 64개의 마이크로 OP를 감지합니다.
스카이레이크 아키텍처의 확장 유닛입니다. 명령어 포트는 2개의 로드/스토어 유닛이 있고, 하나의 주소 저장 유닛과 데이터 저장 유닛을 갖춥니다. 4개의 ALU 포트는 모든 ALU 기능의 하위 셋트를 지원합니다. 4개의 로드/스토어 관련 유닛은 4 사이클의 32KB L1 데이터 캐시를 제공합니다. 스카이레이크-S는 2개의 32바이트 읽기와 1사이클에 32바이트를 처리하는 저장소가 있었습니다. 스카이레이크-SP에선 2x64KB 읽기와 1x64B 쓰기가 가능합니다.
인텔은 AVX-512 명령어 셋트의 여러 변형을 제공합니다. 512비트 워드 지원, 충돌 감지, 지수/복소수, 프리페치 등 다양한 변형의 명령어가 있습니다. AVX-512는 하드웨어에서 직접 지원하며 수행합니다. 인텔의 표준 AVX-512 블럭은 펌웨어 수준에서 활성화 가능하며, 특정 기능을 사용하려면 소프트웨어를 활성화하거나 승인해야 합니다. AVX-512는 엔터프라이즈에 맞춰 설계됐으며, AVX-512 지원이라 하면 AVX-512의 어떤 레벨을 지원하는지를 봐야 합니다. 스카이레이크-X는 F, VL, BW, DQ, CD 등의 AVX-51를 지원합니다.
그래서 스카이레이크-SP에서 AVX-512가 무슨 일을 할 수 있을까요. 스카이레이크-SP는 별도의 마스크 레지스터를 지원하며, 이를 사용해 벡터 레지스터 공간을 차지하지 않고 별도의 실리콘으로 분리 가능합니다. 따라서 컨트롤 플로우가 데이터 플로우에서 분리돼 소비 전력이 줄어들게 됩니다.
마스커 레지스터는 마스킹을 통해 주 레지스터의 개별 요소를 업데이트하고 메모리 오류를 무시할 수 있습니다. 이 기술을 사용해 예외 이벤트를 0으로 처리하거나 새로운 데이터로 건너뛸 수 있습니다.
컨트롤 기능을 벡터화하고 64비트 정수를 기본 지원합니다. 길이가 긴 정수 연산 외에 포인터 코드도 벡터화 가능합니다. 일부 프로그램에선 여전히 구형 마이크로 아키텍처에서 x87로 옮겨야 하는 경우가 있는데, 이를 마스킹 자원과 결합해 수집/분산 작업에서 대역폭을 최대화할 수 있습니다.
AVX-512는 새로운 수학 지원 코드도 제공합니다. 새로 추가된 작업이 모든 부동소수점 데이터에 적용 가능하며, 금융 분야에서 특히 중요하게 쓰일 것입니다. 바꿔 말하면 금융 외에 다른 분야에선 이것이 제한적으로 쓰이게 됩니다. 또 AVX-512-F는 NVIDIA의 텐서 코어와 비슷하게, 딥 러닝을 위한 8비트/16비트 팩드 연산을 지원합니다.
비트 조작과 팩드 로테이트 등의 기능도 제공돼 마스크 레지스터와 함께 구현됩니다.
AVX-512는 광범위한 기능을 제공하기에, 컴파일러와 함께 사용하면 일반 코드를 AVX로 만들기가 더 쉽습니다. 인텔은 여기에 필요한 컴파일러를 제공하며, 이를 사용해 기존 코드를 다시 컴파일하고 성능을 끌어올릴 수 있습니다. POV-Ray는 VS2010에서 VS2015로 코드를 다시 컴파일했는데 성능이 15~25% 정도 높아졌다고 합니다. 하지만 이것은 기업 고객에 맞춘 기능이며 일반적인 소프트웨어가 이를 도입하기까지 시간이 많이 걸립니다. 써놓고 보니 이 부분만 있어도 되겠네요.
스카이레이크-S와 스카이레이크-S의 캐시 비교 | ||
Skylake-S | 기능 | Skylake-SP |
32 KB 8-way 4-cycle 4KB 64-entry 4-way TLB |
L1-D | 32 KB 8-way 4-cycle 4KB 64-entry 4-way TLB |
32 KB 8-way 4KB 128-entry 8-way TLB |
L1-I | 32 KB 8-way 4KB 128-entry 8-way TLB |
256 KB 4-way 11-cycle 4KB 1536-entry 12-way TLB Inclusive |
L2 | 1 MB 16-way 11-13 cycle 4KB 1536-entry 12-way TLB Inclusive |
< 2 MB/core Up to 16-way 44-cycle Inclusive |
L3 | 1.375 MB/core 11-way 77-cycle Non-inclusive |
스카이레이크-SP는 기존 세대에 비해 캐시 계층 구조를 완전히 바꿨습니다. 단순 포괄적 캐시에서 벗어나 캐시 용량, 정책, 대기 시간, 효율성을 조정해 성능에 직접적인 영향을 줍니다. 또 스카이레이크-S와 SP는 명령 처리량과 효율이 다릅니다.
L1 데이터와 캐시 구조는 여전히 같습니다. 32KB 8방향 캐시를 구현하며, 4사이클의 액세스 시간이 필요합니다. 다만 스카이레이크-SP는 사이클 당 2x32바이트 로디와 1x32바이트 저장을 수행하고, SP는 그 두배를 제공합니다.
L2와 L3는 크게 바뀌었습니다. 스카이레이크 S는 서로 연관성을 지닌 4웨이 256KB 캐시가 있었으나, SP는 16웨이 1MB L2 캐시가 됐습니다. L3는 20웨이 2.5MB의 포괄적 캐시(Inclusive)에서 11웨이 1.375MB/s의 비-포괄적 캐시(Non-inclusive)가 됐습니다.
포괄적인 캐시는 하위 레벨의 모든 데이터를 저장합니다. 위 이미지는 포괄적 캐시의 사례인데, L1에 있는 내용은 L2에도 있고, L2에 있는 내용은 L3에도 있습니다. 따라서 상위 레벨의 캐시는 하위 레벨의 캐시보다 용량이 같거나 커야 합니다. 대신 데이터 사본이 오래 남아 있으나 하위 캐시의 데이터가 제거돼도 여전히 상위 캐시에서 호출할 사본이 남아 있습니다. 단점은 이런 데이터의 중복 때문에 캐시의 용량이 커질 수밖에 없다는 것입니다.
비-포괄적 캐시는 서로 다른 계층의 캐시가 서로 다른 데이터를 저장합니다. L2에 있는 데이터는 L3에 없습니다. L2의 값이 수정되거나 사라지면 그 값은 바로 L3로 이동합니다. 예전에는 이걸 독점적 캐시라고도 했는데, 데이터를 L3에서 L2로 가져와도 L3에 여전히 남아 있으니 독점적이라고 할 수 없습니다. 코어의 필요에 따라 데이터 프리페치 여부가 갈리니 대기는 victim-희생 캐시라고 합니다. 이런 캐시는 일반적으로 제한된 역할만을 수행합니다. AMD 젠 역시 이런 구조를 씁니다.
그럼 이렇게 캐시 구조를 바꾸는 이유는 무엇일까요? 이 경우 L2 캐시의 용량이 커집니다. 실제로 스카이레이크 S에서 SP로 가면서 256KB에서 1MB로 늘어났지요. 캐시 용량이 두배가 되면 캐시 적중률이 41% 늘어나는데, 이는 IPC가 3~5% 늘어나는 것과 같습니다. 그럼 L2 캐시에 민감한 작업에서 효과가 좋아집니다. 데이터베이스 같은 일부 엔터프라이즈 환경은 L2의 크기에 민감합니다.
대신 캐시 크기가 커질수록 대기 시간이 길어집니다. 인텔은 L2 대기 시간이 11~13사이클 정도 늘어난다고 밝혔습니다. 그리고 희생 캐시 구조의 L3는 일반적으로 쓰이는 빈도가 작습니다. 전체적인 면을 고려했을 때 대기 시간은 44에서 77로 늘어납니다. 상당한 차이로 보이나 희생 캐시의 유용성을 감안하면 대부분의 소프트웨어는 별 차이가 없을 것입니다.
L3를 비-포괄적 캐시로 바꾸면 일부 엔터프라이즈 분야에 영향을 줄 것입니다. 브로드웰-EP 제온의 기능 중 하나가 L3 캐시 분할이었습니다. 제한된 용량의 가상 시스템이 핵심 워크플로우를 실행할 경우 대부분의 L3 캐시를 쓸 수 있었습니다. L3 캐시가 더 중요하기에 이 기능을 추가하는 게 좋지만, 인텔은 스카이레이크-SP에서 이 기능이 어떻게 발전했는지를 밝히지 않았습니다.
인텔은 스카이레이크 프로세서에서 코어 사이의 통신에 큰 변화를 도입했습니다. 인텔이 출시한 거의 모든 멀티코어 칩은 몇가지 형태의 링버스를 사용하며, 모든 버스가 단일 통신 링버스로 이어집니다. 데이터가 특정 코어에 필요하다면 링을 타고 거기까지 데이터가 갑니다. 다만 코어가 얼마나 멀리 떨어져 있느냐에 따라 대기 시간이 늘어납니다. 이것은 브로드웰-E의 링버스 구조인데 코어 수가 늘어날수록 링버스의 수와 구조가 점점 더 복잡해짐을 알 수 있습니다.
그래서 인텔은 스카이레이크-SP에 메쉬 구조를 도입해, 각각의 CPU가 위/아래/옆에 연결되도록 했습니다. 이 메쉬는 2D 배열로 확장된 링버스라 할 수 있습니다.
사실 인텔은 제온 파이 나이츠 랜딩에서 메쉬 구조로 연결한 프로세서를 선보인 바 있습니다. 크기가 646제곱mm에 달하는 72코어 프로세서는 6개의 메모리 채널에 16GB MCDRAM을 사용해 링버스로 연결하기가 힘듭니다. 그래서 나이츠랜딩에선 메시-여기에선 untile이라 부릅니다-로 연결했습니다. 나이트랜딩의 최적화 가이드를 보면 각각의 메시 스톱에는 특정 캐시 라인을 보유하는 L2 캐시를 식별하는 태그 디렉토리와 그 연결이 있습니다. 나이츠 랜딩의 패키지엔 공유 L3 캐시가 없으며, 여기서 누락된 메모리 액세스는 다른 타일의 캐시 사본을 식별하기 위해 메시를 태그 디렉토리로 이동합니다. 다른 타일에 캐싱되지 않으면 메모리에 요청합니다.
메쉬 구조의 경로 조작에서 가장 쉬운 방법은 크로스바를 통과하는 것입니다. 각 코어를 메쉬의 노드를 사용하면 각 코어에서 들어오고 나가는 데이터의 디렉터 역할을 하는 미니 디커플링 크로스바가 됩니다. 각각의 코어가 고유 동작을 제어하기에 설계는 모듈화되며, 이 요소를 조합하면 모듈러 디커플드 크로스바나 MoDe-X가 있습니다.
각각의 코어마다 통합 네트워크 인터페이스와 라우터가 있고, 각각의 라우터는 주위의 라우터 4개에 연결됩니다. 데이터 패킷은 상하좌우 혹은 라우터가 연결된 코어 자신까지 5가지 방향 중 하나로 전달됩니다. 각 코어가 x/y 좌표가 있는 2D 맵 노드라면 가장 가까운 곳으로 이동하는 방법을 알 수 있습니다.
첫번째 열에선 데이터를 전송할 위치를 결정합니다. 행/열을 움직이거나 로컬에 남습니다. 실제로는 배선을 줄이기 위해 다양한 디자인이 가능하나 위 이미지는 기본적인 구성을 표기한 것입니다. 인텔은 2014년의 논문에서 8x8 코어의 시뮬레이션 데이터를 공개한 바 있는데, 일반적인 메쉬 설계나 경쟁 상대의 설계보다 전력 소비가 적고 차지하는 면적도 작습니다. 일반적인 디자인의 지연 시간은 다소 짧고, 배선 절역과 전력 소모를 줄이기 위해 특정 부품을 비활성화하는 적극적인 파워 게이팅 구성으로 보다 전력 효율성이 높습니다. 인텔은 2014년 초에 이 시뮬레이션 작업을 진행했으며 실리콘에 적용해나가는 과정이라 설명했습니다.
링버스는 코어와 인터커넥트의 실리콘 레이아웃이 규칙적일 수 있습니다. 그리고 메쉬는 더 까다로워집니다. 메쉬 다이어그램은 x*y 배열이며 직사각형으로 표시됩니다. 링에선 쌍을 이루는 다른 코어를 추가하면 코어 수가 늘어나지만, 메쉬에 코어를 추가하면 가장자리와 모서리 부분이 더욱 늘어나, 모든 코어가 평등하게 동작하지 않고 성능이 떨어질 수 있습니다. x축과 y축의 수가 같은 경우가 일반적으로 가장 좋습니다.
위 이미지는 스카이레이크-X의 HCC 실리콘 다이입니다. 이것의 규칙을 계산하면 4x5 구조로 배치된 20코어 프로세서처럼 보이지만 두번째줄 상/하단이 코어처럼 보이지 않습니다.
그 이상한 코어 중 하나를 확대한 것입니다. 3개의 규칙적인 청색/녹색 수직 영역이 3개씩 총 6개가 있습니다. 스카이레이크-X는 메모리 채널이 4개 뿐이나 스카이레이크-SP는 6개의 메모리 채널까지 갖고 있습니다. 12코어는 3x4 배열로 쉽게 만들 수 있으나 12코어 디자인에 2개의 추가 코어 크기를 생각하면 14개의 세그먼트가 필요합니다. 14코어가 작동하는 유일한 메쉬 배열은 7x2 뿐이며, 이 경우 DRAM 컨트롤러를 전체 줄을 채우거나 반대쪽 끝에 위치해야 합니다. x*y에 2가 들어간다면 전원, 면적, 단순성을 위해서 링버스를 쓰는 게 더 효율적입니다. 따라서 12코어 코어 i9-7920X는 HCC 18코어 실리콘에서 파생됐을 가능성이 높고, 왜 이 CPU가 많이 연기됐는지도 알 수 있습니다.
스카이레이크-X의 히트 스프레더 제거 이미지는 이미 나온바 있습니다. 그리고 이를 통해 실리콘 다이를 측정할 수 있습니다. 인텔은 몇 주 전에 다이샷을 공개해 5x6 배치의 다이 사진을 공개한 바 있습니다.
스카이레이크-SP 다이 크기 | |||
코어 구성 | 크기(mm) | 면적(mm2) | |
LCC | 3x4 (10-core) | 22.0 x 14.0 | 308 mm2 |
HCC | 4x5 (18-core) | 22.0 x 21.5 | 473 mm2 |
XCC | 5x6 (28-core) | 21.5 x 31.5 | 677 mm2 |
인텔 브로드웰-E는 터보 부스트 맥스 3.0이라는 Favoerd Core를 도입했습니다. 실리콘 다이 내의 코어가 서로 다른 클럭과 전압 특성을 갖는 것으로, 그 중 최고의 코어를 Favoerd Core라 하며, 싱글 스레드 부하가 높을 경우 이 코어에 우선 배치해서 작업을 수행하게 됩니다. 이론적으론 일반적인 터보 부스트 2.0보다 더 빠르고, 싱글 스레드 애플리케이션에서 100~200Mhz 더 높았습니다. 다만 바이오스에서 기능 활성화나 드라이버/소프트웨어 설치도 필요합니다.
스카이레이크-S는 운영체제가 클럭과 전압을 제어할 수 있도록 설계했는데 이를 스피드 시프트라 부릅니다. 윈도우 10에서 이 기능을 쓰기 위해선 인텔과 마이크로소프트의 협력이 중요합니다. 스피드 스텝의 P 스테이트 전환과 비교해서 인텔의 새로운 스피드 시프트는, 운영체제가 P 스테이트의 일부나 전체 제어권을 포기하고 프로세서에 넘겨줍니다. 프로세서는 운영체제보다 더 빠르게 클럭을 설정하고, 더 세밀한 제어가 가능하며, 클럭 조절에 걸리는 시간도 OS의 20~30ms에서 스피드 시프트의 1ms로 줄어듭니다.
스피드 시프트는 최대 성능을 높이진 못하지만 짧은 시간 동안 높은 성능을 필요로 하는 작업을 빠르게 끝낼 수 있습니다. 우리는 대부분의 시간을 웹서핑에 쓰는데, 웹브라우징은 페이지를 빠르게 로딩한 후 프로세서를 아이들 상태로 되돌립니다. 스피드 시프트는 CPU, 운영체제, 드라이버, 바이오스 등 모든 부분에서 활성화해야 합니다. 일부 메인보드는 이 기능을 끈 채로 출고하거나 아예 관련 설정이 없기도 합니다.
그리고 X299 메인보드가 있습니다. 스카이레이크-X와 카비레이크-X 프로세서를 바꿔 장착할 때, 전원을 완전히 차단하고 바이오스 리셋 버튼을 30초 동안 눌러야 한다는 지시가 있었습니다. 스카이레이크-X는 몇가지 통합 전압 레귤레이터를 제공하나 카비레이크-X는 메인보드 기반입니다. 따라서 잘못 구성되면 CPU에 들어가는 전압에 손상이 생길 수 있습니다. 이런 작업 없이 CPU를 전환할 수 있어야 한다고 생각하나 다른 문제도 있습니다. 일부 스카이레이크-X는 예상했던 것보다 25~50% 정도 성능이 떨어진 경우가 있었습니다. 카비레이크-X는 이런 일이 없었습니다.
메인보드 업체에선 메쉬 클럭(터보 모드가 있을 경우), 터보 모드 제어, 스피드 시프트 기능 제어에 몇가지 문제가 있다고 말합니다. 이들 제어 기능은 일부 테스트에서는 작동하나 일부 테스트에서는 기본 동작을 무시하거나 성능을 떨어트리곤 합니다. 최신 바이오스를 검사해도 게임이나 소프트웨어의 전원 관리에 근본적인 문제가 있다고 판단했습니다. 게임 코드 자체의 최적화 문제라고는 보이지 않는게, 기본적인 마이크로 아키텍처는 약간의 캐시 조정을 제외하면 동일하며, 오래된 샌디브릿지 코어 i3에서 작동하던 그대로입니다. 여전히 바이오스 업데이트나 이런 문제가 생기는 이유는 기다리고 있습니다. 일부 게임에선 많은 영향을 받지만 다른 게임에선 전혀 영향을 받지 않았습니다. GPU에서 비롯된 문제는 아니며 CPU에서 비롯된 문제입니다.
풀로드에서의 전력 소비량입니다. 스카이레이크-X는 최신 14nm 공정을 사용했지만 새로운 캐시, 메쉬, AVX512 명령어 때문에 소비 전력이 늘어났을 것이라 예상할 수 있습니다. 전반적으로 TDP 값을 넘어서는 값이 나옵니다.
우선 CPU 성능 테스트입니다.
PDF 불러오기. 더 높아진 클럭이나 L2 캐시의 효과로 성능이 높아졌다 보입니다.
FCAT 처리. 하나의 스레드가 하나의 프레임을 가져와 처리하고 덤프합니다. 클럭이 많은 영향을 미치기에 7820X의 성능이 높습니다.
3D 파티클 무브먼트. 7900X가 더 높은 클럭으로 좋은 성과를 냈습니다.
디지커텍스 1.20. L3 캐시 구조의 변경 때문인가 기존 HEDT 프로세서의 성능이 더 좋게 나왔습니다.
포토스캔 1.0. 멀티스레드/캐시/메모리 대역폭에 영향을 받습니다. 10코어와 8코어의 차이는 크지 않으나 클럭이 영향을 줍니다.
중간의 세부 벤치마크 그래프는 생략합니다. 출처에서 직접 보세요. 결과만 소개합니다.
이 테스트에선 스카이레이크-S 기반 코어 i5-6600과 스카이레이크-SP 기반 코어 i9-7900X를 대상으로, 터보 클럭 없이 3GHz로 클럭 고정, 모든 코어/4코어/하이퍼스레딩 끄고 테스트했습니다. 전력 사용량과 상관 없이 단지 성능만 측정했습니다. 그러나 두 프로세서가 지원하는 메모리 클럭은 다릅니다. DDR4-2133과 2400이지요. 이 점 감안하시고.
싱글스레드에선 스카이레이크-SP가 전반적으로 좋은 IPC를 보였습니다. 다만 오래된 테스트에서는 전반적으로 성능이 떨어졌습니다. L2 캐시의 대기 시간이 늘어나고 캐시 구조가 바뀐 것이 영향을 줬을 가능성이 있습니다.
멀티스레드 테스트입니다. 코로나 렌더링에선 엄청난 성능 향상을 보였으는데, 코로나는 대용량 L2 캐시에서 좋은 성능을 내곤 합니다. 반면 핸드레이크 인코딩에선 8%까지 성능이 되려 떨어지기도 했습니다. L3 캐시의 새로운 구조가 제대로 작동하지 않았을 수 있습니다.
종합해서 보면 어.. 별로 나아진 게 없군요. 다만 캐시와 코어 수 등의 가중치를 따져보면 스카이레이크-SP는 0.5% 정도 더 나아진 모습을 보여준다고 할 수 있습니다. 그리고 이건 각각의 코어로 따져봤을 경우 이야기지, 10코어의 스카이레이크-X는 여전히 강력합니다.
그리고 인텔이 고작 0.5%의 성능 향상을 위해서 새 칩을 내놓은 건 아닙니다. 인텔은 엔터프라이즈 시장에서 큰 돈을 벌고 있으며, 인텔의 큰 고객들은 엔터프라이즈 컴퓨팅의 상당 부분이 제한된 L2 캐시 용량 때문에 제 성능을 내지 못한다고 요청합니다. 인텔은 그 요구를 받아들인 것입니다.
결론
스카이레이크-X에서 가장 크게 달라진 점은 AVX-512 유닛 추가, L2/L3 캐시 구조 조정, 메쉬 기반 구조로의 전환입니다. 일반 소비자들에게 있어서 가장 큰 점은 인텔의 10코어 프로세서를 999달러로 구할 수 있게 됐다는 점입니다.
일부 게임 테스트에선 성능 문제가 남아 있습니다. 이것이 아직 성숙되지 않은 플랫폼에 의한 문제라 판단하며, 게임에 대한 평가는 아직 보류하겠습니다.
소비자들에게 주어진 선택지는 이렇습니다.
1. 가장 안전한 방법은 코어 i9-7900X를 오늘 사는 것입니다
2. 고성능 GPU로 게임을 하고 싶다면 스카이레이크-X를 살 돈에서 400달러를 빼 그래픽카드를 구입하고 나머지로 코어 i7-7820X를 사세요
3. 경쟁력 있는 저렴한 가격의 CPU라면 지금 라이젠 7을 사세요
4. 더 많은 PCIe 버스를 원한다면 쓰레드리퍼를 기다리세요. 60개의 PCIe 레인을 무시할 순 없습니다.
5. AVX512를 쓰고 싶다면 다음 인텔 CPU를 기다리세요.