기글 하드웨어 스페셜 게시판

비교적 전문적이고 내용이 긴 특별한 정보들이 올라오는 곳입니다. 회원만 볼 수 있는 게시판입니다. 이곳의 글은 절대로 다른 곳에 퍼갈 수 없습니다.

코어 i7 프로세서의 아키텍처 설명과 성능 테스트

이 사진의 유래는 여길 참고하세요 http://gigglehd.com/zbxe/12177721

http://gigglehd.com/zbxe/1259390

2008.11.11 01:37:31

2655

코어 i7 프로세서의 아키텍처 설명과 성능 테스트입니다. 출처는 http://www.hkepc.com/1934

The 'Tock' - 새로운 네할렘 마이크로 아키텍처의 등장.

앞으로 십년, 심지어 그보다 더 먼 미래의 프로세서 시장 발전을 맞이하여, 인텔은 새로운 'Tick-Tock' 실리콘=마이크로 아키텍처 발전 전략을 발표하였습니다. 매년 새로은 프로세서를 발표할때, 마이크로 아키텍처를 개량하거나 혹은 새로운 마이크로 아키텍처를 도입하는 것입니다. 각각의 'Tick'은 아키텍처의 성능을 강화하는 새로운 실리콘 제조 기술을 대표하고, 이와 상대되는 Tock은 새로운 마이크로 아키텍처를 의미합니다. 'Tick-Tock'의 주기는 대략 2년입니다.

이런 계획에 맞추기 위해 인텔은 2007년 11월에 코드네임 펜린의 차세대 코어 2 프로세서 패밀리를 발표했습니다. 새로운 45나노미터 High-K 메탈 게이트 기술을 사용하고, 마이크로 아키텍처 설계를 개량한, 제일 최근의 'Tick'입니다. 다음으로 등장할 Tock의 코드네임은 네할렘으로, 미국 오레건주 포트랜드시 부근의 작은 마을입니다. 이것은 기존의 코어 마이크로아키텍처를 대폭 개량하여 더 많은 기능을 추가하여, 성능을 향상시키고, 절전 기능을 조절하며, 멀티 프로세서 확장 능력과 성능의 평형을 이루는 설계를 하여, 연산 코어와 연산을 담당하지 않는 코어로 나뉩니다.
연산 코어에서 달라진 점:
1. 하이퍼 스레딩 기술을 다시 도입. 3세대 하이퍼 스레딩 기술, 4개의 코어로 8개 스레드를 처리.
2. VT-D 가상화 기술 지원. 가상화 입/출력 디바이스를 증가하여 가상 머신의 성능과 효율을 향상.
3. 터보 모드의 추가. 같은 TDP에서 단일 스레드의 실행 효율을 자동으로 증가.
4. 인텔 SSE 4.2 명령어 세트 추가. XML, 문자열 처리 능력 개선.

연산 코어가 아닌 부분에서 달라진 점:
1. L3 캐시 사용. L2는 매우 낮은 레이턴시의 설계이며 L3 캐시는 공유 설계.
2. 내장 메모리 컨트롤러. 3채널 DDR3 메모리 지원. 대역폭은 최고 3배 증가.
3. 퀵패스 인터커넥트로 전통적인 FSB를 대체. 대역폭은 최고 25.6GB/s.
4. 모듈화 설계. 필요에 따라 코어 부분을 늘리거나 뺄 수 있어 시장의 수요에 따라 제작 가능.

확장성이 있는 모듈화 설계

인텔은 네할렘 아키텍처를 설계할때 제일 먼저 확장성을 고려했습니다. 하나의 칩이 싱글 스레드나 멀티 스레드의 처리에 모두 맞아야 하고, 성능을 내면서도 배터리 유지 시간에는 변동이 없어야 하며, 서버, 데스크탑, 모바일 시장에 최적화된 아키텍처 버전을 간단하게 제공할 수 있어야 했습니다. 이렇게 인텔은 아키텍처에 큰 변동이 없으면서도 각각의 가격대와 성능에 알맞는 제품을 준비해야 합니다.

이 목적을 지키기 위해 네할렘 프로세서 유닛은 Building Block 모듈화 설계를 사용하여, 프로세서 코어, 캐시 메모리, 내장 그래픽 코어, 메모리 컨트롤러, 퀵패스 인터커넥트를 자유롭게 조합하여, 최고 8코어 16스레드의 연산을 지원하고, 내장 메모리 컨트롤러와 퀵패스 인터커넷트를 확충하여 여러 시장의 수요에 맞추도록 하였습니다.

그 밖에도 어떤 모듈의 기능을 수정해야 할 필요가 있다면 그 유닛만 고치면 되도록 하였습니다. 예를 들어 내장 그래픽 코어의 성능을 강화한다던가 하는 것처럼 말입니다. Building Block 모듈화 설계는 연구 개발 시간을 줄여 시장의 수요에 딸 반응ㅎ는 속도를 대폭 향상시켰습니다.

네할렘 패밀리의 로드맵

네할렘 프로세서의 최신 로드맵에 따르면 네할렘 마이크로아키텍처 기반의 코드네임 블룸필드, 코어 i7 프로세서는 11월 16일 정식 출시되는데 그 시장은 퍼포먼스급이나 그 이상의 데스크탑 시장입니다. 서버에서는 코드네임 네할렘-EP/WS의 제온 5500, 3500을 2009년 1/4분기에 출시합니다.

이어서 중고급형 센트리노 모바일 플랫홈에 맞춰 코드네임 클락스필드 프로세서가 출시되고, 메인스트림 데스크탑 시장에는 코드네임 린필드 프로세서가 2009년 3/4분기에 등장합니다. 저가형에서는 모바일 플랫홈에서 코드네임 오번데일 프로세서가 출시되고, 엔트리-벨류 데스크탑에서는 코드네임 헤븐데일 프로세서가 2010년에 처음으로 모습을 드러냅니다.

Tick-Tock 실리콘-마이크로아키텍처 발전 계획에 따라, 인텔은 32나노 제품을 2009년 하반기부터 양산할 것입니다. Tri-gate 트랜지스터, High-K와 Strained Silicon, 코드네임 P1268의 32나노 공정은 193 immersion lithography를 중요한 금속층에, 193나노미터와 248나노미터의 dry lithography를 중요하지 않은 금속층에 사용합니다. 최초의 32나노 공정 프로세서 패밀리는 코드네임 웨스트메어이고, 2010년에는 다시 새로운 아키텍처의 32나노 공정 프로세서인 샌디 브릿지가 출시됩니다.

인텔 네할렘 마이크로아키텍처의 개요

비록 네할렘이 새로운 마이크로아키텍처이긴 하지만 그 연산 유닛 설계는 여전히 펜린 마이크로아키텍처 기반입니다. 예를 들어 Wide Dynamic Execution의 4개 Decode 설계, 128-Bit SSE Execution Units, SSE 4.1 명령어 세트 지원, Smart Memory Access 메모리 기술, Smart Cache 등등입니다. 기존에 펜린 마이크로아키텍처에 존재했던 기술들을 네할렘 마이크로아키텍처에서는 더 강화하여 최대한의 성능을 낼 수 있도록 하였습니다.

개량된 Front-End 설계

이전의 인텔 코어 마이크로아키텍처에서는 1 사이클이 4개의 명령(구형 프로세서에서는 최대 3개의 명령만 처리 가능)을 처리할 수 있었고, Macro-Fusion 기술을 추가하여 TEST/CMP 명령어 세트를 단일한 Micro-Op 명령으로 합칠 수 있었습니다. 이렇게 특정 상황에서는 1 사이클에 5개의 명령을 처리할 수 있고, Micro-op Fusion에서 같은 Macro-ops를 하나의 Micro-ops으로 혼합하여 Out-of-order 회로를 통과하면 10%의 Micro-op 명령어 실행 횟수를 줄이게 됩니다.

또한 코어 마이크로아키텍처에서는 4개의 Decode 설계를 사용하여, 한개의 사이클에 처리할 수 있는 명령이 똑같이 4개입니다. 역시 Macro-Fusion 기술을 지원하는데 단일한 Micro-Op 명령어 세트로 조합할 수 있는 것이 TEST/CMP에 불과했던데 비해, 새로 JL/JNGE, JGE/JNL, JLE/JNG, JG/JNLE가 추가되어 연산 성능이 대폭 상승하였습니다.

그 밖에도 인텔 코어 마이크로아키텍처의 Macro-Fusion은 오직 32비트 모드만 지원했기에, 64비트 모드에서는 작동하지 않았습니다. 이것은 64비트 작업 시스템에서 프로세서가 가지고 있는 잠재적인 성능을 완전히 발휘하지 못한다는 것을 의미합니다.

새로운 Loop Stream Detector 설계

인텔 코어 마이크로아키텍처의 Loop Stream Detector 설계

소프트웨어의 스레드에서는 Loops가 자주 출현합니다. 이런 Loops는 Decode가 멈추지 않고 같은 명령을 반복하게 하는데, 프로세서는 이때에도 똑같은 분기 예측을 계속하여 리소스를 낭비하게 됩니다. 따라서 인텔 코어 마이크로아키텍처에서는 새로 Loop Stream Detector를 추가하여 이러한 Loops 동작이 Loop Stream Detector에서 하드웨어적으로 처리되도록 하였습니다. 최고 18개 Instructions 길이의 Loops를 Branch Prediction과 Fetch를 지나지 않고 처리하도록 하여 처리 효율을 높임과 동시에 Branch Prediction과 Fetch 로직 유닛이 대기 상태로 들어가 절전 효과를 가져오게 됩니다.

네할렘 마이크로아키텍처는 이런 설계를 똑같이 사용하면서도 대폭 강화하였습니다. 이전의 Loop Stream Detector는 Loops Instructions을 처리할때 마지막에는 여전히 Decode 유닛에 넘여 디코딩을 해야 했지만, 네할렘 마이크로아키텍처의 Loop Stream Detector는 완전히 Decoder를 대체하여 절전 효과를 더욱 향상시켰습니다.

그 밖에도 처리할 수 있는 Loops Instructions의 길이를 18개에서 28개로 늘렸을 뿐만 아니라, Macro-Fusion 기술을 지원하여 Micro-Op 명령어의 조합이 가능합니다.

강화된 병렬 처리 능력

인텔 코어 마이크로아키텍처의 유닛은 Unified Reservation Station 구조를 사용하여, 명령어를 채워 연산 유닛에게 주는 것을 담당하도록 하였고, 메모리 처리 유닛을 지고 있습니다.(Load, Store Addess, Store Data, 3개의 연산 유닛 포함) 이렇게 하여 1 사이클에 6개의 명령을 처리할 수 있습니다.

네할렘 마이크로아키텍처에서는 이 설계를 그대로 사용하는것 외에도 Out-of-Order 실행의 명령어 수를 늘려 소프트 코드의 병렬 성능을 개선하였습니다. Out-of-Order Windows의 크기는 33%로 늘어났고, 아키텍처의 변동에 맞추기 위해 네할렘 마이크로아키텍처는 Reservation Station의 수를 32개에서 36개로 늘렸고, Load Buffers의 수를 32개에서 48개로 늘렸으며, Store Buffers의 수는 20개에서 32개로 늘렸습니다. 이런 특징들로 인해 병렬 처리 성능이 대폭 개선되었습니다.

분기 예측의 정확도 상승

연산 유닛의 수와 사이클 외에도, 프로세서의 성능을 개선하는데 제일 좋은 방법은 프로세서의 분기 예측 정확도를 개선하는 것입니다. 이 기능은 어떤 부분의 분긱 실행될 것인지를 예측하는데, Branch Predictor는 프로세서가 고성능을 낼 수 있는지에 대해 중요한 작용을 합니다. 이것이 프로세서가 분기 처리 조작을 건너뛰어도 된다고 인지한다면 각종 명령의 액세스와 실행을 직접 예측하게 됩니다.

그 밖에도 현재의 프로세서는 명령어 자체의 해석을 필요로 합니다. 분기 목표나 무조건적으로 연산을 건너뛸 때, 그 전에 분기 목표 예측 부분에서 이 부분을 먼저 예측하게 됩니다. 성능 향상 외에도, 분기 예측의 정확도는 프로세서가 분기 예측을 잘못하여 생기는 시간을 줄여, 절전에도 도움이 됩니다.

네할렘 마이크로아키텍처에서는 L2 Branch Preductor를 개선하여 크기가 큰 으플리케이션 소프트웨어(데이터베이스 같은 것들)에서 분기 예측 성능을 개선하였습다. 특별히 2nd Level Branch Target Buffer를 추가하여, 데이터가 통과하기 전에 먼저 분기를 예측하여 필요로 하는 분기 데이터를 캐시에 저장, 파이프라인 프로세서에서 분기 예측 대문에 생기는 성능 손실을 줄였습니다.

또한 네할렘 마이크로아키텍처는 Advanced Renamed Return Stack Buffer를 추가하여, 되돌아온 명령과 관려된 앞/뒤 포인터를 저장하고 조절하여, 예측이 틀려서 되돌아온 명령을 처리하는데 도움이 됩니다. x86의 RET 명령 등.

강화된 Memory Subsystem 설계

메모리 실행 성능의 향상은 프로세서 실행 성능에 있어서 아주 중요합니다. 따라서 인텔은 코어 마이크로아키텍처에서 Memory Disambiguation, Hardware Prefetchers, Advanced Smart Cache을 사용하였고, 네할렘 아키텍처에서는 이들 설계를 강화하였는데, 여기에는 새로운 TLB 레벨, 고속의 16-Byte Unaligned Access, 빠른 동기화 시작 기술이 포함됩니다.

응용 프로그램의 데이터가 계속 늘어나면서, 성능을 향상하기 위해 반드시 TLB의 크기를 늘려 수요에 맞추게 되었습니다. TLB(Translation Lookaside Buffer)는 프로세서의 특수한 엑세스 저장장치로 그 내부에는 메모리 관리 하드웨어가 가상 주소를 물리적 메모리 주소로 전환하는 작업을 빠르게 하기 위한 데이터가 저장되어 있습니다.

이전의 코어 마이크로아키텍처는 L1 Instruction TLB와 L1 Data TLBs를 제공했습니다. 네할렘 아키텍처에서는 새로 L2 Unified TLB 레벨이 추가되어, 512개의 Small Page Entry(4k)를 제공하는데, 그 레이턴시가 낮다는 특징 때문에 프로세서의 멤보리 읽기/쓰기 성능을 향상하게 됩니다.

빠른 무배열 캐시 액세스 성능

네할렘 마이크로아키텍처 전에는 프로세서가 배열된 명령어에 대해서만 최적화 되었습니다. 모든 배열되지 않은 명령어는 꼭 16비트에 맞게 잘라져서 배열되야만 했는데, 예를 들어 MOVAPS/D, MOVDQU가 있습니다. 반면 배열할 필요가 없는 명령어는 MOVUPS/D, MOVDQU가 있습니다.

배열되지 않은 명령어는 실행 속도가 느리고 연산되어 나오는 분량이 적을 뿐더러, 1 사이클을 넘겨야만 완성되기 때문에 그 효율이 많이 떨어지게 됩니다. 따라서 컴파일러는 배열되지 않은 명령어의 부하를 피하기 위해 다른 것으로 대체하기도 하지만 달리 대체할 것이 없다면 다른 방법이 없습니다.

네할렘 마이크로아키텍처에서는 배열되지 않은 명령어에 대해 최적화를 하여, 배열되지 않은 명령어와 배열된 명령어를 동시에 실행할때 똑같은 실행 속도와 처리량이 나오도록 하였습니다. 또한 64비트 엑세스에도 최적화를 하여 기존의 코어 마이크로아키텍처보다 더 낮은 레이턴시와 더 많은 처리량을 지니게 되었습니다.

네할렘 마이크로아키텍처에서는 배열된 명령어와 배열되지 않은 명령어를 연산할때 실행에서 차이가 없습니다. 따라서 네할렘 마이크로아키텍처와 그 이후의 프로세서는 배열된 명령어를 사용해야 할 필요가 없습니다. 컴파일러가 배열되지 않은 명령어를 기피해야 할 이유가 없기에 컴파일 과정이 더 탄력을 받게 되며, 멀티미디어 연산에서 더 높은 성능을 낼 수 있습니다.

(이 부분은 먼저 번역했던 다른 글 http://gigglehd.com/zbxe/1193226 참조)

빠른 동기화와 실행 속도

시장에서 멀티 스레드를 사용하는 소프트웨어가 늘어남에 다라, 스레드의 동기화 처리가 갈수록 중요해지고 있습니다. 인텔은 멀티 스레드 소프트웨어의 확장성에 있던 제한을 발견하고, 네할렘에서는 전통적인 동기화 유닛을 더 빠르게 할 방법을 찾았습니다. 예를 들어 LOCK로 시작하는 명령언 XCHG 명령어의 실행 속도는 전통적인 소프트웨어에서 동기화 레이턴시를 줄이기에 현재의 스레드화 소프트웨어에서 현저한 성능 향상을 가져다주게 됩니다.

인텔은 LOCK CMPXCHG 실행을 예로 들어 설명하고 있습니다. 펜티엄 4의 레이턴시를 1로 잡는다면 코어 2 프로세서는 여기에 비해 0.35 정도이고, 네할렘은 0.2 정도에 불과합니다.

하이퍼 스레딩의 부활

하이퍼 스레딩은 펜티엄 4와 아이테니엄 프로세서에서 쓰였었는데, 1개의 실행 코어가 동시에 2개의 스레드를 처리할 수 있게 했던 기술입니다. 지금의 네할렘은 4-Wide 실행 엔진을 통해 멀티 코어 프로세서 중에서 멀티 스레드의 동기화 성능을, 동시에 모든 코어에서 실행할 수 있는 코어의 전체 스레드의 수보다 1배 더 높였습니다. 이것은 1개의 쿼드코어 프로세서가 8개의 스레드를 동시에 실행할 수 있다는 말이기도 합니다.

사실 하이퍼스레딩 기술은 최고의 전력 소모량대 성능비를 이끌어 낼 수 있습니다. 하이퍼 스레딩을 위해 추가하는 트랜지스터 수는 전력 소모량이 그리 많지 않으며, 1개의 완전한 코어를 추가하는 것보다 가격대 성능비가 더 좋습니다. 네할렘 마이크로아키텍처의 넓은 대역폭과 고용량 캐시의 장점이 추가되어 하이퍼 스레딩의 성능을 충분히 발휘할 수 있습니다.

인텔에서 제공하는 데이터에 따르면 하이퍼 스레딩은 프로세서의 성능을 현저히 개선-20~30%-하면서도 아주 작은 전력만 추가로 지출하면 된다고 합니다. 에너지의 수요가 갈수록 늘어나는 지금, 하이퍼 스레딩은 고성능과 절전 기능을 제공하게 될 것입니다.

하지만 하이퍼 스레딩이 모든 프로그램에서 성능을 다 높이는 것은 아닙니다. 일부 프로그램-특히 게임에서은 성능 향상이 2~5% 정도에 불과합니다. 하지만 절대 다수의 프로그램에서는 하이퍼스레딩의 이익이 비교적 뚜렷하게 나타납니다.

새로운 L3 Smart Cache 구조

인텔 네할렘 마이크로아키텍처에서는 L3 Smart Cache 설계를 사용하였는데, 주요 설계 목적은 프로세서 코어 수에 따른 업그레이드 탄력성을 높이고, 캐시 엑세스의 레이턴시를 더 낮추는 것입니다. 특히 멀티코어 프로세서의 설계에서는 캐시의 리소스 액세스 효율이 더 뛰어나야 하는데, 인텔 엔지니어들이 이를 매우 중욯게 생각한 것입니다.

인텔 네할렘 마이크로아키텍처의 L1 캐시 설계는 기존의 코어 마이크로아키텍처와 비슷합니다. 똑같이 32KB의 Instruction Cache와 32KB의 8-Way Data Cache가 있지만 더 많은 L1 错失을 지원합니다.

L2 Shared Cache 설계를 포기하면서 각각의 코어는 각자 독립된 256KB 8-Way L2 Cache를 사용합니다. 상대적으로 대용량이었던 Share Cache와 비교하여 네할렘의 l2 캐시응 용량이 줄어들었지만 아주 낮은 엑세스 레이턴시를 지니는데 10 사이클 정도입니다.

지금까지의 코어는 자신만의 L1 캐시의 용량이 매우 작아, L2 Shared Cache를 자주 사용했었습니다. 하지만 기존의 L2 Shared Cache의 레이턴시가 상당히 높기 대문에 256KB의 독립 L2 캐식 평형을 유지하기에 적당하다고 본 것입니다.

Shared Cache 설계는 새로 증가된 L3 캐시로 대체되었는데 그 작용은 여전히 데이터를 공유하는 것입니다. AMD에서 Exclusive 방식을 사용한 것과 달리, 인텔은 여전히 계속하여 Inclusive 방식을 사용하여 멀티 코어에 맞추고 있습니다. 각각 코어의 L1, L2 캐시 데이터는 반드시 L3 캐시에도 저장되는데 만약 L3 공유 캐시에서 데이터를 발견할 수 없다면 이것은 그 데이터가 프로세서 내부에 저장되어 있지 않다는 것을 의미합니다. 다라서 프로세서는 다른 코어의 캐시 내용을 검색할 필요 없이 직접 시스템 메모리에 엑세스하면 되기에 불필요한 레이턴시를 대폭 낮추게 됩니다.

여기서 주의깊게 봐야 할 것은 네할렘 마이크로아키텍처에서 Snoop Filter 기능을 지원한다는 것입니다. 하나의 L3 캐시에서 다른 코어의 L1이나 L2 데이터를 찾을때, 네할렘 마이크로아키텍처는 다른 코어의 L1/L2 캐시의 값을 바로 읽어들여, 상대적으로 속도가 느린 L3 캐시에서 데이터 회전을 위해 기다릴 필욕 없습니다.

Snoop Filter의 정확성을 향상하기 위해 인텔은 Core valid Bits를 추가하여, 각각 코어의 캐시 라인에 표기를 하게 됩니다. 이로서 데이터 엑세스 효율과 정확성이 개선되었습니다.

그 밖에 네할렘의 L3 공유 캐시는 모듈화 설계를 사용합니다. 블룸필드 쿼드코어 프로세서는 8MB 용량의 16-Ways 설계를 사용하는데, 앞으로 인텔은 수요에 따라 L3 캐시의 용량을 쉽게 늘릴 수 있어, 더 많은 수의 코어에 맞춰 사용할 수 있습니다.

FSB를 포기. 새로운 Quick Path Interconnect의 등장

지금까지 Intel Front-Side Bus 아키텍처의 진화

프로세서의 성능을 개선하면 병목 현상이 잠재할 수 있습니다. 즉 프로세서나 그 코어 내부에서 명령어와 데이터를 미리 가져오는 속도가, 명령어와 데이터를 실행하는 속도보다 느린 것입니다. 어떻게 이런 상황이 발생하건 성능은 모두 떨어지게 되며, 특히 프로세서와 실행 내부 코어가 시스템 메모리를 엑세스하는 속도는 시스템 성능에 있어서 아주 중요합니다.

차세대 네할렘 아키텍처의 중요한 개혁 중에 하나는 Intel Quick Path와 Scalable Shared Memory 설계입니다. 지금까지 다년간 사용해 왔던 외부 양방향 데이터 전송 기술, 즉 Front Side Bus를 포기하고, 고속의 상호 연결 방식으로 프로세서와 기타 부품을 연결하였는데, 그 목적은 시스템과 시스템 메모리의 대역폭이 부족하여 병목 현상이 생기는 것을 줄이고, 앞으로 출시될 프로세서의 성능과 확장성, 대역폭, 안정성을 높이는 것입니다.

퀵패스는 일종의 플랫홈 아키텍처로 프로세서와 칩셋 사이의 전송 채널에 그치는 것이 아니라 동시에 프로세서와 프로세서, 프로세서와 메모리 시스템 사이의 고속 연결로도 사용할 수 있습니다.

퀵패스에서 사용한 통신 협정은 Quick Path Interconnect(코드네임 Common System Interface. CSI)인데 그 장정음 P2P 방식의 통신 설계라는 것으로, 모든 프로세서 코어가 단일한 버스를 사용할 필요가 없기 때문에 메모리와 I/O의 컨트롤 권한을 얻기 위해 서로 경쟁할 필요가 없습니다.

그 밖에도 Quick Path Interconnect는 멀티 프로세서 포트 중의 통신에도 사용되어 더 빠르게 부하를 줄일 수 있고, 밀집된 데이터 팩을 더 짧은 시간 안에 더 많은 데이터로 전송할 수 있습니다. 이는 멀티 프로세서를 사용하는 워크스테이션과 서버에서 눈에 띄는 성능 향상을 가져다 줍니다.

Quick Path Interconnect는 Low Voltage Differential 전송 기술을 사용합니다. Hyper-Transport나 SATA의 원리와 비슷합니다. 저전압 신호를 전송할때 전압을 구분하여 전송하는 시리얼 방식의 전송 기술입니다. 그 장점은 높은 클럭으로 작동할 수 있다는 것입니다. Quick Path Interconnect는 42개의 전송 레인이 있는데 그중 2개는 신호의 동기화에 사용되고 나머지는 데이터를 전송합니다. 따라서 한번에 20비트의 데이터를 전송할 수 있습니다.

인텔 퀵패스 기술의 백서에서는 Quick Path Interconnect가 초기에는 6.4GT/s per Link를 전송할 수 있어 총 대역폭은 25.6GB/s에 달했는데, 지금까지 인텔의 전송 기술에서 제일 높았던 1600MHz FSB의 12.8GB/s 대역폭이나, AMD Hyper-Transport 3.0의 최고 5.2GT/s per Link에서 제공했던 총 대역폭인 20.8GB/s 보다 더 높은 속도입니다.

인텔의 새로운 Quick Path Interconnect 아키텍처

전송의 신뢰성을 높여 고급 서버의 수요에 맞추기 위해, QuickPath Interconnect는 RAS 레벨의 기능을 내장하고 있습니다. Link-Level CRC 교차 검사 기능을 내장하여 CRC 교차 검사로 데이터의 정확함을 검사함과 동시에, 별도의 사이클을 낭비할 필요도 없습니다. 데이터 팩에서 에러를 발견하면 바로 재전송 신호를 보내어 완전한 데이터를 전송할 수 있도록 보장합니다.

CRC 기능 외에도 퀵패스 기술에는 Self-Healing Links 기능이 추가되어, 더 나은 채널을 다시 찾을 수 있어 영구적인 에러를 피할 수 있습니다. 또한 Clock Fail-Over 기능을 늘려 Clock-Pin 에러시에 자동으로 클럭 기능의 라우터 데이터 채널을 자동으로 재설정합니다.

더 중요한 것은 퀵패스가 핫플러그 기능을 제공하여 시스템을 끄지 않아도 바로 핫플러그를 지원하는 부품을 교체할 수 있다는 것입니다. 프로세서 확장카드 등이 포함됩니다.

전체적으로 말하면 인텔 퀵 패스는 새로운 물건이 아니며 기술에서의 이정비가 될만한 것도 아닙니다. 경쟁 상대인 AMD는 2003년에 K8 아키텍처를 출시하면서 이미 상당히 비슷한 하이퍼트랜스포트 설계를 사용했었습니다. 하지만 지금 AMD 프로세서는 서버와 워크스테이션에서 그때와 같은 우세를 다시는 누리지 못할 것입니다.

DDR3 메모리 컨트롤러의 내장

인텔 네할렘 아키텍처의 또다른 중요한 개선점이라면 메모리 컨트롤러를 내장한 설계입니다. 지금까지는 메모리 컨트롤러를 칩셋 내부에 내장하여 FSB와 메모리 컨트롤러를 연결, 서버나 고급형 워크스테이션의 모든 프로세서는 전부 다른 메모리를 사용하여, 각각의 프로세서들이 전부 자신만의 전용 메모리를 사용했습니다만, 지금은 프로세서가 코어 내부의 메모리 컨트롤러를 통해 직접 엑세스가 가능해졌습니다.

내장 메모리 컨트롤러의 장점은 P2P 방식의 연결 모드라는 것으로, 프로세서는 메모리와 I/O에서 서로 경쟁해가며 1개의 시스템 버스를 엑세스할 필요가 없습니다. 따라서 확장성이 향상되며 프로세서 사이에 대역폭을 서로 쟁탈할 필요도 없어 매우 낮은 레이턴시가 가능합니다.

최고급형 네할렘 아키텍처 제품은 3채널 DDR3 메모리 컨트롤러를 내장하여, 각각의 채널은 2 DIMMs를 지원, 최고 48GB의 용량을 사용할 수 있습니다. 중급형과 저가형에서는 메모리 컨트롤러를 코어와 같이 패키징하여 2채널 DDR3 메모리를 지원, 최고 32GB 용량의 RDIMM과 UDIMM 메모리를 사용할 수 있습니다.

메모리의 속도에서는 원래 최고급형 블룸필드가 DDR3-1333을 지원했지만 마지막에는 DDR3-1066 공식 스펙만 지원하게 되었습니다. 인텔은 아직 DDR3-1333의 인증 과정이 완성되지 않았다는 점을 주요 이유로 들었으며, 스펙이 최종 완성되어 인증된 후에 DDR3-1333을 공식 지원에 넣을 예정입니다. 따라서 현재 최고 메모리 대역폭은 일단 25.6GB/s에 머무르며, 듀얼 채널 DDR2-800의 12.8GB/s보다는 배가 더 높고, 앞으로는 32GB/s로 업그레이드될 것입니다.

Non-Uniform Memory Access 설계

네할렘 마이크로아키텍처의 내장 메모리 컨트롤러는 Non-Uniform Memory Access를 추가하였습니다. 이전의 Front Side Bus 설계와는 다르게, 프로세서가 FSB와 칩셋을 통과해야만 다른 프로세서의 메모리에 저장된 데이터를 엑세스 할 수 있었던 것과는 달리, 네할렘 마이크로아키텍처 프로세서는 직접 Quick Path Interconnect을 통해 다른 프로세서의 메모리에 저장된 데이터를 엑세스 할 수 있어, 데이터 엑세스 과정의 레이턴시를 대폭 줄였을 뿐만 아니라, Single Physical Address space을 개선하여 데이터 엑세스의 효율을 높였습니다.

Non-Uniform Memory Access 설계에서, CPU 0이 CPU 1에게 데이터를 요구하면 데이터는 CPU 1의 내장 메모리 컨트롤러가 관리하는 시스템 메모리에 저장되어 있습니다. CPU 1의 내장 메모리 컨트롤러는 시스템 메모리에 데이터 전송 요구를 보내 데이터를 QPI를 통해 CPU 0으로 보내며, 이 과정에서 CPU 1을 다시 통과하지 않습니다. 이것은 다른 CPU가 관장하는 원격 시스템 메모리의 엑세스 레이턴시를 최저치로 줄여줍니다.

물론 다른 CPU 관할하의 시스템 메모리를 엑세스 하는 것은 로컬 시스템 메모리를 사용하는 것보다 레이턴시가 높습니다. 하지만 예전의 FSB와 칩셋 내장 메모리 컨트롤러를 사용하는 것보다는 빠르기에 QuickPath Interconnect의 성능이 뛰어난 것입니다.

개선된 VT 가상화 성능

가상화 Virtualization 기술은 일반 유저들에게는 상당히 낮선 것이지만 워크스테이션과 서버에서는 많이 보급되어 있습니다. 컴퓨터에서 가상화로 구역을 나누어, 매 구역마다 단독적으로 작업 시스템과 프로그램을 사용할 수 있어, 1대의 컴퓨터를 여러대의 컴퓨터인 것과 같은 효과를 내게 됩니다. 가상화를 지원하는 컴퓨터는 멀티 코어 프로세서의 효율을 높일 수 있습니다.

네할렘 아키텍처는 가상화 기술에 많은 개량을 하였는데, 가상 머신의 전환 횟수를 줄이고, 전환 딜레이를 줄이며, 확장 페이지 테이블(EPT)를 도입한 것이 포함되어 있습니다. 사용자가 작업 시스템의 메모리에서 리얼 머신과 가상 머신의 메모리를 조절하여 선택하는 것을 지원합니다.

코어 마이크로아키텍처에서는 유저가 리얼 머신의 물리적 주소를 가상 머신으로 바꿀때 소프트웨어적으로 진행했지만 네할렘 아키텍처에서는 하드웨어 프로세서가 자동으로 처리하여, 가상 머신에서 딜레이를 줄이고, 페이지 테이블을 유저가 완전히 조절할 수 있어, 시작과 종료 시에 가상-리얼 머신의 전환 시간이 40% 빨라졌습니다.

새로 추가된 인텔 SSE 4.2 명령어 세트

네할렘 마이크로아키텍처는 코어 마이크로아키텍처의 SSE 4.1 명령어 세트를 기반으로 하여 7개의 새로운 SSE 4.2 명령어를 추가했습니다. SSE 4.1에서는 프로세서의 멀티미디어 처리, 예를 들어 그래픽 표시, 영상 코딩과 처리, 3D 그래픽 처리, 컴퓨터 게임 등에 치중했다면, SSE 4.2는 문자열 처리와 응용에 촛점을 맞추고 있습니다.

SSE 4.2 명령어 세트는 STTNI와 ATA의 2개로 세분할 수 있습니다. STTNI는 주로 문자열과 문서 처리의 가속을 담당하는데, 예를 들어 XML 어플리케이션에서 빠른 검색과 대조를 지원합니다. 소프트웨어 연산과 비교하여 SSE 4.2의 속도는 3.8배 더 빠르고, 2.7배의 명령 사이클을 절약하여, 서버 응용 분야에서 성능을 크게 개선합니다.

ATA는 데이터베이스의 검색과 식별을 가속합니다. 그 중에 POPCNT 명령어는 빠른 매칭과 데이터를 찾아내는데 큰 도움이 되며, DNA 기본 배열과 음성 인식 등에 사용될 수 있습니다. 그 밖에도 ATA는 하드웨어적으로 CRC32 하드웨어 가속을 지원하는데 이는 통신 어플리케이션에 사용하여 32/64비트를 지원하며, 소프트웨어와 비교하여 최소한 6배 이상 더 빠릅니다.

현재 Intel C++ Compiler 10.x와 Microsoft Visual Studio 2008 VC++ 에서는 모두 SSE 4.2 명령어 세트를 지원합니다. 인텔은 내년 상반기에 주요 서버 프로그램에 SSE 4.2 지원이 추가될 것으로 예측하고 있습니다.

새 Power Control Unit

사실 Deep Power Down Technology(C6) 모드는 새로운 물건이 아니라 이전 펜린 프로세서의 모바일 버전에서 지원했던 것입니다. C6 모드에서 전자 회로를 꺼서 소량의 트랜지스터에 흐르는 전력 소모량 손실 외에도 사용하지 않는 코어의 전력 소모량은 거의 0이 되어 최적의 전기 효율과 작동 효능에 도달하게 됩니다. 네할렘 마이크로아키텍처에서는 Power Control Unit을 추가하여 C-State 모드를 더 완벽하게 발휘할 수 있게 되어 성능과 절전 효과가 향상되었습니다.

Power Control Unit은 각각 코어의 PLL(Phase-Locked Loop)의 클럭과 프로세서의 Vcc 전압을 조절할 수 있습니다. 코어 내부의 센서에서 전송된 전류, 전압, 온도 등의 데이터를 접수받아, 모든 코어를 개별적으로 작동 전압과 코어 클럭을 조절하여, 코어를 독립적으로 C6 모드로 진입시키며, 다른 코어의 작동 모드에 영향을 주지 않습니다.

이 밖에도 시스템이 Power Control Unit 내부의 데이터를 엑세스하여, 전력 소모량과 온도 등을 포함한 데이터를 받아 전원부의 페이즈 수나 팬 스피드 등을 조절하는데 사용할 수 도 있어, 시스템 제조사나 메인보드 제조사들에게 더 많은 선택의 여지를 제공합니다.

Power Control Unit은 기존에 사용하던 소프트웨어적인 Interrupt rate의 장점을 그대로 가져왔습니다. 다른 C-State를 더 정확하게 선택할 수 있다는 것입니다. 이전의 소프트웨어적인 방법으로 C-State를 조절하는 것은 CPU Utilitzation의 값에만 의존하였는데, 실제로 작동할 때에는 비록 CPU Utilitzation의 설정값이 매우 상세했다고 해도, 레이턴시를 낮추는 것이 더 중요하기에, Power Control Unit에서는 더 복잡한 데이터를 계산하여 최적화된 C-State를 선택함으로서 시스템 성능의 손실을 줄입니다.

Turbo Mode로 싱글 스레드 연산을 강화

Power Control Unit 설계는 네할렘 아키텍처에서 코어별로 독릭접인 C6 모드를 제공하는 것 외에도, 새로운 터보 모드를 사용할 수 있게 해줍니다. 그 원리는 펜린 모바일 프로세서의 Dunamic Acceleration Technology와 비슷한데, 프로그램이 모든 코어를 완전히 사용하지 못하여 일부 코어가 아이들 상태로 있을 경우, Power Control Unit이 일부 코어를 다른 수준의 C-State 절전 모드로 바꿔 TDP의 여지를 만들고, 연산중인 코어의 클럭을 높이는데 사용하여 더 빠르게 프로그램 실행을 마치게 됩니다.

이 설계는 멀티 코어에 최적화가 되지 않은 프로그램에 큰 작용을 합니다. 네할렘 아키텍처는 탄력적으로 실행 모드를 제공하여 리소스의 낭비를 줄입니다. 2.66GHz의 코어 i7 920을 예로 들면 일부 코어가 아이들 상태에서 터보 모드를 자동으로 켰을 경우 프로세서 배수가 20x에서 21x로 상승하여 클럭이 2.66GHz에서 2.8GHz로 상승합니다. 비록 코어 클럭이 올라갔지만 일부 코어가 C-State 절전 모드로 들어갔기에 전체 프로세서 전력 소모량은 일전한 수평을 유지하거나 심지어 그보다 더 낮을 수도 있습니다.

하지만 먼저 알아야 할 것은 터보 모드를 사용하기 위해서 쿨러의 쿨링 성능이 받춰줘야 한다는 것입니다. 파워 컨트롤 유닛이 코어 온도가 일정 범위 이상으로 올라갔다고 탐지한다면 바로 터보 모드를 취소하게 됩니다.

블룸필드 쿼드코어 코어 i7 프로세서 패밀리

인텔의 차세대 코어 i7 프로세서의 엔지니어링 샘플, 코드네임 블룸필드입니다. 45나노미터의 납-할로겐 프리 제조 공정을 사용하며, LGA 1366 패키징을 사용하는데, 전체 구조가 기존 제품과 완전히 달라 현재 메인보드나 칩셋에서 호환되지 않습니다.

프로세서 면적은 LGA 775보다 더 커졌습니다. 그 크기는 37.5mm x 37.5mm에서 42.5mm x 45mm로 늘어났으며, 쿨러의 구멍 간격도 72mm x 72mm에서 80 mm x 80mm으로 넓어졌습니다. 따라서 기존의 775 소켓 쿨러를 새 시스템에서 그대로 사용할 순 없습니다.

인텔의 게획에서는 네할렘 아키텍처 프로세서의 블룸필드 코어를 11월 16일에 정식 출시할 예정입니다. 초기에는 3가지 모델이 있는데 Core i7-920 (2.66GHz/4.8GHz QPI), Core i7940 (2.93GHz/4.8GHz QPI), 최고급형인 Core i7-965 (3.2GHz/6.4GHz QPI)가 있습니다. 32KB L1 Instruction Cache, 32KB L1 Data Cache , 4웨이 256KB L2 Cache, 8MB L3 Shared Cache, TDP 130W, Hyper-Threading, Virtualization, Turbo Boost, Enhanced Intel SpeedStep 등을 지원합니다.

가격은 Core i7-920, Core i7-940, Core i7-965의 천개 도매 가격이 각각 $284, $562, $999입니다. 가격이 나쁘지 않은 편입니다(...한국은 빼고). 블룸필드 프로세서의 가격이 나쁘지 않기에 상당수의 업계 관계자들은 X58 메인보드의 판매가 괜찮을 것으로 기대하고 있지만, 아직 DDR3 메모리의 가격이 불합리적인 부분이 있기에 보급의 성공 요소는 여기에 있다고 보고 있습니다.

LGA 1366 프로세서의 크기기 크기에 기존 LGA 775 쿨러를 사용할 수 없습니다.

인텔 LGA 1366 프로세서 소켓

인텔 X58 칩셋, 4개의 PCI-Express 슬롯

네할렘 마이크로아키텍처는 퀵패스 인터커넥트로 기존의 FSB 아키텍처를 대체하기 때문에 기존 칩셋에서는 사용할 수 없습니다. 따라서 인텔은 코어 i7 프로세서를 발표함과 동시에 코드네임 Tylersburg의 인텔 Intel X58 칩셋을 발표합니다.

X58 칩셋은 FCBGA9 패키징을 사용하여 퀵패스 인터커텍트를 지원하고, 메모리 컨트롤러는 프로세서 내부로 옳겨갔기에 자체 메모리 컨트롤러는 가지고 있지 않습니다.

PCI-Express 버스에서는 X58 칩셋 내부에 36개의 PCI-Express Lanes이 내장되어, PCI-Express 2.0을 지원하며, 5개의 PCI-Express 컨트롤러를 내장, 2개의 PCI-Express x16과 1개의 PCI-Express x4를 지원하거나, 4개의 PCI-Express x8과 PCI-Express x4를 사용할 수 있습니다. 거기에 ATI 라이센스를 얻어 크로스파이어X를 지원하여, 쿼드 크로스파이어X를 사용할 수 있습니다.

다만 X58은 사우스브릿지 기능을 내장하지 않았기에 여전히 x4 DMI Link를 통해 ICH10 사우스브릿지를 연결합니다.

최초로 크로스파이어X와 SLI를 동시 지원

X58이 사람들을 기대하게 한 것은 새로운 QPI 아키텍처와 4개의 PCI-Express 슬롯 외에도 처음으로 CrossFireX와 SLI를 지원한다는 것입니다. 이것은 사람들이 꿈에서 추구하던 성능의 플랫홈이라 할 수 있겠습니다.

NVIDIA는 비록 Intel Quick Path Interconnect(QPI) 라이센스를 얻긴 했지만 QPI를 지원하는 칩셋 제품을 출시할 계획이 없습니다. 하지만 인텔 SLI 고급형 플랫홈을 위하여 NVIDIA는 인텔 X58 플랫홈에 코드네임 BR04의 nForce 200 브릿지 칩을 제공하여, X58 메인보드에서 SLI의 지원을 제공합니다.

하지만 nForce 200 브릿지 칩을 추가하는 방법은 메인보드와 PC 업계에서 보편적으로 사받아들여지지 않았습니다. 주요 원인은 nForce 200 브릿지 칩의 가격이 30$에 달하여 인텔 X58 메인보드의 가격이 직접적으로 향상하기 때문입니다. 뿐만 아니라 nForce 200이 SLI의 성능 향상에는 명확한 도움이 없는, 간접적인 라이센스 행위에 불과하기도 합니다.

비록 NVIDIA SLI 기술이 다른 회사에게 개방되진 않지만, 고급형 그래픽카드의 시장 점유율을 보장하고, ATI CrossFire의 승세를 막기 위해 NVIDIA는 결국 인텔 X58 메인보드에서 nForce 200 칩을 장착하지 않아도 SLI 기술을 사용할 수 있도록 개방했습니다.

NVIDIA MCP 사업부의 총 감독인 Thomas A. Peterson씨는 NVIDIA가 SLI 지원을 연장하기 위한 정책으로, 인텔 X58 메인보드에서 SLI 를 네이티브 지원하기로 결정하였으며, 현재는 비록 인텔의 X58 메인보드만 지원하지만, NVIDIA는 메인보드와 PC 업계 사이에 라이센스를 진행하기 때문에 인텔 X58 칩셋과는 관계가 없다고 하였습니다.

Thomas A. Peterson씨는 인텔 X58 메인보드가 자동적으로 라이센스를 얻는 것이 아니라고 보충하면서, 메인보드와 PC 업자들은 제품을 반드시 Santa Clara Certifcation Lab에서 인증을 받아야 하며, 인증을 받은 제품은 Approval Key를 받게 되는데, 메인보드 제조사들이 인텔 X58 메인보드의 System BIOS에 이를 넣어, 드라이버가 System BIOS에 내장한 Approval Key와 칩셋의 Device ID를 검사하여 SLI의 지원을 결정하게 됩니다.

또한 X58 SLI의 Approval Key는 공짜가 아닙니다. 물론 한개에 30$씩이나 하는 nForce 200 보다는 더 저렴한 방법입니다. Thomas A. Peterson씨는 아직 라이센스의 수량과 방식을 확정하진 않았으며, 판매되는 메인보드의 수에 따라 라이센스를 정하거나, 단일한 모델에 따라 라이센스를 정하거나, 심지어 회사가 아예 라이센스를 구매하는 방식이 될 수도 있습니다.

Thomas A. Peterson씨는 Approval Key를 System BIOS에 저장하여 유저들이 해킹하기 어렵게 할 것이라 하였지만, NVIDIA는 메인보드와 PC 완제품 업자들에게 초점을 맞추고 있기에, 이글이 정식으로 SLI 지원을 제공하려면 공식 인증을 받는 것이 유일한 방법이 될 것입니다.

현재 인텔 X58 SLI 플랫홈은 2개의 x16이나 1개와 x16과 2개의 x8을 지원하는데, PCI-e 브릿지 칩을 통과하여 3개의 x16이나 4개의 x8 PCI-e 디바이스를 사용할 수 있습니다. 4개의 x8은 4개의 그래픽카드를 장착하거나, 3 Way SLI에 PhysX 연산 지원을 추가할 수 있습니다.

하지만 NVIDIA은 X58 칩셋에 nForce 200을 같이 판매하여 SLI 를 지원한다는 전략을 포기하지 않았습니다. Thomas A. Peterson씨는 nForce 200 칩셋이 3개의 x16을 지원하며, 2개의 nForce 200 칩셋을 사용하면 4개의 x16 PCI-e 디바이스를 사용할 수 있습니다. 비록 메인스트림 게이밍에서 nForce 200 SLI을 사용하여 얻는 효과는 그리 크지 않지만 익스트림 게이머들이 궁극의 성능을 추구하는 것은 nForce 200 SLI가 여전히 가치가 있다는 것이기도 합니다.

X58 메인보드의 라이센스 방식이 2개나 그 이상의 PCI-e 슬롯을 가진 다른메인보드에도 보급되지 않겠냐고 물을 수도 있겠는데, Thomas A. Peterson씨는 현재로서는 오직 X58 메인보드에서만 이 방법을 고려중이며, 따라서 기존의 인텔 소켓 775 보드나 AMD 플랫홈에서는 여전히 기존의 엔포스 칩셋을 써야만 SLI를 사용할 수 있다고 밝혀, 여전히 SLI를 다른 칩셋 제조사에게 개방하는 것을 고려하지 않는다는 것을 알 수 있습니다.

비록 NVIDIA가 인텔 QPI를 사용하는 칩셋을 출시하지 않을 것이라고 했지만, Thomas A. Peterson씨는 NVIDIA가 인텔 칩셋 사업을 포기하지 않을 것이라고 강조했습니다. 이미 DMI를 사용하는 인텔 소켓 1160 플랫홈 칩셋을 출시할 것이라고 발표했으며, 외간에서 떠도는 NVIDIA가 칩셋 사업에서 철수할 것이라는 소문은 정확하지 않다고 강조했습니다.

테스트 환경

성능 테스트

인텔 네할렘 마이크로아키텍처의 진보는 상당히 눈에 띕니다. 기존 코어 마이크로아키텍처와 같은 클럭에서 성능이 평균 30% 앞서고 있습니다. 특히 메모리 부분에서 3채널 메모리 컨트롤를 내장한 것은, 기존의 칩셋 내장 메모리 컨트롤러와 비교하여 FSB를 지나지 않기 때문에 대역폭과 레이턴시에서 절대적인 우세가 있습니다.

그 외에도 Front-End 엔진, Execute Unit의 강화, 새로운 Smart Cache 아키텍처는 네할렘이 분기 예측과 멀티 스레드 연산 등에서 절대적인 성능을 발휘하게 합니다. 전체 연상 성능은 대폭 상승하여 저가형인 코어 i7 920조차도 기존 세대의 최고급형인 코어 2 익스트림 QX9770보다 높습니다.

경쟁 상대 중에서 최강인 AMD 페넘 X4 9950과 비교는 불공평해 보이기도 합니다. 45나노 공정 신제품에서 코어 클럭이 상승하겠지만 아키텍처가 그리 바뀌지 않았으니 인텔 프로세서의 왕좌를 뺏긴 힘들 것입니다.

코어 i7 프로세서의 전력 소모량

이상 전력 소모량은 모두 시스템 전체 전력 소모량임

메모리 컨트롤러를 내장하고 캐시 용량이 늘어났기에 트랜지스터 수가 그만큼 늘어나고, 이에 따라 전력 소모량 역시 늘어날 것이라는 점은 예측할 수 있습니다. 하지만 전력 소모량을 AMD 페넘 X4 9950과 비교하면 그리 많다고 말하기도 힘들겠지요.

거기에 코어 i7에 추가된 각종 절전 기능 때문에, 풀로드만 가지고 평균 전력 소모량을 판단할 수는 없다는 것입니다.

하이퍼스레딩의 성능 테스트

Out-of-order Windows와 Execute Unit의 수를 늘리면서 하이퍼스레딩을 다시 추가했는데, 대부분의 어플리케이션에서 하이퍼스레딩은 5~20%의 성능 향상이 있습니다. 특히 동영상 인코딩이나 그래픽 처리 등에서 매우 뛰어납니다. 다만 게임에서는 성능이 오히려 떨어지기도 합니다.

터보 모드 테스트

터보 모드의 테스트 결과입니다. 클럭이 2.6GHz에서 2.8GHz로 상승하면서 그만큼 더 빠른 연산 결과가 나왔습니다.

공냉에서 4GHz 오버클럭

코어 i7 시리즈의 세 재품 중에서 제일 주목을 받는 것은 역시 제일 저렴한 코어 97 920이겠지요. 전압 1.325V에 레퍼런스 정품 쿨러를 사용하여 4GHz 오버클럭이 가능했습니다.

크로스파이어와 SLI를 모두 지원

인텔은 일찌기 965 시절부터 크로스파이어를 지원해 왔습니다. 이번에 X58에서는 SLI의 지원이 드디어 추가되었습니다.

아래는 현재 공개된 X58 메인보드들의 SLI 지원 여부입니다.

테스트 결과 인텔 X58 메인보드에서는 SLI를 사용할 수가 없었습니다. 4장을 테스트했는데도 안됐다고 하던데 아직 샘플이라서 그럴지도.

네할렘은 아키텍처에 상당히 손을 많이 본 제품입니다. 경쟁상대는 당분간은 가격 말고는 경쟁할 만한 것이 없겠고. 거기에 네할렘이 소켓과 메모리가 모두 바뀌면서 시스템 거의 전체를 다 갈아 엎어야 한다는 것은 단점입니다. 하지만 성능에서는 비교할 제품이 당분간은 없겠지요.