쩜 긴듯 합니당.

Nehalem - Intel의 새 아키텍쳐에 대해 당신이 알고 싶어 하는 모든 것

1페이지

이 사람이 Ronak Singhal로, Intel에서 일한다. :

1.jpg

이 상황에서 그의 개인적인 면을 내가 말한다면, 아주 좋은 사람이다. 그는 또한 Nehalem의 아키텍쳐를 이끄는 사람이기도 하다.

Nehalem은 Intel에서의 최근 마이크로 아키텍쳐인데, 이것은 Intel의 운율 틱-톡 운율을 따진다면 톡에 해당한다.

2.jpg

이것은 새로운 아키텍쳐로써, 최소한 penryn 보다는 최근의 새로운 것이지만, 여전히 45nm 공정에서 만들어진 것으로 Penryn이 데뷔한 것과 동일한 공정이다. 내년 우리는 Westmere라고 불리우는 32nm 버젼의 Nehalem을 갖게 될 것이며 Sandy Bridge라는, 동일한 32nm 공정에서 만들어졌지만 새로운 아키텍쳐도 보게 될 것이다. 그러나 오늘은 Nehalem에 대한 것만을 보기로 한다.

최근 Intel은 Nehalem의 제품명을 발표하였다. :Intel Core i7 마이크로 프로세서가 그것이다. 우리는 이것에 대해 왜 Intel이 이런 제품명을 표기 하였는지 물었으며 그 결과 내가 얻을 수 있는 가장 최고의 답변은 나머지 제품 라인업이 모두 발표되면 이 모델명이 이해될 것이라는 답변이었다. Intel은 우리에게 제품명의 실마리도 제공하지 않아서, 우리는 이 모든것을 Core i7로 부르기로 하였다. 나는 이 제품명을 사용할 것이며 이 글에서 Nehalem이라는 이름으로도 표기될 수 있을 것이다.

2페이지

Nehalem 보기

이 다이어그램으로 시작해보자.

3.jpg

위의 다이어그램이 1개의 Nehalem 코어인데, 주의해야 할 것은 실제적으로 당신이 메모리 컨트롤러, L3 캐시 그리고 Intel이 코어 외의 것이 포함되지 않은 것을 살 수 없다는 것이다. 이 다이어그램이 정확하게 그려져있다. ; 실행 엔진은 코어 상의 1/3 면적에도 미치지 못하며 가장 다이에서 많은 면적은 차지하는 것은 비순차 스케쥴링과 폐기 회로이다. 이제 당신은 왜 Atom이 순차 실행 코어인지를 이해할 수 있을 것이다.

1개의 Nehalem 코어는 캐시가 주 구성 요소가 아니다. 대충 코어의 1/3이 L1/L2 캐시이며, 1/3은 비순차 실행 엔진이며 나머지 1/3이 디코드, 분기 예측 회로, 메모리 명령과 페이징이다. 명백히 이것은 당신이 여기 코어만 보기 때문에 속기 쉬운 것으로, 코어 외의 것은 엄청난 8MB의 L3 캐시를 포함하고 있어 이것이 다이의 균형을 뚜렷하게 바꾸고 있다.

4.jpg

여기 이것이 완전한 쿼드코어 Nehalem이다. Intel이 코어 외의 것이라 부르는 것이 L3 캐시, I/O, 메모리 컨트롤러 회로와 QPI이다. 데스크탑 nehalem 프로세서들은 1개의 QPI(Quick Path Interconnect)링크(QPI 0)을 가지는데 반해 서버/워크스테이션 칩들은 2개의 QPI (QPI 0과 1)를 갖게 될 것이다.

이 Nehalem 아키텍쳐는 가변성과 모듈성을 중점으로 설계 되어, 당신은 듀얼코어, 쿼드코어, 그리고 8개 코어 버젼을 2009년에 볼 수 있을 것이다.

5.jpg

Nehalem의 몇몇 버젼은 그래픽 코어도 포함할 것인데, 이것은 Nehalem의 코어 외의 것으로 위치 되어 선보일 것이다. 그래픽은 Larrabee 기반이 되지 않을 것이며, 이것은 단순히 현재의 G45 아키텍쳐에서 파생되는 것이 될 것이다.

3페이지

또다른 Conroe가 아니다.

Conroe에서 Pentium 4를 밤낮없이 비교하면, 전자는 Netburst 아키텍쳐에서 아주 멀찍히 떨어진 것으로 보기에는 모든것이 완벽히 다르게 보인다. 이 Pentium 4는 실제적으로 성능을 칩에서 뽑아내려면 엄청난 양의 소프트웨어 최적화가 필요하여서, Intel은 이때부터 이것에 대해 시행착오를 거쳐 모든 새로운 아키텍쳐마다 소프트웨어 집단에서 재 컴파일이나 재 최적화를 바라지 않게 되었다. Nehalem은 빠르게 출시 되어야 했으므로, 이것은 이런 것을 참조하여 설계 되었다.

6.jpg

Conroe는 앞쪽과정에서 4개 이슈를 실현한 Intel의 첫 프로세서였다. 이 프로세서는 동시에 디코드, 리네임, 그리고 리타이어를 최대 4개 마이크로 옵까지 할 수 있었다. Conroe의 대역폭은 실제적으로 엄청난 시간을 들여 만들어진 것으로, 몇몇은 Nehalem이 참조하였지만, 기본적으로 이것보다 더 넓을 필요는 없었다.

7.jpg

Intel은 Conroe에서 maro-ops 퓨전을 소개하였는데, 이 기능은 2개의 묶여진 x86 명령이 1개로 간주되게 "융합" 되는 것이었다. 이것은 디코드, 실행, 그리고 리타이어를 2개 명령어 대신 1개명령어로 수행 가능하게 하였고, 효과적으로 특정 상황에서 하드웨어의 대역폭을 늘리게 된다.

Nehalem은 함께 융합될 수 있는 추가적인 명령어를 추가했는데, 게다가 이 모든 경우는 현존하는 Core 2 칩에서도 지원된다.

8.jpg

또다른 매크로-옵 퓨전에서의 진보 사항은 과거에는 32비트 명령어만 융합되던데 반해 이제 64비트 명령어도 같이 융합이 될 수 있게 되었다는 것이다. 이것은 성능 향상이 약간 되지만 64비트 코드는 Nehalem 상에서는 성능 향상을 볼 수 있을 것이다.

4페이지

향상된 반복 흐름 검출

Core 2는 반복 흐름 검출 (Loop Stream Detector (LSD)) 기능이 있는데, 이 회로의 요점은 소프트웨어 구동 중 CPU가 반복 작업을 실행하는 것을 검출하는 것으로, (잠재적으로 반복의 마지막 분기에서 부정확한 예측이 있을 수 있다.) 분기 예측을 중지 시키고 간단히 LSD에서 부터 명령어가 흘러나가게 된다.

9.jpg
전통적인 예측 파이프라인

10.jpg
Penryn 상에서의 LSD 활성화

분기 예측과 페치 하드웨어 기능을 중지시킬 수 있으며 현재의 Core 2 CPU들은 LDF 내에서 최대 18개 명령어를 잡을 수 있어 반복이 완료되거나 LSD 내의 명령어가 바닥을 보일 때까지 단순히 스트림을 반복적으로 디코드 엔진에 보내게 된다.

11.jpg
Nehalem 상에서의 LSD 활성화

Nehalem에서는, LSD는 디코더 뒤로 물러나게 되며 이제 캐시는 마이크로 옵으로 디코드된다. 만약 반복이 검출되면, 분기예측, 페치, 그리고 디코드 하드웨어는 작동할 필요가 없으며 LSD는 재명령 버퍼어 직접적으로 스트림을 할 수 있게 된다. Nehalem은 그들의 LSD에 28개의 마이크로 옵을 캐시할 수 있는데, 이것은 실제적으로 Core 2 가 가능한 "명령어" 보다 더 많은 명령어 수행을 할 수 있다는 것을 뜻한다.

5페이지

Nehalem의 서버 관점의 이해 (그리고 분기 예측자)

나는 이전 글에서 이것을 얘기 하였기에 여기에서는 그렇게 깊게 들어가지 않겠지만, Nehalem은 Intel의 이미 충분하게 강한 분기 예측자에 대한 일반적인 진보를 이루어냈다.

이 프로세서는 이제 두번째 레벨 분기 예측자를 가지게 되었는데 이것은 느리지만, 더 많은 이전 분기 자료를 갖고 있으며 어찌됐든 가지게 되었다. 이 L2 분기 예측자의 포함으로 하여금 아주 큰 코드 크기를 가진 어플리케이션을 사용 가능케 하여, 향상된 분기 예측 적중률을 즐길 수 있게 한다. (Intel은 DB 어플리케이션의 예제를 제공하였다.)

재명명된 반환 스택 버퍼 또한 Nehalem에서 향상된 것 중 하나로 중점적으로 다루어질만 하다. (메모리 내에서 규칙있게 저장하는 데이터 구조에서 CPU는 순서대로 실행 하는데) 파이프라인 내에서의 분기예측 실패는 Penryn의 반환 스택 내에 잘못된 데이터 저장을 초래할 수 있다. 재명명이 있는 반환 스택은 스택 내에서의 오염을 방지하는 것을 지원함으로써, call/반환이 정확히 쌍으로 되어 당신은 언제나 심지어 분기예측 실패 상황에서도 Nehalem의 스택에서 정확한 데이터를 뽑아낼 수 있게 된다.

여기서 주요 어플리케이션은 아주 중요하다. : Nehalem은 서버 영역에서 Intel의 남아있는 약점을 고치기 위해 설계되었다. 우리 고유의 Johan de Gelas는 몇몇 시절동안 Intel이 데스크탑 영역 같이 서버영역에서는 그렇게 경쟁적이지 않았다고 말해왔다. 그는 심지어 IDF가 시작하기 전에 Nehalem의 서버 관점에 대한 아주 주관적인 글을 내놓기도 하였다. 많은 Nehalem의 향상점이 데스크탑 시장에 직접적으로 영향을 미치는데 반해, 이들의 설계는 서버에서 영감을 받았다는 것이다.

이것은 꼭 알아야 할 중요한 사항인데, 모든 Nehalem과 이 전 프로세서들의 아키텍쳐들이 Banias/Pentium-M과 Centrino 같은 모바일 사업의 측에서부터 나오기 시작했다는 것이다. 우리는 Nehalem으로, 서버군 시장이 데스크탑과 모바일 칩의 마이크로 프로세서 설계를 선도한다는 말이 맞아 떨어지게 된다.

* 여기서 부터는 또 다른글 시작.

기모노를 벳겨보자 : Intel은 Nehalem의 세부사항을 밝히고 Larrabee로 꼬리치다.

a1페이지

IDF 이전에, Intel은 순서대로 내려오는 새 제품에 대한 세부사항을 조금 더 밝혔다. - Nehalem과 Larrabee를 포함하여서.

a1.jpg1.jpg

IDF는 mW에서부터 Peta FLOP에 이르기 까지의 Intel 아키텍쳐의 관계 대해 모든 것을 밝힐 것이다. mW 측은 Intel Atom이 될 것이며 새로운 고급 쿼드코어 Itanium과 Larrabee 제품은 Peta FLOP 측으로 참조할 것은 자명한 것이다.

첫번째로 Intel의 쿼드코어 Itanium 제품인, 코드명 Tukwila 에 대해 보면 :

a2.jpg2.jpg

Tukwila는 Intel의 완벽한 첫 20억 트랜지스터를 쓴 칩이며 올해 말에 선적될 것인데, 완전한 시스템은 내년에 사용 가능할 것이다. Tukwila는 Nehalem과 같이, AMD의 Hyper Transport와 비슷한 점대점 내부연결을 사용하는 Intel의 QuickPath Interconnect를 지원할 것이다. 또한 Nehalem과 같이, Tukwila는 내장 메모리 컨트롤러를 장착할 듯 하다. - 이 경우 2가지로 갈린다.

다음은 Intel Dunnington 프로세서였는데, 45nm 6코어 Xeon 부문 Penryn 기반 코어이다. :

3.jpga3.jpg

(1개 다이에 3개의 듀얼 코어 쌍이 들어있는) 6코어와 엄청난 16MB의 공유 l3 캐시인, Dunnington은 트랜지스터 갯수에서는 Tukwila와 비슷한데, 작살나는 19억개의 트랜지스터이다. Dunnington은 India의 Bangalore에 주재한 Intel의 India Design Team에서 나오는 첫번째 판매 제품이다.

아키텍쳐상으로 여기에는 Dunnington과 Penryn 기반 Xeon 부문과 다른점은 거의 없는데, 당신은 단순히 더 많은 코어와 모든 코어들이 공유하는 아주 큰 L3 공유 캐시를 생각하면 될 것이다. 이런 괴물을 설계하는 것은 그렇게 노력이 들지는 않는다는 것은 아니지만, Intel이 코어를 설계할 때 L2 캐시를 제외하고는 모든 것을 설계하기 때문에 더 설계하기 쉬워진다. 이 L2와 모든 부차적인 외부 것들은 "코어 외의 것" 으로 명명되며, Nehalem과 같은 등급은 아니더라도 모듈적인 구분으로 만들어진다.

Dunninton은 Nehalem 같은 미래 Core 제품군의 Phenom 같은 캐시 아키텍쳐를 Intel이 도입하는데 있어 첫 걸음에 해당한다.

a2페이지

4.jpga4.jpg

Nehalem은 QPI를 지원하며 내장 메모리 컨트롤러를 갖추었는데, 아주 크며, 공유되며, 총괄적인(inclusive) L3 캐시를 갖고 있다.

5.jpga5.jpg

Nehalem은 모듈러 아키텍쳐로써, Intel이 2~8 코어 제품군을 선적할 수 있게 해주는데, 몇몇은 내장 그래픽을 갖고 있으며 다양한 메모리 컨트롤러 설정을 가질 수 있다.

6.jpga6.jpg

Nehalem은 Penryn에 비해 33% 많은 마이크로 옵스를 동작시킬 수 있는데, (128개 마이크로옵스 vs. Penryn에서는 96개) 이 증가 사항은 간단히 재명령 윈도우와 파이프라인을 통하는 버퍼 등의 크기를 늘림으로써 가능해졌다.

수행하는 마이크로 옵스가 늘어남으로 인해, Nehalem은 코어당 한번에 2개의 스레드에서의 마이크로 옵스를 조종할 수 있어 명령어 레벨 병렬화 측면에서 엄청난 추출력을 보일 수 있다.

증가한 실행중인 마이크로 옵스의 지원 능력 증강에도 불구하고, Nehalem의 프론트 엔드나 디코더에서는 눈에 띌만한 변화가 없었다. Nehalem은 여전히 기본적으로 같은 4개 이슈 설계로 이것은 첫 Core 2 마이크로 프로세서가 소개됐을 때 본 것이다. 차후 현재부터 2년 뒤 우리는 코드명 sandy Bridge인 32nm "톡" 프로세서에서 이 프론트 엔드의 재 진화 버젼을 보게 될 것이다.

Nehalem은 또한 정렬되지 않은 캐시 접근 성능을 향상시켰다. SSE 에서 이것은 2가지 종류의 명령어가 있다. : 한가지는 당신의 데이터가 16바이트 캐시 영역에 정렬되어 있을 때, 그리고 나머지 한가지는 당신의 데이터가 정렬되지 않았을 때이다. 현재의 Core 2 기반 프로세서에서는, 정렬된 명령어는 정렬되지 않은 명령어보다 빠르게 실행될 수 있었다. 현재와 과거의 모든 컴파일러들은 캐시 영역에서 정렬되었었던 데이터 상에서 정렬되지 않은 명령어를 사용하여 코드를 생산하였었는데, 이것으로 인해 성능상의 약점을 초래하게 되었었다. Nehalem은 (몇몇 회로 상의 속임수를 통해) 이런 경우를 고치게 되어정렬된 데이터 상에서의 정렬되지 않은 명령어를 작동 시킬 때 빠르게 처리할 수 있게 되었다.

(비디오 인코딩 같은) 많은 어플리케이션에서 당신은 데이터는 순차적으로 흘러들어가게 된다. 만약 (64바이트 라인) 캐시 라인 영역을 넘어 명령어가 이 영역의 두 영역측 모두에서의 데이터를 필요로 할 때 당신은 정렬되지 않은 캐시 접근으로 인한 지연시간에 대한 약점에 직면할 것이다. Nehalem은 이 지연시간에 대한 약점을 눈에 띌 정도로 줄여, 모션 측정 같은 알고리즘에서는 속도 향상을 느낄 수 있을 것이다. (그러므로 비디오 인코딩 성능에서의 향상이 일어나게 된다.)

Nehalem은 또한 코어당 두번째 레벨 분기 예측자를 소개하였다. 이 새로운 분기 예측자는 평범한 것으로써 프로세서의 파이프라인 내에 위치하며 L2 캐시가 L1 캐시와 작동하는 것 같은 작동 체계를 가진다고 주장한다. 이 두번째 레벨 예측자는 훨씬 큰 세트의 이전 데이터를 가져 이것을 분기 예측에 사용할 수 있지만, 이것의 이전 분기 테이블이 훨씬 크기 때문에, 이 예측자는 아주 느려지게 된다. 첫번째 레벨 예측자는 항상 작동하는 형태가 되는데, 분기 예측은 가능한한 최상의 상태로 하지만, 동시에 새로운 두번째 레벨 예측자 또한 분기를 계산할 것이다. 여기에는 첫번째 레벨 예측자가 높은 정확도의 예측을 만들 이전 데이터를 갖지 않으면서, 분기의 종류에 기반한 예측을 만드는 경우가 있겠지만, 두번째 레벨 예측자는 이것이 가능하다. (2번째 레벨 예측자) 가 아주 큰 이전 데이터 윈도우를 가져 여기에서 예측을 할 수 있기 때문에, 이것은 아주 높은 정확도를 가지며, 동작중에, 분기예측 실패를 잡아 확실한 성능 저하가 일어나기 전에 이것들을 고치는 데에 도움을 줄 수 있다.

재명명된 반환 스택 버퍼 또한 Nehalem에서 향상된 것 중 하나로 중점적으로 다루어질만 하다. (메모리 내에서 규칙있게 저장하는 데이터 구조에서 CPU는 순서대로 실행 하는데) 파이프라인 내에서의 분기예측 실패는 Penryn의 반환 스택 내에 잘못된 데이터 저장을 초래할 수 있다. 재명명이 있는 반환 스택은 스택 내에서의 오염을 방지하는 것을 지원함으로써, call/반환이 정확히 쌍으로 되어 당신은 언제나 심지어 분기예측 실패 상황에서도 Nehalem의 스택에서 정확한 데이터를 뽑아낼 수 있게 된다.

a3페이지

7.jpga7.jpg

Nehalem은 이제 2방향 SMT를 지원하는데, (코어당 2스레드) Pentium 4가 이전에 했던 것과 아주 유사하다. Netburst 때보다 짧은 파이프라인과 코어로 데이터를 보내는데에 대한 엄청난 능력으로, Pentium 4보다 Nehalem에서의 SMT로 인해 병렬화에 대한 성능을 높일 더 많은 기회가 있게 된다. (성능에도 직결된다.)

8.jpga8.jpg

Nehalem의 캐시 서브시스템은 Penryn에서 거의 전부가 바뀌었다. Nehalem이 Penryn과 같이 32KB의 L1 명령어와 데이터 캐시를 가지는 반면, L2와 l3 캐시들은 신상이다. 쿼드코어 Nehalem 내의 각기 코어는 이제 더 작은 256KB의 L2 캐시를 가지는데, 이것은 Intel이 "낮은 지연시간" 을 표방하는 것이다. (잠재적으로 작은 캐시 크기로 인해 Penryn보다 낮은 지연시간을 실현한다.) 공유 L2 캐시를 버린 반면, Intel은 Nehalem에 큰 8MB의 모든 코어에서 공유될 수 있는 완전 공유 L3 캐시를 장착하게 되었다.

이런 설정은 AMD의 Phenom 아키텍쳐와 아주 유사하게 보이는데, 그러나 명백히 Intel의 Core 2 아키텍쳐에서 만들어졌던 것이다. - 여기에서 주된 차이점은 캐시 일관성이 총괄적이라는 것이며 AMD같은 배타적이 아니라는 것이다. 이 총괄적 아키텍쳐는 각기 레벨의 캐시가 더 낮은 캐시 레벨에서부터 데이터의 복사를 해온다는 것을 뜻한다.

Nehalem은 효과적으로 AMD만이 갖고 있던 메모리 성능과 내부 연결 속도에 대한 남은 장점들을 포함하게 되었다. - 바로 이것 때문에 Penryn에서 Nehalem으로 넘어갈 때 엄청난 성능 향상을 예상할 수 있을 것이다. Intel은 Penryn에서보다 Nehalem에서 2배 정도의 메모리 접근성을 예상하고 있는데, 이것은 이미 엄청나게 빠른 공격적인 프리페쳐 덕이다. 만약 당신이 오늘날 Intel의 성능적으로 확실히 우위를 점한다고 생각 한다면, Nehalem은 당신의 관점을 완벽하게 재조정하게 해줄 것이다. - AMD는 경쟁하기를 원한다면 그들의 Bobcat과 Bulldozer 에서나 가능할 것이다.

Intel은 또한 새로운 2번째 레벨의 TLB를 Nehalem에서 추가하였는데, 이것의 새로운 2번째 레벨 분기 예측자와 비슷한 관점으로 접근하면 된다. 첫번째 레벨 TLB는 코어에 데이터 공급을 아주 빠르게 하는 것을 유지하는 데에 좋지만, 만약 첫번째 레벨 TLB에서 물리/가상 어드레스 매핑한 곳에서 데이터를 찾지 못한다면 Nehalem은 이제 성능을 높이고 지연시간을 낮추기 위해 캐시에서 찾아보는 대신 2번째 레벨 TLB를 찾아보게 될 것이다.

이 부분적인 관점에서의 TLB 향상은 엄청난 서버 부하면에서 아주 특출날 것인데, 우리는 Intel이 Opteron을 Nehalem으로 상대시키려는 것이 뻔히 보인다는 것을 추측할 수 있다.

9.jpga9.jpg

윗 그림은 첫 Nehalem 플랫폼의 예제이다. - 우리가 몇년동안 봐오던 AMD K8 플랫폼의 블럭 다이어그램과 아주 비슷해 보인다. 이 첫번째 하이엔드 데스크탑 Nehalem 부문은 DDR3-800,1066, 그리고 1333을 지원하는 3채널 DDR3 메모리 컨트롤러를 내장하게 될 것이다.

10.jpga10.jpg

서버 측에서 당신은 Nelahem의 IMC에서 레지스터드 메모리 지원을 보게 될 것이다.

a4페이지

Intel은 또한 그들의 32nm 프로세서들에 대한 약간의 업데이트 사항을 제공하였는데, (Nehalem에서 다이 도선 폭이 32nm로 조정된) Westmere와 (32nm로써 아주 새로운 아키텍쳐인) Sandy Bridge가 그것이다.

11.jpga11.jpg

Westmere의 세부사항은 별로 없었지만, Intel은 CPU에 대한 새로운 벡터 연산 명령을 소개하였다.

12.jpga12.jpg

이 Intel Advanced Vector Extensions (AVX) 는 Westmere에서 사용가능해질 것이다. 대신, 우리는 256비트 폭 벡터 연산을 제공하는 Sandy Bridge까지 기다려야 한다. Intel은 중국에서 곧 열리는 IDF에서 완벽한 명령어 사양을 밝힐 것이다.

a5페이지

오늘 논의할 마지막 주제는 Larrabee로써, 이것은 Intel의 높은 병렬 마이크로 프로세서로 이 능력을 3D 그래픽 어플리케이션에 적합하게 한 것이다.

13.jpga13.jpg

Larrabee는 2009~2010년 정도에 출시될 것인데, AMD와 NVIDIA 같은 경쟁사가 제공하는 스탠드얼론 GPU에 대적할 것이다. 이 아키텍쳐는 다수 코어 설계인데, 많은 아주 작은, 간단한 IA 코어들이 새로운 캐시 아키텍쳐 뒤에 있다.

14.jpga14.jpg

각기 코어는 Intel이 완벽을 기하기 위한 게임 개발자들이 사용할 새로운 벡터 명령어를 지원한다. 각기 코어는 명백히 아주 넓은 대역의 벡터 연산 유닛을 가지게 되지만, Intel은 Larrabee에 대해 많은 세부사항을 밝히지 않았다.  당신은 Larrabee가 DirectX와 OpenGL 모두를 지원할 것이라 예상 하지만, 게임 개발자가 이것의 명령어 아키텍쳐를 직접적으로 사용한다면 확실히 서광이 비칠 것이다.

15_0.jpga15.jpg

a6페이지

늘상 Intel이 하듯이, 라이브 데모를 구동하는 Nehalem과 Dunnington 기반 시스템을 보았다.

15.jpga16.jpg

위에 우리는 1개 소켓으로 4코어 (8스레드) Nehalem 시스템이 그들의 그래픽 데모를 작동시키는 것을 볼 수 있었다.

16.jpga17.jpg

Intel은 우리가 섣부른 판단을 내리는 것을 막기 위해 다른 실제 벤치마크를 돌리는 것을 피하였다. 클럭 속도는 알아내지 못했지만, Nehalem에 주어진 트랜지스터 갯수를 본다면 우리는 Penryn에서 보아왔던 클럭과 비슷한 클럭을 예상하였다.

17.jpga18.jpg

이것은 8코어 16 스레드의 2소켓 Nehalem 시스템이다.

18.jpga19.jpg

http://www.anandtech.com/showdoc.aspx?i=3264&p=1


*추가 페이지 끝.

6페이지

끝내 버려!

Nehalem의 실행 엔진은 거의가 Penryn에서 바뀌지 않았다. ; 프론트 엔드는 이미 충분히 넓듯, 아키텍쳐의 실행 쪽도 동일하다.

12.jpg

그러나 Intel은 칩 상의 많은 데이터 구조의 크기를 증가 시켰으며 비순차 계획 윈도우의 크기도 늘렸다. Nehalem은 이제 동작중 128개의 마이크로 옵스를 유지할 수 있는데, Conroe/Merom/Penryn은 96개까지이다.

13.jpg

예약 장소는 32개에서 36개 마이크로 옵스까지를 잡아둘 수 있게 되었다. ; 읽어오기와 저장하기 버퍼들이 모두 32와 20에서 각각 48과 32개 엔트리로 증가되었다.

Nehalem은 Conroe/Penryn보다 더 대역이 넓어지지는 않았지만, 이들 이전 프로세서보다 이 아키텍쳐의 사용률을 더 향상시켰다.

7페이지

새로운 TLB들, 더 빨라진 정렬되지 않은 캐시 접근

역사적으로 마이크로 프로세서의 TLB 크기와 성능에 높이 의존하는 어플리케이션들은 서버어플리케이션들로, 다시 한번 파고 들자면 데이터 베이스 같은 것이 있겠다. Nehalem은 그들의 TLB만을 늘린 것이 아니라 두번째 레벨의 코드와 데이터 모두에 적용되는 통합 TLB를 장착하였다.

14.jpg

이전에 내가 한번 안건으로 꺼냈던, 또다른 잠재적인 주목할만한 개선 사항으로는 Nehalem의 더 빨라진 정렬되지 않은 캐시 접근이다. 가장 큰 크기의 SSE 메모리 작업은 16바이트 (128비트) 이다. 여기에서의 load/store 작업은 2가지 종류로 나뉜다. : 한가지는 16바이트 제한에 걸린 작업이며, 또 하나는 제한을 넘어선 작업이다.

컴파일러들은 메모리 접근이 16바이트 영역이라는 크기를 지키는 것을 보증하지 못할 경우 정렬되지 않은 연산을 사용할 것이다. 모든 Core 2 프로세서들에서, 이 정렬되지 않은 작업은 확실히 정렬된 데이터 상에서도 정렬된 작업보다 느리게 된다.

이 문제는 대부분의 컴파일러들이 데이터가 정확히 정렬되었다는 것을 보증하지 않으며 기본적으로 정렬되지 않은 작업을 수행하기 때문인데, 심지어 이것은 정렬된 데이터 상에서도 사용될 때가 있다.

Nehalem에서는, intel은 이 정렬되지 않은 작업의 성능 하락만을 줄인 것이 아니라 정렬된 데이터 상에서의 정렬되지 않은 작업을 사용할 시에, 여기에서도 절대적으로 어떠한 성능 하락도 없게 적용시켰다. 컴파일러들은 이제 성능 하락에 대한 어떠한 두려움도 없이 정렬되지 않은 작업을 언제나 할 수 있게 되었다.

이전 Core 2 아키텍쳐에서 정렬되지 않은 데이터 접근에서의 성능 하락을 피하기 위해, 개발자들은 이 문제에 국한적으로 적용되는 추가적인 코드를 생성하였었다. 이 재최적화/재컴파일을 하는 것은 Nehalem 상에서는 정렬되지 않은 작업을 사용하게 복귀 시킬 수 있으므로 도움이 된다.

15.jpg

스레드 동기화 성능 또한 Nehalem 상에서 향상되었는데, 다음 장에서 보자.

8페이지

...그리고 이제 우리는 왜 인지 이해 하였다. : Hyper Threading

몇년 전 나는 Pat Gelsinger에게 마이크로 프로세서 산업에서 제일 관심을 갖고 있는 것이 어느 것이냐 물었을 때, 그는 스레딩이라고 답하였다. 이 시기는 Hyper Threading의 태동기였지만 Pentium 4의 단종으로 같이 소멸 되었기 때문에, 후속의 Core 기반의 마이크로 프로세서에서는 HT를 찾아볼 수가 없었다. Hyper Threading은 Intel의 마케팅 상표로 동시 멀티 스레딩이었는데, 명령어를 한번에 1개씩 갖고 오지 않고 2개 스레드씩 가져올 수 있는 기능이었다. 이 OS에서 HT가 사용되는 프로세서는 다수 프로세서로 보고, 2개 코어로 볼 때, CPU에 2개 스레드의 명령어를 보내게 된다.

Nehalem에서 Hyper Threading을 귀환시킴으로써 몇몇 이유로 인해 Pentium 4에서 보아왔던 것보다 훨씬 더 좋은 성능 향상을 이룰 수 있다고 본다.

 - Nehalem은 Pentium 4 보다 더 많은 메모리 대역폭과 더 커진 캐시를 갖고 있어, 이것으로 하여금 코어가 데이터를 얻는데 더 빠르고 더 예측 성공이 수월해졌다.

 - Nehalem은 pentium 4 보다 더 넓은 대역폭을 가진 아키텍쳐로, 코어 당 다수의 스레드를 사용하는 데에 이점을 가질 수 있다.

첫번째 Pemtium 4가 Hyper Threading 지원 기능을 도입하지 않았다고 해서, Nehalem 또한 이렇게 되지는 않을 것이다. 위에 언급하였던 이유로 인해 Nehalem은 아주 시기적절하며 예전보다 오늘날은 단순히 HT에 대한 이점을 갖는 어플리케이션이 많이 나왔기 때문이다.

아래 차트는 Nehalem 프로세서 상에서 HT를 사용하였을 때의 성능 이득을 나타낸 것인데, 변수가 바뀐 것은 없다.

16.jpg

Atom 같이, Nehalem 상에서 HT를 사용하는 것은 아주 적은 다이 영역만을 요구하게 된다. 레지스터 상태, 재명명 반환 스택 버퍼와 대량 페이지 명령어 TLB들만이 중복된다. 데이터 구조의 나머지들은 HT가 사용되거나, 스레드 당 얼마나 많은 자원들이 동적으로 할당되느냐에 따라 "경쟁적으로" 공유될 때에 반으로 나뉘어지게 된다.

17.jpg

HT를 사용하는 것은 Nehalem 에게는 아주 전력 효율성을 중요시한 설계였으며, 당신은 이것이 몇몇 어플리케이션에서는 성능 샹상을 이룰 것으로 예상할 수 있다. - Pentium4 때 삽질 했던 것보다는 훨씬 규칙적으로.

이제 왜 Intel이 Nehalem 내에서 버퍼 크기를 늘렸는지를 이해 할 수 있을 것인데, 왜냐면 1개 스레드보다 2개 스레드에서 오는 작업들을 처리해야 할 때 이들 버퍼들을 사용하기 때문이다. 디코드, 프론트 엔드에서의 향상된 사용률, 파이프라인 내에서의 더 많은 마이크로 옵스, 재명령 엔진 내에서의 더 많은 마이크로 옵스와 동시 실행 마이크로 옵스의 증대를 위해서 더 많은 명령어가 필요하게 되는 것이다.

9페이지

캐시 서열

나는 이미 Nehalem 캐시 서열에 대해 아주 자세히 말한 적이 있으므로 여기는 빠르게 넘어가기로 하겠다.

18.jpg

Nehalem은 AMD의 Phenom과 같이 3개 레벨 캐시 설열을 갖고 있따. 여기에는 64KB의 L1 캐시(32KB 명령어+ 32KB 데이터), 256KB의 L2 캐시 (코어별 비공유), 그리고 최대 8MB의 L3 캐시가 있다.(모든 코어에서 공유)

L1 캐시는 Penryn에서 봐왔던 것과 같은 크기를 갖고 있지만, 실제적으로 약간 느리다. (4사이클 vs. 3사이클) Intel은 특히 칩의 크기가 커지고 복잡해져 게이팅 클럭 속도가 영향을 받게 됨에 따라 L1 캐시 속도를 낮추게 되었다. Intel은 Nehalem 내에서 L1 캐시의 고 지연시간으로 인해 2~3% 성능 하락이 있을 것으로 추산하였다.

L2 캐시 또한 Penryn이 두 코어 간 6MB의 공유 L2 캐시를 가진데 반해 타격을 받았는데, Nehalem은 L2 캐시를 각개 코어 옆에 두며 크기도 256KB 정도로 줄였다. 우리는 Intel CPU에서 첫 Pentium 4부터 작은 L2 캐시 등으로 높은 성능을 내는 것을 보지 못했었다. 더 작아진 L2는 더 빠르며, L2 캐시에서 데이터를 불러오는 데 10사이클 정도만 취하게 된다.

L2 캐시는 L3 캐시의 버퍼 역할을 하므로 다량의 대역폭을 L3 에 모든 코어가 쏟아 부을 필요는 없다.

L3 캐시는 모든 코어에서 공유되며 초기 Core i7 프로세서들은 8MB 크기를 갖게 될 것인데, 이것은 코어 갯수에 의존하여 크기가 바꾸게 된다. 모든 코어를 사용하는 멀티 스레드 어플리케이션들은 이 큰 공유 L3 캐시를 만끽할 것이다.

Intel은 Nehalem에서 포괄적인 캐시 아키텍쳐를 사용하는 데에 있어 변호를 하긴 하는데, 이것들은 예전부터 해왔었다. Nehalem의 L3 캐시는 포괄적인 역할을 하여 모든 데이터는 L1과 L2 에도 저장이 된다. 이것의 장점은 만약 CPU가 L3 를 찾아 데이터가 없다면, 다른 코어의 L1과 L2 에도 없다는 것을 알게 되는 것이다. - 그 때문에 코어의 검색 트래픽을 줄여, 성능 향상 뿐만 아니라 전력 소모까지 줄이게 된다.

포괄적인 캐시는 또한 코어수가 늘어남에 따라 조절할 수 없는 코어간의 검색 트래픽을 방지 하는데, 4코어 이상 확장 하고 싶어하는 Nehalem의 방향에 걸림돌이 한가지 치워지게 되는 것이다.

10페이지

더 향상된 전력 관리되는 캐시?

IDF에서 Nehalem에 대해 배운 새로운 것 한가지는 Intel은 실제적으로 (L1, L2에는 적용 되었으며 L3에는 아닌) 모든 코어 캐시 메모리에 대해 8T SRAM 셀 설계로 바뀌었다는 것이다. 8T 설계로 인해 Intel은 Nehalem의 실 구동 전압을 낮출 수 있었는데, 전력 소비를 줄임으로 인해 가능하였다. 당신은 Intel의 Atom 팀이 그들의 L1 캐시에 이것과 비슷한 것을 한 것을 기억할 것이다.
(http://gigglehd.com/zbxe/special/91473 에서 12페이지.)

"전압을 올리면서 작은 신호 배열을 더 집어 넣는것 대신에, Intel은 (1read/1write 포트인)레지스터 파일을 전환하였다. 캐시는 이제 (셀당 8 트랜지스터의) 큰 셀 크기를 가지게 되었고이것은 L1 명령어와 데이터 캐시의 도면 영역의 증가를 가져왔다. Atom의 평면도는 큰 크기를 다루기에 문제를 가지고 있었으므로 데이터 캐시는 전력 효율의 방편으로 32KB에서 24KB로 줄어들어야만 했다. 우리는 왜 Atom이 (32KB/32KB 대신 24KB와 32KB로 된) 비대칭적인 L1 데이터와 명령어 캐시를 가졌는지 궁금했고 이것은 전압이 야기 시킨 것이라는 것으로 판명났다.

셀당 6개 트랜지스터에 기반한 작은 신호 배열 설계는 특정 최소 구동 전압이 있었는데, 다른말로 이것은 특정 Vmin까지 상태가 유지됨을 뜻한다. L2 캐시에서, Intel은 6트랜지스터 신호 배열 설계가 인라인 ECC 설계 때부터 가능해질 수 있었다. Intel은 L1 캐시가 인라인 ECC를 장착 하는 것을 방지 하였으므로 또다른 설계 결정이 있었어야 됐는데, 그리하여 설계자들은 낮은 구동 전압을 유지 시키기 위해 큰 셀 크기가 필요하게 되었다."

Intel은 Nehalem의 "Core 메모리가 전통적인 6T SRAM에서 8T SRAM으로 바뀌었다" 고 언급한다. Nehalem의 "코어" 내의 메모리는 그들의 L1과 L2 캐시로써, 왜 코어당 L2 캐시가 그리 적은지를 알게 해준다. 이것은 Nehalem의 8MB L3 캐시의 트랜지스터 갯수를 33% 증가 시키는 것이 단가 상승을 초래하겠지만, L3 캐시와 나머지 코어 외 것들은 그들 고유의 전압 상에서 동작하기 때문에 그렇게 필요치 않는다고만 써두겠다.

19.jpg

11페이지

내장 메모리 컨트롤러

Nehalem의 코어 외 것에는 DDR3 메모리 컨트롤러들로, 온다이이며 메인보드 상에 있지 않는 것이 있다. 첫 Nehalem은 3채널 DDR3 컨트롤러를 가지고 선적될 것인데, 이것은 DDR3 DIMM이 최대 대역폭을 얻기 위해 3개 셋으로 설치 되어야 함을 의미한다. 메모리 벤더들은 이런 이유로 인해 3개의 DIMM 킷을 팔기 시작한다. Nehalem의 차후 버젼은 2개만 활성화된 컨트롤러를 갖게 되지만, 하이엔드와 서버 시장쪽은 3개짜리를 보게 될 것이다.

20.jpg

3개 DDR3 메모리 채널로 인해, Nehalem은 명백히 엄청난 양의 메모리 대역폭을 갖게 되는데, 이것은 대역폭이 넓고 데이터에 목마른 코어들에 데이터를 넘겨줄 것이다. 메모리 대역폭 에서의 엄청난 상승으로 인한 부작용은 Nehalem의 프리페쳐가 더 적극적으로 작업해야 한다는 것이다.

나는 Nehalem의 서버 쪽에 대한 이야기를 한적이 없으므로 여기서 한마디 하겠다. Xeon으로 몇몇 서버 관련 작업을 한다면, Core 2의 프리페쳐들은 약간 너무 적극적으로 되어 많은 기업용 어플리케이션들은 프리페쳐를 실제적으로 사용하지 못하게 되었었다. 이것은 아주 고대역을 사용하는 어플리케이션에서 주로 일어나는데, 프리페쳐들은 쓸만한 메모리 대역폭을 다 잡아 먹어 버리기 때문이었다.

Nehalem에서 프리페쳐의 적극성은 가용 대역폭이 충분히 확보되지 않으면 자기 능력을 낮출 것이다.

QPI

Intel이 온다이 메모리 컨트롤러로 옮겨갈 때 칩 간의 고속 내부 연결이 필요하였는데, 그러므로 (Quick Path Interconnect ) QPI가 생겨나게 되었다. 나는 QPI나 Hyper Transport 중 어떤 작명이 더 좋은지 알지 못하겠다.

각기 QPI 링크는 이방향 지원으로 링크당 6.4GT/s이다. 각기 링크는 2바이트 폭으로 당신은 각기 방향 당 12.8GB/s 의 대역폭을 얻게 될 것인데, 1개 QPI 링크에서는 총 25.6GB/s의 대역폭을 얻게 된다.

21.jpg

하이엔드 Nehalem 프로세서들은 2개의 QPI 링크를 가지는데 메인스트림 Nehalem은 1개만을 가지게 된다.

Nehalem의 QPI 생김새는 AMD 프로세서의 HT와 아주 유사한데, 현재 개발자들은 Intel 시스템이 NUMA 플랫폼이 되게 하고 싶어 한다. 멀티 소켓 Nehalem 시스템에서, 각기 소켓은 그들 고유의 로컬 메모리와, 이웃한 소켓에 부착된 메모리보다 프로세서가 그들에게 부착된 곳에 데이터를 가지는 어플리케이션을 갖게 된다.

AMD가 훨씬 그들의 IMC와 HT를 시행함으로써 이것이 실제적으로 Intel을 도와준 꼴이 되었다. AMD의 아키텍쳐로 인해 장점을 취하는 대부분의 소프트웨어는 이제 Nehalem에서도 이득을 얻을 것이다.

새로운 명령어

Penryn에서, Intel은 SSE4 명령어를 확장시켜 SSE 4.1로 설정하였으며 Nehalem에서 Intel은 약간의 명령어를 추가 시켜 Intel은 SSE 4.2로 부르고 있따.

22.jpg

Nehalem 이후 Intel의 아키텍쳐적인 확장성의 미래는 향상된 벡터 확장 (Advanced Vector Extensions (AVX)) 에 달려 있는데, 이것은 256비트 벡터 연산을 지원하는 것을 추가하는 것이다. AVX는 SSE의 오늘날 위치와 Larrabee가 그들의 명령어 셋으로 향하고 있는 사이의 과도기 정도에 해당된다. 언젠가 우리는 이들 두 ISA들의 융합된 버젼을 볼 수 있을 것이다.

23.jpg

12페이지

새로운 것 : 전력 관리

올해 IDF에서 가장 큰 Nehalem 발표는 전력 관리였다.

Nehalem의 설계는 실제적으로 이전 프로세서에 비교해서 확실히 기본적인 레벨에서 바뀌었다. 동적 도미노 회로가 Pentium 4나 IBM의 Cell 프로세서에서 구동 클럭 속도 향상을 위해 확장되는 데에 사용되었었다. Nehalem에서는, Intel은 모든 도미노 회로를 없애고 전체적으로 정적인 CMOS 설계로 회귀하였다.

24.jpg

Nehalem의 설계자는 Power Control Unit(PCU)라고 불리우는 마이크로프로세서를 온다이로 포함시키기 위해 1백만개 트랜지스터를 넘게 사용하였다. 이것은 Intel의 486 프로세서에 근접하는 트랜지스터 갯수인데, 이것이 단지 전력 소모 관리만 한다. PCU는 그들 고유의 내장 펌웨어를 갖고 있으며 온도, 전류, 전력 그리고 OS의 요청의 입력을 취하게 된다.

25.jpg

각기 Nehalem 코어들은 그들 고유의 PLL을 소지하고 있어, 각기 코어는 독립적으로 클럭을 가지게 된다. - AMD의 Phenom 프로세서와 상당히 유사하다. 또한 Phenom과 비슷하게, 각기 코어는 같은 코어 전압에서의 구동을 필요로 하지 않게 된다. - Nehalem과 Phenom의 차이점은 Intel은 내장 전력 게이트를 사용한다는 것이다.

Intel의 제조 엔지니어와 Nehalem의 설계자 간의 긴밀한 협력으로, Intel은 코어간 전원이나, 코어 자체가 전력 게이트로 활동할 수 있는 아주 특수한 물질을 제조하게 하였다.

26.jpg

27.jpg

장점은 여전히 1개의 전력/코어 전압을 사용하는 데 반해, 독립된 Nehalem 코어는 그들이 최고 절전 상태 일 때 (거의) 완벽히 절전을 한다는 것이다. 현재 (AMD나 Intel의) 다수 코어 CPU에서, 모든 코어는 같은 전압에서 구동해야 하는데, 이것은 CPU 상에 1개 이상의 활동하는 코어가 있기 때문에 노는 코어에서의 누설 전력이 계속적으로 높게 나온다는 것을 의미한다.

Nehalem의 전력 게이트는 1개 이상의 코어가 명목상의 전압 상태로 활동 상태로 구동할 수 있게 하는데, 이것은 남은 노는 코어들은 그들에게 완벽하게 전력을 공급하지 않을 수 있다는 것이다. - 이것은 전력 상태를 다수로 다시 재정렬 하지 않는데, 이것은 메인보드의 단가와 복잡성을 높이는 원인이었다.

이것으로 인해 나올 수 있는 또다른 장점은 이 다이 상 전력 관리가 이전까지 하였었던 오프다이 형식보다 전압 상승/하강에 걸리는 시간이 확실히 빠르다는 것이다. 빠른 전압 전환으로 하여금 더 효율적인 전력 관리를 허락케 한다.

이전에 PCU가 OS의 성능 상태 요청을 감시 한다는 것을 언급하였었다. 그러므로 이것은 실제적으로 어떤 전력/성능 상태가 되는지에 대해 지능적인 결정을 내릴 수 있게 되는데, OS에 구애받지 않게 된다. Vista가 아주 많은 인터럽트가 걸리는 어플리케이션을 구동 시키는 상황에서 CPU에게 계속적으로 낮은 전력 소비 상태로 유지하게 하는데, 아주 짧은 시간에만 깨어나게 한다. Nehalem의 PCU는 이런 종류의 상황을 감시 할 수 있으며 어떤 전력/성능 상태가 CPU에 들어가야 하는지를 지능적으로 결정하는데, OS가 어떻게 생각하는지는 상관이 없게 된다.

13페이지

터보 모드

이것은 최근 모바일 Penryn에서 소개한 기능이다. 이 생각은 당신이 듀얼 코어 모바일 Penryn에서 싱글 스레드 어플리케이션만을 구동 시킬 때, 1개 코어는 완전히 놀게 되므로, 전체 칩의 TDP는 설계 의도보다 낮아지게 되었다. Intel은 실제적으로 1개 코어의 속도 향상으로 활동하는 코어의 클럭 속도를 실제적으로 늘림으로 이 상황을 이용하는 방안을 찾았다. 불행하게도 모바일 Penryn 상에서 터보 모드에서의 성능 이득은 사용되지 않았는데, Vista에서는 유일하게 다수 코어 상에서 싱글 스레드일 때 속도 향상을 시켜 칩 상의 코어 중 노는 코어는 항상 교체되곤 했었다.

다른 문제는 희귀하긴 한데 당신이 오직 1개의 스레드를 동작시킨다면, Vista는 당신의 모바일 Penryn을 터보모드로 진입시키기 위해 추가적인 스레드를 항상 내놓는다는 것이었다.

Nehalem은 이것을 더 향상시켰다. 모든 코어가 놀 때 터보 모드를 동작시키는 것 뿐만이 아니라 이제는 몇몇 코어가 놀 때에나, 모든 코어가 활동하고 있지만 완전하게 사용하지 않을 때에도 터보 모드가 사용 가능하다.

28.jpg

모든 Nehalem 프로세서들은 터보 모드에서 1개의 클럭 단계 (133Mhz) 만큼 향상되는데, 모든 코어가 활동적이라도, PCU가 TDP를 검출하여 초과만 하지 않는다면 최대한으로 끌어올리게 된다. 만약 TDP 레벨이 충분히 낮거나, 코어들이 논다면, Nehalem은 실제적으로 1개 클럭 단계 이상으로 클럭 속도를 늘리게 된다. 현재 이것은 266Mhz 만을 보게 되는데, 여전히 밍숭맹숭 하지만, Intel은 Nehalem의 터보 모드로 인해 더 높은 목표를 향하는 것으로 보인다.

차후 버젼은 Nehalem에서 뽑아낼 수 있는 "터보" 의 양을 늘릴 것이며, 당신은 차후 버젼에서는 266Mhz 이상의 클럭 스피드 증가가 되는 상황도 그려볼 수 있을 것이다. 이 생각은 Intel이 실제적으로 어떻게 오버클럭 가능한 그들의 CPU들이 오버클러커들이 아닌 사람들에게서 안전하게 성능을 더 끌어낼 수 있는가에 대한 생각에서 나온 것이다.

그러나 너무 걱정하지 말라, 터보 모드는 싫으면 끌 수도 있다.

14페이지

발매 시 속도와 성능

Intel은 Nehalem이 출시할 때의 클럭이나 성능에 대해 언급하지 않았지만, 내가 예상하는 것은 이렇다.

3개의 Core i7이 Nehalem 부문으로 명명되고, 2.66Ghz, 2.93Ghz, 그리고 3.2Ghz로 발매될 것이다. - 모두 8MB의 L3 캐시를 가지며 쿼드코어이다. 전통적인 FSB는 없겠찌만, 이 모든 칩은 133Mhz 소스 클럭에서 작동할 것이다.

터보 모드에서 각기 칩은 2개의 클럭 단계로 최고 클럭으로 갈 수 있는데, 상황이 허락 하는 한 266Mhz나 133Mhz로 갈 수 있다.

나는 가격은 상당히 합리적이 될 것이라 예상하는데, 최소한 2.66Ghz 부문에서 그럴것이지만 어떻게 될진 모른다.

나는 예상되는 Nehalem 성능에 관해 글을 쓴 적이 있다.
http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=3326
서버에서 Nehalem의 가장 큰 충격은 의심할 것도 없지만, 데스크탑 어플리케이션에서 많은 스레드를 갖고 있다면 Nehalem에서 괄목할만한 성능 향상을 이루어 낼 것이다. 비디오 인코딩, 3D 렌더링 등등... 이것들은 우리 이전 글에서 Nehalem으로 확실한 성능 향상을 보았던 것이다.

당신의 어플리케이션들이 잘 스레드화 되지 않았다면, Nehalem은 어플리케이션에 따라 Penryn 대비 0~15%정도의 성능 향상밖에 없을 것이다.

http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=3382

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.