||1

인텔의 차세대 코어 2 프로세서 패밀리 -코드네임 펜린- 은 2007년 하반기에 정식 출시될 예정입니다.

새로운 45나노 공정 하이-K 메탈 게이트 기술을 사용하며, 기존의 코어 마이크로 아키텍처를 개선하여, 인텔이 1년에 한번 공정과 아키텍처를 개선한 제품을 출시하겠다는 목표를 순조롭게 달성할 수 있을 것으로 보입니다.

아래 글은 www.hkepc.com에서 인텔의 차세대 데스크탑 듀얼코어 프로세서, 울프데일의 엔지니어링 샘플을 테스트한 글을 기글 하드웨어에서 번역/편집한 것입니다.


인텔 45나노 공정 프로세서 펜린, 올해 4/4분기에 출시 확정




2006년 하반기에 인텔은 차세대 코어 마이크로아키텍처를 정식으로 발표하여, 5년동안 시장을 지키느라 기운이 다 빠져버린 넷버스트 아키텍처를 대체, 인텔의 전성기를 다시 찾을 기반을 마련하고 x86 프로세서 제품 시장의 주도적인 위치에 다시 설 수 있게 되었습니다.

뿐만 아니라 인텔은 이러한 기세를 유지하기 위해 새로운 규칙을 발표하게 되는데, 그것이 바로 Tick-Tock 공정/아키텍처 발전 전략으로서, 1년에 한번 새로운 프로세서를 출시할 때마다 아키텍처를 개선하거나 새로운 아키텍처를 도입한다는 것인데, 이를 통해 앞으로 10년, 혹은 그 이상의 프로세서 시장을 맞이해 나갈 것입니다.

Tick은 새로운 실리콘 제조 공정을 통한 마이크로 아키텍처의 개선이고, Tock은 새로운 마이크로 아키텍처의 도입입니다. 따라서 이 Tick-Tock 과정은 대략 2년 정도가 걸리게 됩니다. (콘로는 새 아키텍처를 도입하였으니 Tock, 펜린은 45나노 공정을 도입했으니 Tick, 네할렘은 공정은 45나노 그대로이고 아키텍처가 바뀌니 다시 Tock인 것입니다)

새로운 45나노 펜린 패밀리는 7개의 제품으로 구성되어 있습니다. 듀얼코어 데스크탑 프로세서 울프데일, 쿼드코어 데스크탑 프로세서인 요크필드, 듀얼코어 모바일 프로세서인 펜린, 듀얼코어 제온 DP 프로세서인 울프데일 DP, 쿼드코어 제온 DP 프로세서인 하퍼타운, 듀얼코어 제온 MP 프로세서인 듀링턴 DC, 쿼드코어 제온 MP 프로세서인 듀링턴 QC입니다. (DP는 2개의 CPU, MP는 4개 이상의 CPU를 장착하는 것을 의미합니다)

펜린 듀얼코어 버전은 4.1억개의 트랜지스터를 내장하였고, 쿼드코어는 8.2억개의 트랜지스터를 내장하였습니다. 마이크로 아키텍처의 개선으로 동일 클럭의 콘로보다 더 좋은 성능을 보여주며, L2 캐시의 용량은 50%가 늘어나 데이터 엑세스의 히트 레이트를 명확하게 개선하였습니다. 그 밖에도 47개의 새로운 인텔 SSE4 명령어 세트를 도입하여 멀티미디어 성능을 높이고 고성능 연산 응용 분야에 사용할 수 있습니다.


2008년 네할렘, 2009년 웨스트메어, 2010년 샌디 브릿지




인텔의 최신 프로세서 계획에 따르면, 45나노 공정을 처음으로 사용하는 데스크탑 프로세서는 쿼드코어 요크필드이며, 2007년 4/4분기에 정식으로 출시될 예정입니다. 그 후에는 2008년 상반기에 출시 예정인 데스크탑 듀얼코어 울프데일이 등장하며, 45나노 공정 프로세서의 출시 비율이 전체 데스크탑 제품군에서 30%의 비중을 차지하게 됩니다.

노트북 프로세서를 보면, 45나노 코어 펜린은 2008년 1/4분기에 출시됩니다. 처음 출시 물량은 전체 노트북 프로세서의 20% 정도이며, 2/4분기에 최신 센트리노 플랫홈인 몬테비나가 출시되면 45나노 공정 프로세서의 비중이 50%를 초과, 이후 세대 교체 속도는 빠르게 완성될 것입니다.

서버 부분을 보면, 제온 DP 쿼드코어 하퍼타운은 2007년 4/4분기에 요크필드와 같이 나옵니다. 제온 DP 듀얼코어 울프데일 DP는 1분기 늦은 2008년 초에 출시되며, 제온 MP 듀얼코어 듀링턴-DC와 쿼드코어 듀링턴-QC는 2008년 하반기에 그 모습을 드러낼 것입니다.


2008년에는 바로 다음 Tock, 새로운 아키텍처가 등장합니다. 코드네임 네할렘은 동적 관리 설계를 도입하는데, 이는 AMD의 인터커넥트와 크로스바 설계와 비슷하다고 하는군요. 1~16개의 스레드나 1~8개의 코어가 신축적인 아키텍처를 구성하며, 메모리 컨트롤러를 내장하는 것이 특징입니다.

네할렘에는 개선된 하이퍼 스레딩 기술이 추가되며, 그 성능과 효과가 대대적으로 개선되었고, SSE4.2 명령어 세트와 ATA 명령어 세트는 시스템 성능을 대폭 높여줄 것이라고 합니다. 여기서 주목할 것은 네할렘에 고성능 그래픽 코어 아키텍처가 내장될 것이라는 점인데, 이는 AMD 퓨전 프로세서의 CPU-GPU 아키텍처와 매우 비슷하며, 완벽한 대결 구도를 이루게 될 것으로 보입니다.

네할렘의 뒤를 이어 등장하는 것은 웨스트메어 패밀리입니다. 새로운 Tri-gate 트랜지스터, Higk-K, Strained Silicon 기술을 사용하며, 코드네임 P1268은 32나노 공정으로 제조됩니다. 2010년에는 다시 새로운 아키텍처를 도입하는 32나노 공정 샌디 브릿지가 등장합니다.

이러한 Tick-Tock 실리콘-아키텍처 발전 계획이 계속해서 성공하고, 새로운 아키텍처를 다른 팀에서 동시에 개발해 나감으로서, 앞으로 등장할 다른 세대 제조 공정의 기술 도입과 플랫홈 전환을 촉진할 수 있을 것으로 보입니다. 인텔 CEO인 폴 오틸리니는 인텔이 2010년 전에 전력 소모율 대 성능비(Perfomance per watt)가 지금 프로세서의 300% 이상 수준이 될 것이며, 전력 소모율 대 성능비 뿐만 아니라, 제조 공정을 더욱 개선하여, 사람들을 흥분시킬 수 있는 새로운 기능을 계속 추가해 나갈 것이라고 '자신있게' 말했습니다.


새로운 45나노 공정 High-K 메탈 게이트 트랜지스터를 통한 성능 개선




누설 전류는 실리콘 칩과 컴퓨터의 설계, 크기, 전력 소모량, 소음, 개발 원가 절감 등에 여러 문제를 일으키기 때문에, 차세대 펜린 프로세서 패밀리는 새로운 제조 기술인 45나노 트랜지스터 Insulating wall, Switching gate, Electrical leakge를 사용하였습니다.

누설 전류를 대폭 줄이고 성능을 높이기 위해, 인텔은 High-K라고 불리우는 새로운 재료로 Transistor gate dielectric를 제작하고, Transisotr gate electrode 역시 새로운 메탈 게이트를 조합하여, 구동 전류를 20% 늘리고 트랜지스터의 성능을 높이는 동시에, Source-drain 누설 전류 역시 5배 이상 줄여, 트랜지스터의 소모 전력을 명확하게 개선하였습니다.

이산화규소의 Manufacturability(제작이 쉬운 특징) 덕분에, 칩의 두께를 줄이면서 트랜지스터의 성능을 개선할 수 있으며, 따라서 지난 40여년동안 반도체 업계에서는 주로 이산화규소를 이용하여 스위칭 게이트와 절연체를 만들어 왔습니다.

인텔이 65나노 공정을 도입할때, 이산화규소 스위칭 게이트와 절연체의 두께는 1.2나노미터까지 줄어들었는데, 이는 5층의 원자에 해당하는 두께입니다. 하지만 트랜지스터가 원자 수준으로 크기가 줄어들면 소모 전력과 발열 역시 늘어나게 되며, 전기의 낭비와 불필요한 에너지를 만들게 되기 때문에, 지금의 재료를 계속 사용하며 두께를 더욱 줄이기 위해서는 스위칭 게이트와 절연체의 누설 전류를 개선할 수밖에 없으며, 따라서 트랜지스터 기술의 극한 영역까지 사용하게 된 것입니다.

이 중요한 문제를 해결하기 위해, 인텔은 비교적 두꺼운 High-K 재료(하프늄 원소를 기초로 한 물질)로 스위칭 게이트와 절연체를 만들기로 하고, 40여년동안 계속해서 사용되온 이산화규소를 대체, 누설 전류량을 10배 이상 떨어트리는 성과를 올리게 됩니다.

High-K 스위칭 게이트와 절연체는 지금의 실리콘 스위칭 게이트와 같이 사용할 수 없습니다. 인텔은 새로운 45나노 공정 트랜지스터 설계에 새로운 메탈 스위칭 게이트 재료만 사용하며, 현재 새로운 메탈 재료의 세부 사항은 여전히 '업계 기밀'입니다. 인텔은 현 시점에서 아직 메탈 재료의 조합에 대한 자세한 설명을 하진 않고 있습니다.

기존 기술과 비교되는 또다른 점은, 인텔의 45나노 공정 트랜지스터의 밀도개 2배 가까이 늘어났다는 것입니다. 따라서 프로세서의 트랜지스터 수량을 늘리면서 프로세서의 다이 크기를 줄일 수 있으며, 이로 하여 경쟁사보다 더욱 경쟁력있는 제품을 생산할 수 있게 됐습니다. 그 밖에도 트랜지스터 On/Off시에 필요한 전력이 줄어들어, 소모 전력량이 30% 가까이 줄어들었으며, OF/Off 작동 속도 역시 약 20%가 빨라졌습니다.

여기서 주목해야 하는 것은, 인텔이 차세대 45나노 공정 제품의 누설 전류를 5배 가까이 줄였으며, 트랜지스터 스위칭 게이트 산화물의 누설 전류량은 10배 이상 줄어들었다는 것입니다. 기존의 65나노 공정 제품과 비교하면, 동일한 전력을 사용할 경우 클럭이 20% 늘어나는 것입니다. 혹은 동일 클럭에서 더 적은 전력을 사용하는 것이지요.

다른 부분을 보면, 인텔은 창의적인 설계 방법과 선진 광택 기술을 사용하여, 193나노미터 Dry Lithography를 45나노 공정 프로세서에 사용, 원가를 절감하고 제조가 더욱 쉬워지게 됐습니다.


새로운 용접 합금 기술을 통한 펜린의 무연 생산




환경 보호를 위한 전세계적인 노력에 따라, 인텔은 차세대 High-K 메탈 게이트의 45나노 공정을 시작하면서, 앞으로 인텔의 프로세서에는 납을 전혀 사용하지 않을 것이라고 발표하였습니다.

인텔의 부사장이자, 기술 및 제조 사업군 패키징 테스트 기술 개발 총 감독인 Nasser Grayeli는, 인텔이 환경 보호를 위한 세계적인 노력에 맞춰, 앞으로 납을 사용하지 않는 무연 공정을 전면적으로 도입하고, 제품의 에너지 효율을 중요시할 것이며, 이산화탄소 배출을 줄이고, 수자원과 재조 재료를 대규모로 회수하고 재사용할 것이라고 밝혔습니다.

인텔을 예로 든다면, 최근 공급상과 기타 반도체/전자 제품 회사들과 협력하여, 무연 해결 방안을 개발해 냈고, 2002년에는 최초로 무연 방식으로 플래시 메모리를 생산해 냈으며, 2004년에는 당시 마이크로 프로세서와 칩셋 패키징에서 납의 사용량을 95%나 줄이기도 했습니다.

인텔은 기존의 프로세서 패키징에서 내부 연결점(Interconnect) 제 1층 내에 여전히 5%(약 0.02g)에 포함된 Leadsolder(땜납)이 포함되어 있다고 밝혔으며, 용접 작업을 통해 실리콘 칩과 패키징 기판을 연결하게 되는데, 앞으로는 주석, 은, 구리의 합금을 사용하여 기존의 주석과 납 위주의 용접용 합금을 대체할 것입니다. 인텔의 선진 실리콘 트랜지스터 기술에는 복잡한 인터커넥트 구조가 사용되어 있기에, 대량의 공정 자원을 투입해야만 인텔이 프로세서 패키징에서 완전히 납을 제거하고 새로운 용접 합금을 도입하려는 과정이 완성될 수 있을 것입니다.

어떤 방식의 패키징-PGA(Pin Grid Array), BGA(Ball Grid Array), LGA(Land Grid Array)-를 사용하건, 인텔은 이미 45나노 High-K 공정에서 100% 무연 설계를 사용하기로 결정하였습니다. 또한 2008년 부터는 65나노 공정으로 제조되는 칩셋과 기타 여러 제품들도 100% 무연 기술을 사용하게 됩니다.

인텔의 최신 로드맵에 따르면, 2007년에 출시되는 코드네임 P1266은 45나노 공정을 사용하며, 2년마다 한번씩 바뀌는 공정에 따라, 2009년에는 코드네임 P1268의 32나노 공정이 나오게 되고, 2011년에는 P1270 22나노 공정이 출시됩니다.

현재 인텔은 3곳의 웨이퍼 공장에서 45나노 제품을 생산할 예정입니다. 미국 오레곤주의 D1D 웨이퍼 공장과 미국 아리조나주의 Fab32 웨이퍼 공장에서 2007년 하반기부터 45나노 공정을 먼저 생산하게 될 것이고, 이스라엘의 Fab28은 2008년 상반기부터 45나노 생산을 시작하게 됩니다.


45나노 공정의 크기는 과연 어느정도?



트랜지스터의 아버지. William Shockley

1947년에 트랜지스터가 발명된 이후로 지금까지 과학 기술은 빠르게 발전해 왔으며, 더 우수하고 강력한 기능과 낮은 제조 원가를 통한 이익의 증대, 소모 전력이 적은 제품을 추구해 왔습니다. 과학 기술이 빠르게 발전하긴 하지만, 트랜지스터에서 발생하는 발열과 누설 전류는, 여전히 설계의 걸림돌이자 무어의 법칙 최대 장애이기도 합니다. 따라서 반도체 업계에서는 지난 40여년동안 사용되었던 트랜지스터 재료를 대체할 새로운 재료를 준비하고 있습니다.

트랜지스터의 역사를 보면, 2007년은 트랜지스터가 탄생한지 60주년이 되는 해입니다. 최초의 트랜지스터는 1947년 12월 16일에 벨 연구소의 윌리엄 쇼클리(검색엔진에서 한번 찾아보시길. 정말 파란만장한 삶을 살았던 사람입니다)와 John Bardeen, Walter Brattain가 만들어낸 것으로서, 이것이 인류의 역사를 바꾸고 말았습니다. 1950년에 윌리엄 쇼클리는 Bipolar junction transistor를 개발해내는데, 이것이 바로 지금 흔히 트랜지스터라고 말하는 물건입니다.

처음으로 트랜지스터 기술을 사용하여 상업화를 한 제품은 1953년에 나온 보청기입니다. 1954년 10월 18일에는 트랜지스터를 사용한 최초의 라디오 수신기인 RegencyTR1이 출시되었는데, 이 제품은 4개의 게르마늄 트랜지스터가 장착되었습니다. 트랜지스터가 일단 쓰이기 시작하자, 라디오와 전화 등의 수요를 충당할 수 있을 정도였지만, 새로운 전자 설비는 더욱 작아지고, 집적 회로 기술이 널리 사용되게 됩니다. 1961년 4월 25일에는 인텔의 창립자 중의 하나인 Robert Noyce는 최초의 집적 회로 특허를 취득하였습니다.

1965년, 인텔의 창립자 중의 하나인 고든 무어는 Electronics Mazine에 '앞으로 칩의 트랜지스터 수는 1년에 1배로 늘어날 것'이라고 하였으며, 10년 후에는 이를 '1년에 2배로 늘어난다'고 고쳤는데, 이것이 바로 그 유명한 '무어의 법칙'의 탄생입니다.

1968년 7월, Robert Noyce와 고든 무어는 페어차일드 반도체사를 떠나서 인텔을 만듭니다. 인텔은 직접 전자(Integrated electronics)의 줄임말입니다.

인텔은 창사 이후로 계속해서 트랜지스터 기술의 선두 지위를 지켜왔습니다. 1969년에는 PMOS 실리콘 게이트 트랜지스터의 개발에 성공, 기존의 이산화규소 게이트 전해질을 대체하고 새로운 폴리실리콘 게이트 기술을 사용하게 됩니다. 1971년에는 최초의 마이크로 프로세서인 4004를 출시하였는데, 4004는 1/8 x 1/16인치 크기에 2천여개의 트랜지스터를 내장하였으며, 10마이크론 PMOS 기술로 제조되었습니다.

1978년에는 16비트 인텔 8008 마이크로프로세서가 탄생하였습니다. 29000개의 트랜지스터가 내장되어 있고, 실행 클럭은 5MHz, 8MHz, 10Mhz입니다. 8008은 1091년에 IBM의 새로운 개인용 컴퓨터에 쓰이게 되는데, 이때 인텔은 포츈지에서 선정한 400대 기업의 하나로 등극, 개인용 컴퓨터의 역사가 이때부터 시작하게 됩니다.

나노미터는 밀리미터와 센티미터와는 달리 육안으로 보기 힘든 크기이기 때문에, 대다수 사람들은 나노미터에 대한 개념이 없을 수도 있습니다. 1미터는 10억 나노미터에 해당하는데, 이에 비해 1947년에 벨 연구소에서 처음으로 만들어낸 트랜지스터의 크기는 사람이 한 손으로 들 수 있을 정도의 크기입니다. 수백개의 45나노 트랜지스터가 모여야만 사람의 적혈구 1개 크기와 비슷한 정도이니, 60년동안 트랜지스터가 얼마나 많이 발전했는지를 알 수 있겠습니다.

일상 생활에서 사용하는 물건들의 직경을 나노미터로 환산한다면, 작은 못은 2천만 나노미터이고, 3만여개의 45나노 공정 트랜지스터가 모여야 대충 못 대가리와 비슷한 크기인 150만 나노미터가 됩니다. 사람의 머리카락은 9만 나노미터이고, 2천여개의 45나노 공정 트랜지스터들이 모이면 머리카락 두께와 비슷한 크기가 됩니다. 눈으로 볼 수 없는 세균의 크기도 2000나노미터이니, 45나노미터 공정으로 제조된 트랜지스터를 보기 위해서는 꼭 현미경이 필요합니다.



벨 연구소에서 개발한 Bipolar junction transistor의 모형

과학 기술이 널리 보급되면서, 인텔의 차세대 펜린 프로세서는 각 트랜지스터의 평균 가격이 1968년에 나온 트랜지스터 가격의 백만분의 일정도로 떨어졌습니다. 만약 자동차가 이런 비율로 가격이 떨어졌다면 지금 자동차 한대의 가격은 1$ 정도겠지요 -_-a 또한 1개의 45나노 공정 트랜지스터는 1초에 3천억번 켜고 끌 수 있는데, 이런 45나노 공정 트랜지스터가 1번 전원을 켜고 끄는 시간 동안 빛은 1/10인치도 가지 못합니다.


펜린: 새로 늘어난 47개의 SSE4 명령어




인텔은 펜티엄 MMX 프로세서부터 새로운 SIMD(Single Instruction MUltiple Data) 멀티미디어 명령어 세트를 추가하여, 여러개의 명령을 실행해야 했던 것을 하나의 명령으로 줄여, 데이터의 처리 성능을 증가시켰습니다. 나중에 인텔은 MMX 명령어를 SSE(Streaming SIMD Extensions) 명령어 세트로 발전시키고, 펜린 프로세서에는 SSE4 명령어 세트가 추가되게 됩니다.

MMX: 1997년에 발표, Multi Media eXtension의 약자. MMX를 처음으로 지원한 제품은 펜티엄 MMX. 멀티미디어 데이터 처리 능력을 상승, 총 57개 명령어 내장.

SSE: 1999년에 발표, Streaming SIMD Extensions의 약자. SSE를 처음으로 지원한 제품은 펜티엄 3, 70개의 명령을 추가하고 멀티미디어 데이터 처리 능력을 향상시켰으며, 제일 중요한 개선점은 MMX 명령어와 부동 소수점 명령어를 동시에 처리할 수 없었던 것을 해결한 것.

SSE2: 2001년에 발표, Streaming SIMD Extensions 2의 약자, SSE2를 처음으로 지원한 제품은 펜티엄 4, 144개의 명령어가 추가되고, 64비트 더블 부동 소수점과 정수 형태 연산 명령 추가, 프로세서의 캐시 컨트롤 명령의 도입으로 레이턴시 감소, 제일 중요한 개선점은 SSE 명령어 세트가 부동 소수점 데이터 캐시를 점유하던 문제를 해결한 것.

SSE3: 2004년에 발표, Streaming SIMD Extensions 3의 약자, SSE3을 처음으로 지원한 제품은 프레스컷 코어의 펜티엄 4, 13개의 명령어가 추가되고, 주요 특징은 수평식 캐시 정수 연산을 도입하여, 여러 수치를 동시에 가감 연산을 할 수 있게 되어 프로세서가 대량의 PSP나 3D 연산을 실행할 수 있게 됨. 부동 소수점 수치를 정수 수치로 전환할때 연산 모드를 전환할 필요가 없어지면서, 모드 전환에서 생기는 기타 스레드의 딜레이를 줄여 연산 성능의 손실을 감소. 그 밖에도 여러 응용 프로그램의 멀티스레드 실행에 최적화를 단행하여 하이퍼 스레딩 기능을 최대 발휘.

SSSE3: SSE3의 보충 버전, Supplemental Streaming SIMD Extensions 3의 역자, 인텔 코어 마이크로아키텍처 프로세서에서 처음으로 지원, 16개의 명령어가 추가, CPU의 멀티미디어, 그래픽, 인터넷 등의 처리 능력 개선. 이들 16개 명령어는 원래 SSE4에 수록될 예정이었으나, 나중에 코어 마이크로아키텍처 제품에 추가되기로 결정.

SSE4: Streaming SIMD Extensions 4의 약자, 2001년 이래 멀티미디어 명령어 세트 아키텍처의 제일 중요한 개선, 인텔 64비트 명령어 아키텍처의 확장 외에도 그래픽, 비디오 코딩 처리를 추가, 3차원 그래픽과 게임 관련 명령어, 사운드, 그래픽, 데이터 압축 등에서 프로그램 성능을 대폭 증가.

SSE4는 4.1과 4.2 버전이 있습니다. 4.1 버전은 펜린 프로세서에 처음으로 사용되며, 47개의 명령어가 있고, 벡터 그래픽 연산, 3D 게임 가속, 영상 코딩 가속, 멀티 스레드 처리 가속 등이 포함되어 있습니다.




SSE: 벡터, 부동 소수점 연산 전문화와 스트리밍 로드 명령어 추가

인텔은 SSE4 명령어에서 펜린에 2가지 32비트 벡터 정수 곱셈 연산의 지원을 추가했다고 밝혔습니다. 8비트 Unsigned 최소치/최대치 연산을 도입하여, 16비트와 32비트 Signed/Unsigned 연산까지 컴파일 프로그램의 성능 개선과 벡터화 정수의 싱글 코드 연산 력을 향상시켰습니다. 동시에 SSE4는 삽입, 채취, 주소 탐색, 확산, 로드, 세이브 등의 동작에서 벡터 연산의 전문화를 개량하였습니다.

SSE4에는 6개의 부동 소수점형 연산 명령을 추가하여, 싱글/더블 부동 소수점 연산과 부동 소수점 생성 조작을 지원하며, IEEE754 명령(Nearest, -Inf, +inf, and Truncate)을 바로 해당 모드로 전환할 수 있게 되어, 딜레이를 크게 줄였습니다. 이점은 게임과 3D 제작 프로그램에서 중요한 의미가 있습니다.

그 밖에도 SSE4는 스트리밍 로드를 도입, 그래픽 프레임 버퍼의 데이터 대역폭을 높이고, 이론적으로 완벽하게 캐시에서 데이터를 가져올 수 있습니다. 즉 매번 8비트가 아닌 64비트 데이터를 읽어들이고, 임시적으로 캐시에 저장하여, 명령어의 액세스 대역폭 성능을 최대 8배까지 늘린 것입니다. 따라서 동영상 처리, CPU와 GPU 사이 데이터의 공유 등에서 명확한 성능 향상 효과가 있습니다.


펜린: SSE4 명령어 세트의 동영상 코딩 효율 강화



SSE4 명령어 세트는 영상 코딩 효과를 더욱 강화하였습니다. 예를 들어 동시에 8개의 4바이트 대역폭 SAD(Sums of Absolute Differences) 연산을 처리할 수 있기에, 차세대 고해상도 동영상 코덱-VC-1이나 H.264-에서 코딩 속도가 더욱 빨라지게 됩니다.

동영상 코딩 작업에는 Motion Estimation(행동 예측)과 차분 코딩 방식을 통해, 이어지는 2장 화면의 상관성을 알아내게 되는데, 이는 매우 복잡한 연산 작업으로서, SSE4 명령어가 없다면 이런 명령어가 필요합니다.

for (int moveblock=0;moveblock<16;moveblock++)
for(int line=0; line<16; line++) // Does the 16 pixels large in 4 iteration
{

int i=0;

sum0+=abs( pBlock1[j]-pBlock2[i])+abs(pBlock1[j+1]-pBlock2[i+1])+abs(pBlock1[j+2]-pBlock2[i+2])+abs(pBlock1[j+3]-pBlock2[i+3]); // Compare with 0 pixel offset
sum1+=abs(pBlock1[j+1]-pBlock2[i])+abs(pBlock1[j+2]-pBlock2[i+1])+abs(pBlock1[j+3]-pBlock2[i+2])+abs(pBlock1[j+4]-pBlock2[i+3]); // Compare with 1 pixel offset
sum2+=abs(pBlock1[j+2]-pBlock2[i])+abs(pBlock1[j+3]-pBlock2[i+1])+abs(pBlock1[j+4]-pBlock2[i+2])+abs(pBlock1[j+5]-pBlock2[i+3]); // Compare with 2 pixel offset
sum3+=abs(pBlock1[j+3]-pBlock2[i])+abs(pBlock1[j+4]-pBlock2[i+1])+abs(pBlock1[j+5]-pBlock2[i+2])+abs(pBlock1[j+6]-pBlock2[i+3]); // Compare with 3 pixel offset
sum4+=abs(pBlock1[j+4]-pBlock2[i])+abs(pBlock1[j+5]-pBlock2[i+1])+abs(pBlock1[j+6]-pBlock2[i+2])+abs(pBlock1[j+7]-pBlock2[i+3]); // Compare with 4 pixel offset
sum5+=abs(pBlock1[j+5]-pBlock2[i])+abs(pBlock1[j+6]-pBlock2[i+1])+abs(pBlock1[j+7]-pBlock2[i+2])+abs(pBlock1[j+8]-pBlock2[i+3]); // Compare with 5 pixel offset
sum6+=abs(pBlock1[j+6]-pBlock2[i])+abs(pBlock1[j+7]-pBlock2[i+1])+abs(pBlock1[j+8]-pBlock2[i+2])+abs(pBlock1[j+9]-pBlock2[i+3]); // Compare with 6 pixel offset
sum7+=abs(pBlock1[j+7]-pBlock2[i])+abs(pBlock1[j+8]-pBlock2[i+1])+abs(pBlock1[j+9]-pBlock2[i+2])+abs(pBlock1[j+10]-pBlock2[i+3]); // Compare with 7 pixel offset

i=4;
j=moveblock+4;

… }
}


이 대량의 연산 동작에는 ABS, Subtraction, Additon 등이 포함되어 있기에 프로세서의 자원을 엄청나게 낭비하게 됩니다. 하지만 SSE4 명령어를 지원하는 프로세서에서는 4SAD 연산 명령을 사용하여-

MPSADBW xmm0,xmm1,0

이 한줄의 명령으로 여러 명령의 번복 실행을 완벽하게 대체할 수 있습니다. 따라서 Motion Estimation과 차분 코딩 방식의 명령 사이클을 대폭 개선하게 되는 것입니다.

이 밖에도, 영상 코딩에는 검색의 최적인 SAD(Sums of Absolute Differences)가 필요하게 되는데, 기존의 프로세서에는 오직 수직 검색만 지원했기 때문에 프로세서 자원을 상당히 낭비하였고, 동영상 코딩 작업에 많은 시간이 걸렸습니다. SSE4 명령어가 없다면 이상의 작업에 다음 명령어가 필요합니다.

if (ret

ret=sum1;
best_mv->x=mv.x;
best_mv->y=mv.y+line;

}

if (ret
{

ret=sum1;
best_mv->x=mv.x+1;
best_mv->y=mv.y+line;

}

if (ret
{

ret=sum2;
best_mv->x=mv.x+2;
best_mv->y=mv.y+line;

}

if (ret

{

ret=sum3;
best_mv->x=mv.x+3;
best_mv->y=mv.y+line;

}

if (ret

{

ret=sum4;
best_mv->x=mv.x+4;
best_mv->y=mv.y+line;

}

if (ret

{

ret=sum5;
best_mv->x=mv.x+5;
best_mv->y=mv.y+line;

}

if (ret

{

ret=sum6;
best_mv->x=mv.x+6;
best_mv->y=mv.y+line;

}

if (ret

{

ret=sum7;
best_mv->x=mv.x+7;
best_mv->y=mv.y+line;

}

하지만 SSE4 명령어 세트를 지원한다면 이렇게 복잡한 명령어 조합을 단 한줄로 줄일 수 있습니다.

Phminposuwxmm7,xmm7

인텔의 시니어 엔지니어이자 펜린 아키텍처 설계를 담당한 Stephen Fisher에 따르면, DivxAlpha 내부 테스트 버전에서 SSE4 명령어를 지원하며, 3.33GHz로 작동하는 요크필드 프로세서의 성능은 코어 2 익스트림 QX6800보다 105% 빠르며, 이중 70%가 SSE4 명령어의 사용에서 나온 결과라고 합니다.




펜린: 코어 마이크로아키텍처를 기반으로 한 개선




앞서 설명한 45나노 공정과 SSE4 명령어의 추가 외에도, 펜린은 인텔 코어 마이크로아키텍처를 기반으로 하여 일부 개선 작업을 하여, 이를 Enhanced Intel Core Microarchitecture라고 명명하였습니다. 여기에 추가되는 것은 이런 것들이 있습니다.

Fast Radix-16 Divider
Super Shuffle Engine
Split Load Cache Enhancement
Improved Store Forwarding
Faster OS Primitive Support
Virtualization Performance Improvements
Deep Power Down Technology
Enhanced Dynamic Acceleration Technology

인텔의 시니어 엔지니어이자 펜린 아키텍처 설계를 담당한 Stephen Fisher는 기존 프로세서와 비교해서 펜린의 그래픽 성능은 15%, 영상 코딩 평균 성능은 20%, 3D 제작 성능은 30% 이상, 3D 게임 성능은 최고 40%가 늘었다고 밝혔습니다.


Enhanced Core MicroArchitecture: Fast Radix-16 Divider



코어 마이크로아키텍처는 1 사이클에 4개의 명령을 처리할 수 있으며(구형 프로세서는 최대 3개의 명령을 처리), 고효율의 14층 파이프라인 스테이지를 사용하여 분기 예측 능력과 그 정확성을 높였으며, Branch Predictor의 대역폭을 20바이트로 높여(K8이나 바니아스는 16바이트, 넷버스트는 4바이트) 명령 실행 효율을 대폭 높였습니다.

그 밖에도 코어 마이크로 아키텍처는 매크로 퓨전 기술을 추가하여 부분 명령어 조합이 하나의 마이크로-Op 명령을 조합, 특정 상황에서 1 사이클에 5개의 명령어를 실행할 수 있도록 하였습니다. 마이크로-Op 퓨전 기술을 유지하고, 똑같은 매크로-Ops 혼합으로 하나의 마이크로-Ops를 Out-ofOrder 로직에 통과시키면 10%의 마이크로-Op 명령어 실행 횟수를 줄일 수가 있습니다. 따라서 코어의 실행 효율을 높이고 자원을 아낄 수 있는 것입니다.

펜린 프로세서는 코어 마이크로아키텍처의 장점을 그대로 유지하면서, 디바이더 설계를 개선, 과학 계산이나 3차원 좌표 전환을 비롯한 기타 수학 연산 밀집형 기능에서, 약 2배에 가까운 디바이더 처리 속도를 사용하는데, 새로운 고속 디바이더 기술을 Radix-16이라고 명명하였으며, 부동 소수점과 정수의 디바이더 명령을 더 빠르게 처리할 수 있게 되었습니다.


Enhanced Core MicroArchitecture: Super Shuffle Engine



인텔은 코어 마이크로아키텍처에 128비트 SIMD interger arithmetic과 128비트 SIMD 더블 Floating Point Operations 유닛을 추가하였습니다. 기존의 프로세서에서 128비트 SSE, SSE2, SSE3 명령어를 실행할 때에는 이를 2개의 64비트 명령으로 분석하여 2 클럭 사이클만에 완성하였습니다만, 코어 마이크로아키텍처에서는 1 클럭 사이클만에 완성, 실행 효율이 1배 빨라진 것입니다. 현재 SSE 명령어 세트는 보편적으로 사용되는 소프트웨어에서 모두 지원하기 때문에, 그래픽, 영상, 사운드, 암호화, 수학 연산 등의 용도에서 1 사이클 128비트 프로세싱 능력은, 클럭 이외에도 프로세서의 성능을 높이는 다른 방법이 됩니다.

펜린 프로세서는 새로운 슈퍼 서플 엔진을 추가, SSE 명령어의 효율을 높였습니다. 기존 프로세서는 Unpacking, Packing, Align Concatenate Sources, Wide Shifts, Insertion, Horizontal Arithmetic Functions Setup 등의 128비트 대역 문자형과 DwordSSE 데이터를 1 사이클에 완성하지 못했지만, 슈퍼 셔플 엔진을 통해 다른 성질의 128비트 SSE 명령을 1 사이클 안에 완성할 수 있게 되어, 레이턴시를 줄이고 데이터 처리량을 늘어나게 됐습니다. 또한 소프트웨어적인 부분의 개선 작업이 필요하지 않은 것도 특징입니다.


Enhanced Core MicroArchitecture: Split Load Cache Enhancement



인텔 코어 마이크로아키텍처는 프로세서의 캐시 아키텍처도 확실하게 개선하였습니다. 전통적인 듀얼 코어 프로세서는 독립된 코어가 자신만의 L2 캐시를 가지고 있습니다만, 인텔 코어 마이크로아키텍처는 코어 내부의 Shared Bus Router가 같은 L2 캐시를 공유하여, CPU1에서 연산이 끝난 결과를 L2 캐시에 저장하고, CPU0이 Shared Bus Router를 통해 CPU1이 L2 캐시에 공유해 놓은 데이터를 사용할 수 있어, 레이턴시와 FSB 대역폭의 사용을 줄였습니다. 동시에 L2 & DCU DataPre-fetchers와 Deeper Write output 캐시 레지스터를 통해 캐시의 Hit Rate를 대폭 증가하였습니다.

Shared Bus Router는 L2 캐시에 엑세스 할때에만 유용한 것이 아니라, 듀얼 코어가 FSB 전송 진행 스레드에서 새로 추가된 Bandwidth Adaptation에서 듀얼 코어가 FSB를 공유하는 효율을 개선하고 불필요한 딜레이를 줄여주기도 합니다.

펜린 프로세서는 L2 캐시의 용량을 50% 늘려, 듀얼 코어의 L2 캐시 용량은 최대 6MB, 쿼드 코어는 최대 12MB까지 늘어나게 됐으며, 24-Way set Asscoiative로 L2 캐시의 Hit Rate를 개선하고 사용 효율을 높였습니다.

그 밖에도 Split Load Cache Enhancement를 추가하여, 데이터에 엑세스할때 2개의 서로 다른 고속 캐시에 나눠, 로딩 작업을 나누게 됩니다. 하나의 고속 캐시에 데이터를 저장하는 것보다 2개의 고속 캐시에 데이터를 저장하는 쪽의 성능이 더 빠른 것지요.


Enhanced Core MicroArchitecture: Improved Store Forwarding


펜린은 기타 로딩/세이브 저장 작업 전에 추측을 통해, 빠르게 로딩 상태를 분석해 내어 엑세스 성능을 대대적으로 개선하고, 데이터 스캐닝 등의 응용 프로그램에서의 효율을 높였습니다.

인텔 코어 마이크로아키텍처에 추가된 Memory Disambliguation 설계는 Out of Order 과정에서 메모리 엑세스 순서를 분석하여, 데이터가 독립되어 실행되는 것인지를 알아냅니다. 만약 데이터 앞 뒤에 저장된 것들이 상관이 없는 것이라면 실행을 일찍 끝내, 프로세서의 대기 시간을 줄이고 아이들 딜레이를 줄이게 됩니다.

또다른 메모리 시스템 성능 개선점이라면 8비트가 넘는 주소 경계나 파이프라인 중의 혼잡한 저장 결과를 엑세스 하는 속도를 빠르게 늘렸다는 것입니다. 이로서 로딩 중인 데이터를 저장하거나, 데이터 기록이 끝나기까지 메모리에서 기다릴 필요가 없게 되었습니다.


Enhanced Core MicroArchitecture: Faster OS Primitive Support

기동은 중요한 코드로서 독점 방식으로 특정 자원을 방문하기 때문에(내부 I/O 디바이스라던가), 일부 운영체제에서는 임시적인 인터럽트를 실행하게 됩니다. 따라서 펜린에서는 Faster OS Primitive Support를 추가하여, 더 빠르게 인터럽트, CLI, STI를 수행하고, 이 모드를 빠르게 시작하고 끝냄으로서, 이와 비슷한 코드를 실행할때의 성능을 현저하게 높였습니다.

펜린 프로세서는 특정 명령얼 빠르고 처리하도록 설정되어 있습니다. 예를 들자면 XCHG, ADD/XADD/NEG/BTS/AND, CMXCHG가 그것인데, 더 빠른 TDTSC를 지원하기도 합니다. 이러한 기능들은 데이터베이스나 사무 처리용 서버에서 자주 쓰이는 것들입니다.


Enhanced Core MicroArchitecture: Virtualization Performance Imporvements



펜린은 가상화 기술에도 상당한 개량을 하여, EPT 확장 페이지 분할을 지원하고, VT-x 명령어 가상 컴퓨터 전환, 진입/종료 속도를 개량하고 평균 25~75% 정도 성능을 높였습니다. 또한 마이크로아키텍처를 개선한 것이기 때문에 가상 프로그램을 수정할 필요도 없습니다.


Enhanced Core MicroArchitecture: Deep Power Down Technology



모바일 펜린 프로세서에는 새로운 고급 전원 관리 상태인 C-Status가 추가되었는데, 대기 모드에서 프로세서의 전력 소모량을 낮출 뿐더러, 트랜지스터에서 누설 전류가 생기는 것을 막는 데에도 효과가 있습니다.

새로운 프로세서 절전 모드인 C-6(Deep Power Down)은 프로세서의 L1 캐시의 모든 데이터를 제거하고, 프로세서 마이크로아키텍처를 유지하면서, 내부 코어와(코어 클럭과 PPL 정지) L2 캐시를 꺼버립니다. 칩셋은 계속에서 I/O 메모리 교환 동작을 수행하지만 프로세서를 작동시키진 않습니다.

내부 코어가 필요해지면 전압을 올려서 코어 클럭과 PPL을 켜고, 프로세서가 다시 작동하면서 메모리에서 캐시의 데이터를 가져오게 됩니다. 마이크로아키텍처는 원래대로 회복하며 계속해서 명령을 수행하게 됩니다.

인텔은 C6(Deep Power Down) 모드가 DC4(Enhanced Deeper Sleep)모드보다 전압이 절반으로 줄어들고, L1 캐시도 꺼지기 때문에 프로세서 전력 소모량이 75%가 줄어들게 된다고 밝혔습니다. 물론 작동 상태로 돌아갈 때에는 DC4보다 50% 정도 시간이 더 걸리긴 합니다.

C-Status 상태가 길어질수록 대기 상태에서 작동 상태로 바꿀때 필요한 전력이 높아지고, 시간도 더 오래 걸리게 됩니다. 이러한 전환 작업이 빈번하게 발생하면 C-Status 때문에 오히려 더 많은 전력을 소모하게 되는데, 차세대 펜린 프로세서에서는 이러한 전력 필요량을 자동으로 계산하여 어느 쪽이 더 절전에 유리한지를 알아서 판단하게 됩니다.


Enhanced Core MicroArchitecture: Enhanced Dynamic Acceleration Technology




사실 Enhanced Dynamic Acceleration Technolohy(IDA)는 펜린에서 처음으로 사용된 것이 아니라, 소켓 P 버전의 메롬 프로세서부터 추가된 것이며, 기존의 싱글 스레드 프로그램을 위해 만들어진 기술입니다.

기존의 프로그램은 멀티 코어에 대한 최적화가 이루어지지 않았기 때문에, 오직 1개의 코어만 사용하여 작동하게 되고, 다른 코어는 작동을 멈추게 됩니다. 따라서 IDA는 특정 코어가 풀로드 상태에 도달하면 다른 코어를 C3 Deep Sleep 모드(코어 클럭, PPL, L1 캐시 작동 중지)로 바꾸는 대신, 풀로드 상태의 코어를 Turbo Bin 상태로 돌려 코어 클럭을 높여, 현재 작업을 더 빨리 끝낼 수 있게 해줍니다.

코어 클럭이 높아지면 프로세서 TDP 역시 스펙을 초과하게 됩니다만, 이는 듀얼코어 프로세서의 최고 TDP 수치이기 때문에, IDA에서 한개의 코어가 C3 Deep Sleep 모드로 들어가면 다른 코어가 Turbo Bin 모드로 작동해도, 듀얼코어의 최고 TDP를 능가하진 못합니다. 따라서 컴퓨터 제조사에서는 IDA를 위해서 쿨링 성능을 개선할 필요는 없습니다.

Turbo Bin 모드에서는 배수가 1x 더해집니다. 정상 클럭이 12 x 200Mhz = 2.4GHz인 CPU가 Turbo Bin 모드에서 작동한다면 그 코어 클럭은 13 x 200Mhz = 2.6GHz가 되는 것입니다.


45나노 공정 펜린 데스크탑 듀얼코어 프로세서: 울프데일 2.33GHz 엔지니어링 샘플



인텔의 차세대 45나노 공정 펜린 페밀리의 데스크탑 듀얼코어 프로세서의 사진입니다. 시리얼 넘버는 80570PJ0536M으로, 80560은 울프데일, P는 데스크탑 메인스트림 제품, J는 1333MHz FSB, 053은 2.33GHz, 6M은 L2 캐시가 6MB라는 것을 뜻합니다.

명령어는 MMX, SSE, SSE2, SSE3, SSE4, VT, 스피드스텝, 64비트, ExBit, TXT 등을 지원합니다.

울프데일은 4.1억개의 트랜지스터가 내장되었는데, 기존 콘로 프로세서보다 1.19억개가 늘어난 셈입니다. 그 중에서 L2 캐시의 용량이 50% 늘어난 것이 9.6천만개로 제일 많은 비중을 차지하며, 나머지는 SSE4 명령어 세트와 마이크로아키텍처의 개량 부분입니다.

내장된 트랜지스터의 수가 40%가 늘어났지만 45나노 공정을 사용, 다이 크기는 기존의 143㎟보다 오히려 줄어든 103㎟이며, 이는 제조 원가 절감에 큰 도움이 되는 요소이기도 합니다.

울프데일은 45나노 공정 High-K 메탈 게이트 기술을 사용하여 제작되었기 때문에 VTT 전압이 1.2V에서 1.1V로 줄어들었고, 트랜지스터의 전력 소모량도 15%가 줄었습니다.

기존 65나노 공정 프로세서의 최고 클럭은 3GHz이며, 오버클럭을 하면 3GHz가 넘긴 하지만 전력 소모량이 대폭 늘어나게 됩니다. 하지만 45나노 공정은 최고 4GHz까지도 가능할 것이라고 합니다.

차세대 45나노 공정 제품의 CPU GTLREF Ratio 설정에 변화가 있었기 때문에, 기존 메인보드에서는 바이오스 업데이트를 해야만 정상적인 사용이 가능합니다.

주목해야 할 것은, 인텔이 '오직' 3 시리즈 칩셋에서만 45나노 공정을 지원한다고 강조하고 있는 반면, 메인보드 제조사 측에서는 965 칩셋에서도 바이오스 업데이트를 통해 45나노 공정 프로세서를 사용할 수 있다고 합니다. 하지만 VTT 전압이 1.2V로 설정되어 프로세서의 전력 소모량이 늘어나고 수명이 줄어들 수 있다고 하니, 965 칩셋에서 작동은 되지만 추천은 할 수 없다고 보면 되겠습니다.



왼쪽이 45나노 공정 울프데일 코어, 오른쪽이 65나노 공정 콘로 코어





성능 테스트: 45나노 vs 65나노 듀얼코어

Intel Core 2 Duo E6550 (2.33GHz/4MB L2/1333MHz FSB)
Intel Wolfdate ES Sample (2.33GHz/6MB L2/1333MHz FSB)
Evercool Euffalo HPFI-10025 Cooler
Gigabyte GA-P35T-DQ6 (P35 + ICH9R + DDR3)
Gigabyte GA-G33-DS3R (G33 + ICH9R)
ADATA DDR3-1066 CL 6-6-6-18 1GB x 2
MSI GeForce 8800Ultra VGA Card
Gigabyte ODIT 800W Power Supply
Maxtor DiamondMax 10 160GB 7200rpm SATA II
Windows Vista Ultimate 32Bit Edition



울프데일 2.33GHz 샘플은 지금 출시된 코어 2 듀오 E6440과 클럭이 같습니다. 따라서 팬린 페밀리에서 개선된 아키텍처/공정의 변화만 순수하게 확인할 수 있습니다. 테스트 결과는 펜린이 대부분의 코딩, 그래픽, 사운드, 멀티미디어, 게임에서 5~10%의 성능 향상을 보여주었습니다.



특히 펜린은 Radix-16 디바이더를 사용, 4비트 데이터를 동시에 처리할 수 있는 반면, 기존의 Radix-2나 Radix-4 디바이더에서는 오직 2비트 데이터만 처리할 수 있습니다. 이것 때문에 정수 성능과 부동소수 연산 능력에서 확실한 차이가 나는 것입니다.

게임에서도 대량의 평방근을 구하는 연산을 사용하기 때문에 Radix-16 디바이더를 사용하는 울프데일이 3D 게임에서 최소 10% 이상의 성능 향상을 보여주었습니다. 특히 하프라이프2 같은 경우에는 성능 차이가 31%에 달했습니다.

SSE 명령어 셋트의 경우, 산드라 2007에서 펜린의 SSE3 명령어 실행 효율이 15%가 상승하였습니다. 슈퍼 셔플 엔진이 확실한 성능 향상 효과가 있다는 것을 보여주는 것이라 할 수 있겠으며, SSE 명령어 세트를 사용하는 프로그램에서는 확실한 성능 향상을 볼 수 있을 것이라고 기대됩니다.

더욱 주목해야 할 점은, 이 테스트가 펜린의 모든 성능을 끌어낸 것이 아니라는 것입니다. 펜린은 앞으로 더 높은 클럭의 제품이 출시될 것이며, 아직 개량된 아키텍처에 맞춘 프로그램들(SSE4 지원이라던가)은 나오지 않았습니다. 따라서 앞으로 최적화가 이루어진다면 더욱 큰 성능 향상을 기대할 수 있을 것으로 보입니다.


온도/전력 테스트: 45나노 vs 65나노 듀얼코어



전력 소모량을 보면, 45나노 High-K 공정의 울프데일이 트랜지스터 수량이 40%가 늘었음에도 불구하고, 전력 소모량은 28%가 줄었습니다. 온도 역시 콘로보다 많이 줄어든 것을 볼 수 있습니다.


후기

인텔 펜린은 단순히 제조 공정의 개선 뿐만 아니라 코어 아키텍처의 개선을 통해 상당한 성능 향상을 가져왔습니다. 그 효과는 예전 펜티엄 4 윌라멧이 노스우드로 업그레이드 되었을 때보다 더 크면 몰라도 더 적지는 않을 것입니다.

AMD의 K10 아키텍처와 비교한다면, 단순히 아키텍처 구조만 놓고 본다면 펜린 패밀리의 성능이 약간 떨어질 수도 있겠습니다. (...전 별로 그렇게 생각하진 않지만 일단 원문 그대로 옳깁니다) 하지만 펜린은 더 우수한 제조 공정, 더 높은 클럭, 낮은 제조 원가등의 장점이 있습니다. 전체적으로 보면 AMD K10이 반드시 유리할 것이라고 볼 순 없지만, 아직은 결론을 내리긴 너무 이른 시점이겠지요.

더욱 주목해야 할 것은 따로 있습니다. 인텔은 10월에 차세대 네할렘 아키텍처의 샘플을 공개하고, 2008년 하반기에 이를 출시할 계획입니다. 펜린은 출시된지 반년만에 중저가형 제품군으로 밀려나게 되며, 차세대 네할렘 프로세서야말로 AMD K10 아키텍처와 맞설 진정한 상대인 것입니다. 인텔이 K8 시절에 뼈저리게 당한 것을 결코 잊지 않고 준비를 철저히 하여 반격의 기회를 주지 않으려는 것으로 보입니다.


기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.