기글 하드웨어 스페셜 게시판

비교적 전문적이고 내용이 긴 특별한 정보들이 올라오는 곳입니다. 회원만 볼 수 있는 게시판입니다. 이곳의 글은 절대로 다른 곳에 퍼갈 수 없습니다.

Intel의 Atom 설계 : 여정이 시작된다. #1 in 2/2

고재홍

Eveything that has a beginning, has an end.

http://gigglehd.com/zbxe/91473

2008.04.06 22:05:30

2333

||1

11페이지.

전력 소모와의 싸움...더 긴 파이프라인으로?

Atom의 파이프라인은 확실히 깊은 16스테이지인데, 그 중 13 스테이지는 분기예측 미스 페널티를 가진다. 이것은 C2D의 14파이프보다 깊다는 것을 알아 두어야 하는데, 이것은 Atom을 위해 주어진 저전력에 중점을 둔 디자인 팀이 이룬 것이라곤 믿겨지지 않는 것이다.

16스테이지 파이프라인은 3개의 명령어 페치와 3개의 명령어 디코드 스테이지를 갖추어, 예상했던 것보다 많다.

길어진 파이프라인은 보통 더 높은 전력 소모로 연관되는데 특히 가장 최근의 Pentium 4의 재림 때문에 나왔다. Intel은 우리에게 긴 파이프 라인에 대한 3가지 이유를 주었다.

1) 캐시
2) 디코더
3) SMT

전력 소모를 줄이기 위해 지연시간을 버리는 것을 결정해야 할 때에 직면했을 때, Austin 디자인 팀은 항상 전력 소모를 낮게 하는 것을 선호하였는데, 이것이 지연시간을 증가시키는 것을 의미하더라도 변함없었다. Atom은 캐시 컨트롤러가 실제 히트율을 알지 않는 한 그것의 캐시에서 큰 뱅크의 대역을 한번에 쏘지는 않는데, 불행하게도 이것은 캐시의 접근 지연시간을 증가시키게 된다. 클럭 속도를 높이기 위해, 이들 캐시 접근은 더 길게 파이프라인이 짜여져야 한다. 이것의 이득은 전력을 적게 소모하는 상태로 된다는 것이다. ; Atom은 가상 표지 태그의 전력 소모를 피하기 위해 물리적으로 표지한 캐시 방식으로 유지하게 된다.

같은 방법으로 지연시간은 디코딩 스테이지에서도 만들어지게 된다. 디코더를 통한 느린 경로 대 빠른 경로의 대비를 기억하는가? 느린 경로는 높은 지연시간을 갖지만 명령어의 정확한 해독을 보증하며, 추가된 지연시간은 Atom을 강제적으로 2개 스테이지 대신 3개 스테이지를 갖게 했다.

마지막으로 SMT로 인해 1개나 2개가 추가된 파이프라인 스테이지에는 몇몇 알고리즘이 있는데, 이런 간단한 CPU에 대한 확실히 긴 파이프라인에서의 종료 결과가 나오는 곳이다. 이유는 납득이 간다. ; 여기에는 NetBurst 같은 넌센스가 없고, 이 모든 결정은 목표 주파수를 유지하면서 전력 소모를 가능한한 적게 하기 위해 내려진 것이다. 아주 간단한 듀얼이슈 코어 때문에, Atom은 우리가 예상하는 만치의 성능을 우리에게 주기 위해 적당량의 클럭 속도를 필요로 한다.

12페이지.

비균일적인 L1 캐시 : 우리는 왜 그런지 알고 있다.

Atom 프로세서는 확실히 큰 용량의 캐시가 필요한데, 높은 메모리 지연시간에 민감한 순차 처리 아키텍쳐에서 필수 불가결한 존재이다. 우리는 초기 Atom(Silverthorne) 설계에 대한 논쟁에 아랫 글처럼 썼다.:

"이 L1 캐시는 32KB의 명령어와 24KB의 데이터 캐시로 범상치 않게 비대칭한데, 이런 결정은 성능, 다이 사이즈, 그리고 단가에 대해 최적화 하여 만들어진 것이다. L2 캐시는 8 방향 512KB 설계인데, Core 설계에서 쓰던 것과 아주 유사하다.

Silverthorne이 완전하게 Intel의 high-k/metal gate 45nm 공정에서 설계되었는데, 여기에는 1가지 주요한 차이점이 있다. : SRAM 셀 크기가 그것이다. Intel은 0.382 제곱마이크로미터의 SRAM 셀을 Silverthorne에서 쓰고 있는데, Core 2에서는 0.346 제곱마이크로미터의 SRAM을 쓰는것과 대조적이다. 각개 SRAM 셀은 8개 트랜지스터 설계로 Core 2의 6개 트랜지스터 설계와도 대조적이다. 커진 셀 크기는 Silverthorne의 다이 크기를 증가 시키지만 이것은 더 적은 전력과 더 낮은 작동 전압을 보여준다."

그 당시 우리는 왜 Atom의 L1 캐시의 명령어와 데이터 캐시가 Intel이 평소에 그들의 프로세서에 설계하듯이 같은 크기로 만들어지지 않았는지 적합한 설명을 하지 않았었다. 그때에 비해 우리는 설계 결정에 대해서 약간의 분석을 하였다.

전통적으로, Intel은 (e.g. 65nm)특정 제조 공정과 목표 전압에 부응하려 마이크로 프로세서를 설계 하였으며, 가능한한 낮은 전압으로 설계하려 한다. Atom은 엔지니어들이 아키텍쳐적으로, 주어진 요구에 그들이 할 수 있는 것을 보류하면서, (45nm)제조공정에서 작동이 가능한 절대적 최소 전압 부근으로 설계하였다.

이런 접근에 대한 완벽한 예제가 Atom의 L1 명령어와 데이터 캐시 설계에 있다. 원래 이들 두 캐시는 (셀 당 6개의 트랜지스터들로) 작은 신호 배열이었는데, 그들은 아주 작았으며 Intel이 갈망하는 성능을 보여주었었다. 그러나 칩의 모델링 시기에 Intel은 칩의 구동 전압의 크기를 낮추는데 있어 제한요인이 된다는 것을 느꼈다.

전압을 올리면서 작은 신호 배열을 더 집어 넣는것 대신에, Intel은 (1read/1write 포트인)레지스터 파일을 전환하였다. 캐시는 이제 (셀당 8 트랜지스터의) 큰 셀 크기를 가지게 되었고이것은 L1 명령어와 데이터 캐시의 도면 영역의 증가를 가져왔다. Atom의 평면도는 큰 크기를 다루기에 문제를 가지고 있었으므로 데이터 캐시는 전력 효율의 방편으로 32KB에서 24KB로 줄어들어야만 했다. 우리는 왜 Atom이 (32KB/32KB 대신 24KB와 32KB로 된) 비대칭적인 L1 데이터와 명령어 캐시를 가졌는지 궁금했고 이것은 전압이 야기 시킨 것이라는 것으로 판명났다.

셀당 6개 트랜지스터에 기반한 작은 신호 배열 설계는 특정 최소 구동 전압이 있었는데, 다른말로 이것은 특정 Vmin까지 상태가 유지됨을 뜻한다. L2 캐시에서, Intel은 6트랜지스터 신호 배열 설계가 인라인 ECC 설계 때부터 가능해질 수 있었다. Intel은 L1 캐시가 인라인 ECC를 장착 하는 것을 방지 하였으므로 또다른 설계 결정이 있었어야 됐는데, 그리하여 설계자들은 낮은 구동 전압을 유지 시키기 위해 큰 셀 크기가 필요하게 되었다.

Atom 프로세서의 디자인 접근의 최종 결과는, 그것의 최소 구동 전압에서 그것의 최고 성능 상태로 구동이 가능해지게 되었다.

하드웨어 프리페쳐 - 매우 필요하다.

Atom은 2개의 하드웨어 프리페쳐를 갖고 있는데, 1개 프리페쳐는 L2 캐시에서 L1 데이터 캐시로 보내주고, 나머지 1개는 메모리에서 L2 캐시로 보내주는 역할을 한다.

하드웨어 프리페칭은 순차 처리 코어에서는 믿을 수 없을 정도로 중요한데 몇번씩이나 재차 강조 하였지만, 캐시에서 데이터가 사용불가능하다는 것은 파이프라인이 데이터가 사용 가능해질 때까지 논다는 것을 의미하기 때문이다.

긴 기간의 데이터 굶주림의 문제를 해결하기 위한 명확한 솔류션은 메모리 컨트롤러를 다이 상에 내장하는 것이다. Atom의 설계가 완성 되었을 당시 45nm MCH 디자인이 준비되지 않아서, Intel은 온다이 메모리 컨트롤러를 얻기 위해서는 2세대 Atom (코드명 Moorestown) 까지 기다려야 한다.

13페이지.

FUB들에 의한 설계

이 아래에 우리는 Intel Atom 프로세서의 전통적인 블럭 다이어그램을 넣었다.

당신은 9개의 구획된 블럭 안에 Intel의 전통적인 마이크로 프로세서 설계를 볼 수 있는데, 이것은 어떻게 칩이 분리되고 공략되는가 이다. 1개 팀이 L2 캐시로 작동하고, 1개 팀이 IO 인터페이스로 작동하고 등등... 불행하게도 Austin에서의 팀은 확실히 당신의 전통적인 마이크로 프로세서 그룹보다 작으므로, 이 CPU도 약간은 다르게 제작이 되었다.

Intel은 Atom을 Sea-of-FUBs 칩 레이아웃이라 부르는 방법으로 접근하는데, 칩의 레이아웃과 설계를 더 세세히 접근하는 것이다. FUB(기능성 유닛 블럭, Functional Unit Block) 은 수평적으로 계획 가능한 요소로, 각개 가산기는 FUB이고, 디코더는 FUB이고, 캐시는 FUB이고, 등등..인데 왜냐하면 각개 FUB의 크기로 하여금 그들에게 더 관리가 수월하게 만들었기 때문에, 1명의 디자이너는 다수의 FUB를 조종할 수 있다. FUB들은 더욱 모듈화 되게 간주되었었기 때문에 한번 FUB가 정의되면, 설계자들은 FUB 상에서 작업을 할 수 있게 되고, 인터그레이터들은 이것들을 레이아웃 작업자들과 타이밍 작업자들에게 병렬 적으로 넘길 수 있게 된다. 이것은 전통적인 것보다 훨씬 더 동시다발적인 설계이고, 칩 설계의 접근에 있어 훨씬 직렬적이다.

대략 90%의 FUB들이 표준 Intel 회로 셀에서 만들어졌는데, 작업 완료에 있어 부가적인 작업의 양을 최소화하고 Atom 같은 프로세서를 시장에 내놓는데 걸리는 시간을 줄어들게 한다. 부가적인 Intel 로직의 양을 최소화 한다는 것은 또한 목표 시장에 따라서 다른 중요 특징을 구체화 시키는 Atom의 다양한 버젼을 쉽게 생산할 수 있다는 것을 의미한다.

Sea-of-FUBs 접근법은 또한 원하는 수치의 전력 소비 이하로 소모 하게 하기 위한 방법도 된다. 각 구획마다의 예상 전력 소모량들이 계산되고 Intel은 디자이너들에게 이 예상 수치들을 모으게 한다. 디자이너가 그들의 FUB를 위해 더 많은 다이 공간을 필요로 해도 그들 맘대로 넓힐 수 없다. 설계자들에 의한 자율 심의 기구가 생성되면 FUB는 성장시키려면 그들에게 요청해야 한다. FUB를 더 키울 수 있을 때는 오직 회로를 미세화 시켜 다른 FUB를 넣을 수 있을 때 만이 허용될 뿐이다. 전력 소비 면에서는 동등하다.

14페이지

구획없는 클럭 분배

주파수 제한을 크게 잡았을 때, Core 2 같은 고성능 CPU에서는, 각각 클럭 주기마다 오버헤드를 최소화 하여 최대량의 작업을 할 수 있게 해야 한다. 타이밍이 핵심이다.

마이크로 프로세서 안의 모든 기능 블럭은 같은 클럭 신호로 동작한다. 클럭 신호를 메트로놈이나 심장 박동으로 생각 할 수 있는데 ; 메트로놈의 모든 상승기 클럭 때나, 모든 심장 박동 때 작동하거나 클럭이 논리적으로 "1"이나 "high" 상태일 때 언제나 작동하는 것이다.

1 클럭으로 칩 전체에 분배를 할 수 있지만, 칩이 더 복잡해지면 초당 클럭 변화에 좀 더 많은 시간이 걸리게 되어, 칩의 모든 부분에 클럭이 얻어지게 하는 것은 아주 어렵게 된다.

절대적인 최대 가능 주파수에 도달하기 위해서는, 같은 시간에 칩의 모든 부분에 클럭 시그널이 도달하도록 해야 하는데 약간의 변화량도 아주 중요하게 작용하게 된다.

크고 복잡한 다이 상을 지나는 임계 신호를 분배할 때, 이 칩을 가로지르는 1개 클럭 시그널의 효율적인 분배 방법은 금속 격자를 사용하는 것이다. 이 금속 격자를 사용하면 클럭이 칩의 모든 부분에 아주 적은 skew 를 가지게 하지만, 이것은 큰 캐패시턴스와 엄청난 양의 전력을 소모하게 되는 문제가 있다. 큰 CPU 코어는 그들의 전력 소모 량의 30~35%를 단순히 클럭 분배에 사용한다. 이것은 확실히 Atom에는 적합하지 않다.

Atom 프로세서가 비교적 높은 주파수로 동작해야 하지만, 4Ghz까지 높여야 하는 것은 아니다. 무조건적인 주파수 요구가 없으므로, 클럭 분배에서는 간단한 형식만으로도 적용 가능하다. Atom은 클럭 분배에 이진 트리를 이용한다. ; 클럭 시그널은 PLL에서 발산점으로 보내지며, 그 때 다수 트리의 인버터로 산개되며 마지막으로 각각 지점에서 FUB로 수직 분배되어 발산되어 간다.

이진 트리 접근법은 확실히 각 지점에서의 전류 소모량을 줄이게 되어 Atom에서의 전력 소모량 중 클럭 분배에 쓰이는 량은 10% 이하이다.

15페이지

Atom의 FSB와 멀티코어 목표

모든 Intel FSB들은 GTL을 사용한다. ; 이것은 양호한 신호를 생성하여 확실히 엄청나게 높은 속도로 도달할 수 있는 수용력을 지니고 있고, 현재 1600Mhz까지 도달해있는데, 그러나 기억해야 할 것은, Atom은 아주 빠른 것을 목표로 하는 것이 아니라, 사용하기에 충분한 빠르기만을 원할 뿐이다. - 여기서는 성능 향상을 위한 여지는 좀 남겨둔다.

GTL FSB는 각개 클럭마다 아주 깨끗한 data eye를 제공하는 온다이 터미네이션을 사용하는데, 이것은 아주 고주파의 작동을 할 때 필요하다. Atom은 세계에서 가장 데이터에 굶주린 프로세서가 아니며 그러므로 400Mhz나 533Mhz의 FSB를 가지고도 충분하므로, GTL FSB는 지나치다고 해도 과언이 아니다.

Atom은 GTL이나 FSB에 기반한 CMOS를 지원하는데, 선택은 제조상에서 퓨즈를 끊음으로 FSB에서의 GTL이나 CMOS 구동이 설정된다. CMOS 모드에서 온다이 터미네이션은 꺼지며, FSB는 GTL 모드에 비해 1/2 전압으로 구동되어 전체 전력 소모는 줄어든다. 우리가 말하는 정도에서 주파수 상의 CMOS와 GTL에 대한 성능의 차이는 없으며, 다른점이라곤 칩셋 호환성과 전력 소모정도이다.

Poulsbo는 CMOS 모드에서 기능이 동작하여 그러므로 당신은 Atom 프로세서가 Poulsbo 칩셋과 쌍으로 동작할 때에는 낮아진 전력 소모 FSB 모드에서 동작함을 예상할 수 있다. 그러나 Atom은 Poulsbo와만 작동하기를 원하지는 않으며, Atom과 거의 비슷한 (Atom에서의 저렴한 데스크탑과 노트북을 위한 버젼인) Diamondville 코어는 GTL 모드에서 작동하여 전통적인 데스크탑 칩셋과 작동가능해질 것이다.

Atom은 멀티코어가 가능하지만 첫번째 칩 버젼에서는 확실히 싱글코어 설계이다. 첫번째 멀티코어 Atom은 듀얼코어 Diamondville의 형태를 띄게 될 것인데 올해 말 쯤 나올 것이다. 예전 듀얼코어 CPU 설계 같이, Atom은 공유된 FSB에서의 2개 코어가 장착된 형태가 될 것이다. 이것이 내장 메모리 컨트롤러를 갖게 되면, 멀티코어 설계는 더욱 멋지게 될 것이다.

16페이지

Poulsbo : 평범하지 않은 혁명적인 칩셋

2005년에 Poulsbo 칩셋에 대한 작업이 시작되었는데, 음의 성격인 Atom 프로세서의 양의 성격이 된다. Atom 프로세서 자체와 비슷하게, Poulsbo의 설계 목표는 단순하다. : 초점은 전력 소모였으며, 이것이 성능에 영향을 끼치더라도 어떻게 이것을 줄이느냐 였다.

Poulsbo의 수석 디자이너는, 그당시 RDRAM 칩셋에만 붙을 수 있었던 칩인, Intel의 i840 칩셋에 대해 작업을 하였었다.

Poulsbo가 모든 ICH에 사용 하였었던 130nm 공정으로 디자인 되었을 때, Poulsbo도 똑같이 130nm로 제작되었다. Atom 프로세서와 이것의 칩셋의 사진을 본다면, 왜 이 칩이 그렇게 엄청나게 큰지 이해가 될 것이다.

Intel Atom 프로세서(왼쪽) 대 Poulsbo 칩셋(오른쪽)

130nm 부문으로 제조된 Poulsbo는, 또한 왜 Atom이 오늘날 iPhone보다 큰 기기에 국한되는지를 설명하는 데 도움이 된다. : 이 칩 쌍은 간단히 너무 작은 기기에는 들어가지 않는다. 그만큼 전력 소모에 대한 우려도 명백하지만, 물리적으로 이 2개 칩이 스마트폰 크기의 기기에 들어가기에는 다음 리비젼이 나오기 전까지는 불가능하다.

고레벨에서, Poulsbo는 내장 그래픽 칩셋이 있는 Intel 칩셋과 하등 다를 것이 없어 보인다.

당신은 여기에서 Intel이 시스템 컨트롤러 허브(SCH)라고 부르는 싱글 칩 솔류션이 약간 더 특별하다는 것을 느낄 것이다. 데스크탑 칩셋을 재사용 하는 대신에, Intel은 자투리 자료에서 Poulsbo를 제작하였다. SATA와 몇몇 USB 포트 같은 것은 전력 낭비를 막기 위해 디자인에서 제외해버렸다. 디자이너들은 PATA를 다시 갖고 왔는데, 전력과 작은 드라이브를 위해서였다. 놀고 있는 상태에서는 PATA와 SATA 사이에 전력 소모 차이가 그렇게 차이가 나지 않지만, 데이터를 전송하는 활성 시간에서는 SATA는 그것의 직렬 내성 때문에 높은 전력 소모가 불가피하였다.

FSB와 메모리 주파수들은 전력소자와 PLL 소자 갯수를 줄이기 위해 함께 동작하게 된다. 칩셋은 싱글 채널의 DDR2-400/533 메모리 컨트롤러 특징을 가지게 된다.

Poulsbo는 (HD 오디오 코덱이 아닌 Azalia를 사용하는) HD 오디오를 지원하지만 전력 소모를 용인 가능한 등급 아래로 내리기 위해 지원되는 오디오 엔진의 갯수를 줄였다.오직 2채널 오디오만이 지원되지만 외장형 오디오 인터페이스 접근을 할 수 있으므로, (MID 같은) Atom 기기와 7.1 채널 풀 지원을 하는 외장 코덱의 사용의 접합을 예상할 수 있다.

Poulsbo의 부분

Intel은 또한 SCH를 지나가는 데이터를 위해 아주 복잡한 메세지 조직을 개발하였다. - 효율적인 방법으로 칩을 지나는 인터럽트와 전력 관리 신호 같은 것을 갖고 있는 온 칩 이더넷 네트워크를 생각해보라.

Poulsbo는 메모리 브릿지에 대한 새로운 FSB를 소개하였는데 전통적인 설계보다 훨씬 간단하다. 당신이 가진 대부분의 칩들은 FSB와 메모리 서브시스템 간의 트래픽을 위한 많은 각기 다른 큐들을 갖게 설계 되었는데 플랫폼에서 가장 실형 가능한 성능을 뽑아내기 위해서이다. Poulsbo에서는 디자이너들이 큰 8K 메모리용량만을 제어하는 메모리 컨트롤러를 장착하여 모든 FSB/메모리 트래픽이 이 형태로만 움직여야 한다. 싱글메모리 채널 체계는 설계를 훨씬 더 쉽게 하게 하는데, 칩셋 자체적으로 훨씬 작아지지만 성능에 치명적일 수 있다. SCH에서의 MCH/노스브릿지 파트는 전통적인 MCH/노스브릿지의 영역 기준으로 접근하자면 거의 20%의 영역을 차지한다.

Poulsbo의 ICH/사우스브릿지 부분은 비슷하게 줄어들었다. 레거시 기기들은 칩셋에서 쫓겨나서, 여기에 페러럴 포트와 플로피 디스크 컨트롤러는 존재하지 않는다. 메인스트림 칩셋들에서는 이 기능을 계속 썼었고, 이것은 계속 있어야 한다. - Poulsbo에서는 통하지 않는다. 목표 시장이 이것을 필요로 하지 않으면, 그 기능은 칩셋에 들어가지 않았다.

Poulsbo에서 부가 기능을 뺀 것에 대한 이득은 칩셋이 물리적으로 적어진 게이트로 인해 작아졌다는 것으로, 낮아진 누설 전류를 의미한다.

Intel에게는 아주 비주류적인 움직임인, Poulsbo는 또한 비규격의 1.5v DDR2 메모리를 지원한다. JEDEC 스펙에서는 1.5v DDR2 메모리가 공식적으로 존재하지 않지만 많은 벤더들이 1.5v에서 충분히 작동할 충분히 좋은 모듈들을 가지고 있으므로, OEM이 그들의 메모리에 저전압을 원한다면 칩셋도 지원을 할 것이다.

Poulsbo의 디자인의 많은 부분은 끝마쳐지지 않았는데 Atom 프로젝트가 끝마쳐지지 않았기 때문이다. 많은 혁명적인 기술이 Poulsbo에 녹아들어가있는데, 이것은 더욱 모듈러적인 디자인이고, 더욱 효율적인 설계이며 일반적인 칩셋 디자인에서 더 좋아질 수 있는 여지를 남겨둔 키이다. - 그러나 이런 기술들중 표면으로 올라온 것들은 한개도 없었다.

Intel의 칩셋 사업은 시계 같은데, 매년 새로운 플랫폼이 예상되고 일반적인 흐름을 막을 수 있는 더욱 혁명적인 변화는 일반적으로 묵살되곤 했다. Poulsbo는 내부적으로는 최소한, 이런 많은 장벽들을 깨버렸다. 이것이 Intel이 지금까지 생산한 최고성능 칩셋에서 동떨어져있기 때문에, Poulsbo는 메인스트림 칩셋의 대충 절반에 해당하는 전력만 요구하게 된다. Intel은 그들의 CPU로 몇년동안은 효율성을 최고로 쳤는데, Poulsbo는 칩셋과 함께 이런 유사한 경향에 불을 당기는 시발점에 도움이 될 것이다.

17페이지

Poulsbo의 그래픽 : 풀 HD 디코드이며 Intel에서 만들어진 것이 아니다.

Poulsbo에 쓰이는 그래픽 코어는 실제적으로 Intel에서 설계한 것이 아니다. Intel이 실 설계자를 공개하지 않았는데, 이것은 이 코어가 설계제조된 것과 라이센스가 서드파티에서 된 것을 확신시켜준다. 우리는 왜 이러는지 물었는데 Intel은 간단히 언급하기를 이 서드파티는 초저전력 그래픽 코어를 긴 기간동안 개발하고 있으며, 이것은 그들이 그들 고유의 것을 개발하는 것보다 라이센스를 체결하는 것이 더 효율적이라고 하였다. 그들의 칩셋에 그들의 내장 그래픽이 들어갈 때와는 전혀 다른 Intel의 기준 구동 처리절차이며, 주목할 것은 이전 설계에서 얼마나 Atom 프로젝트가 달라졌는가 이다.

Update - Imigiantion Technologies가 Intel이 PowerVR SGX 그래픽 코어와 VXD HD 비디오 엔진을 사용한다고 발표하였다.

Imigination Technologies가 설계한 Poulsbo의 3D 블럭

그래픽 코어는 풀 HD 비디오 디코드 엔진을 내장하여 H.264, MPEG-2와 VC-1 비디오 스트림을 완벽히 지원할 수 있다. Intel은 이 엔진이 풀 비트레이트의 Blu-ray 영화를 디코딩할 수 있는 능력이 있으나 2번째 스트림 디코드 능력은 떨어지며, 그러므로 Blu-ray 기기에 사용하는 것은 인가받을 수 없다고 주장한다.

이 때 출력 해상도의 문제가 생기게 된다. 그래픽 엔진은 1366*768 출력해상도만을 허용하는데, 그러므로 이것이 풀 1080p HD 스트림을 디코드 할 수 있더라도, 오직 낮아진 해상도로만 출력이 된다.

3D 쪽에서는 Poulsbo의 GPU는 DX9와 DX10 모두를 지원한다고 말했었지만, 초기 드라이버는 DX9L만을 지원할 것이다. 솔직히, 이런 상황은 초기레벨의 그래픽 지원인데도 우리를 놀라게 할만한 것을 보여준다. GPU 성능은 엄청나지는 않지만 우리는 Poulsbo에서 UT2004 라이브 데모에서 엄청나게 잘 돌아가는 것을 보았었다. Intel은 우리에게 3DMark '05 점수가 150 점 전후정도로 예상된다고 말해주었다.

Poulsbo에서의 2D 엔진은 여전히 Intel이 설계한 블럭에 있다.

18페이지.

Centrino 보다 낮은 전력 소모

(이 페이지는 우리가 예전에 Intel Atom 아키텍쳐를 본 글에서 따왔다.)

모바일 Penryn과 함께 Intel은 C6이라고 불리우는 새로운 전력 상태를 소개하였다. C6 전력 상태에서 CPU는 가상적으로 reset 상태로 들어가며, 코어 전압은 0에 근접하게 된다. 코어 클럭과, 모든 PLL들과, 캐시들은 완벽히 꺼진다. 모든 상태 데이터는 10.5KB의 저장 영역에 저장되는데, 모바일 Penryn과 비슷하다. (그러나 저장할 많은 상태가 없기 때문에 더 작다.) C6상태를 벗어날 때 프로세서의 이전 상태는 C6배열이라고 불리우는 메모리에서 복구된다. C6에서 벗어나기 위해서는 100마이크로세컨드 정도가 소요되나, 전력 소모는 이런 시간에 구애되는 것보다 더 가치있다. - 오리지널 Pentium M 프로세서의 설계에서 우리가 보았던 성능에 대한 전력 접근 방식과 비슷하다.

클럭 게이팅 (작동중 사용 중지 시키는 것이 가능한 논리 게이트에 클럭 시그널을 통과시킴으로써, 클럭이 연결 하려는 어떤 것이든 차단이 된다.) 은 Atom의 설계에 있어 명백한 관점이다. 모든 Intel 프로세서는 클럭게이팅을 사용한다. ; Atom은 단순히 이것을 좀 더 공격적으로 사용한다. - 클럭이 모든 "power zone" 으로 갈 때 게이트화 되는데, 모바일 Core 2에서 몇몇 경우는 해당되지 않는다. Atom에서 (모두 205개인) 각각의 로직 클러스터는 FUB로 불리우며 모든 칩은 Intel이 FUB의 바다라고 부른다. 각각의 FUB는 클럭 게이트 화 되어 있고 전력 소모의 최적화를 위해 독립적으로 사용 정지 시킬 수 있다. Atom의 캐시는 그들 고유의 FUB인데, 모바일 Core 2에서는 해당하지 않는다.

Silverthorne의 전력 유지 상태 지원을 위해서는, 21핀만이 필요하다.

Atom은 분리 전력 면을 사용한다. ; 이것의 가장 깊은 슬립 상태(C6) 에서 칩은 1.05VRM에 의해 조종되는 21개의 핀을 제외 하고 꺼질 수 있다. 2개의 분리된 전력 면을 가짐으로 칩은 더욱 세분화된 레벨의 전력 상태 관리를 할 수 있다. 개개 핀을 사용 정지 시킬 수 없기 때문에, 이것은 L2 캐시와 버스 인터페이스 같은 것들이 꺼지면 21개의 활성화된 핀을 제외하고 큰 그룹들을 사용 중지 시킨다.

Intel이 언급하기로 Atom은 90%의 시간을 C6 슬립 상태로 유지할 것이라고 하였다. 그러나, 이 형식은 약간은 오기인데 왜냐하면 CPU가 완벽하게 놀고 있을 때 만 C6으로 갈 수 있기 때문이다. 90%라는 것은 모바일 기기가 당신의 주머니에서 아무것도 안하는 대부분의 시간을 계산에 포함한 데에서 나온다. 이것을 사용할 때에는, Atom은 C6에서 소모하는 시간이 없을 것이다.

C6 전력 상태의 내장에도 불구하고, Atom은 ARM 프로세서 기반의 플랫폼과의 싸움에서 활성화시간과 노는 시간 때의 전력 소모면에서 여전히 부진을 면하지 못하고 있다. 활성화 때의 전력 사용 단점은 해가 지날수록 (작아지는 제조 공정도 추가되고) 마이크로아키텍쳐의 진화에 따라 없어질 것이며, 아이들 시의 전력 요구도 플랫폼 접근법쪽으로 요구할 것이다. 우리의 첫 Menlow/Silverthorne 기사에서 보고한 것에 따르면 :

"아이들 전력 소모 감소는 Moorestown같은 내장 플랫폼을 통해서 실현될 수 있겠다. PCI버스를 제거하고 Intel 고유의 저전력 인터페이스로 교체함으로, Intel은 아이들 전력을 용인 가능한 수준으로 낮추기를 희망하고 있다. (Centrino FSB 기능 상에서 데이터 이동의 방법과 비슷한) I/O 포트가 필요할 때만 깨어나는 것으로 인해, 음악을 들을 때에는 배터리 수명을 며칠간으로 늘리는 결과를 가져올 것이다."

19페이지.

성능 예측

Intel은 Atom이 ARM11 코어와 벤치마크 선택에 따라 웹페이지 렌더 시간을 이용하여 비교되는 데이터를 좀 이르게 공개 하였다.

성능에서의 장점은, 최소한 Intel의 데이터에 따르면, 아주 명백하다. 여기에 그리지는 않았지만, Intel은 iPhone의 ARM CPU에 비해 2배 정도의 성능차를 내고 있는 것이 명백한 장점이라고 주장하는 듯 하다.

그러나 여기에 나오지 않은 것은 전력 소모나 폼팩터의 비교인데, 이 두 영역은 ARM이 현재 우위에 서있는 것이기 때문이다. 문제는 여기에서 Atom은 현재 경쟁품인 ARM이 제공하는 것보다 빠르다는 것인데, 이것은 완벽하게 다른 영역에서 활동한다. ARM 기반 제품은 더 작은 폼 팩터에서 성능을 자랑하며 더 적은 전력을 쓴다.

Intel은 일관성 있게 주장하기를 Atom은 첫세대 Pentium M의 성능을 상당한 저전력에서 제공한다고 한다. 우리는 Intel이 사전 데이터를 우리와 공유 하여 테스트를 마침내 할 수 있었다. SYSMark 2004에서, 1.6Ghz Atom은 대략 800Mhz Pentium M(90nm DOthan)보다 20% 빨랐다. 당신이 예상 가능하듯, 900Mhz Atom은 800Mhz Pentium M보다 느린데 순차적 코어의 낮은 IPC를 극복하려면 클럭이 필요하다.

동작하는 Atom 플랫폼에서 본 더욱 인상적인 것이 있었다. Intel은 Windows Vista와 UT 2004가 부드러운 프레임 레이트로 동작하는 CPU에 히트싱크가 없는 Atom 테스트 메인보드를 시연하였다. CPU의 표면 온도는 섭씨 35도 부근이었으며 히트싱크가 필요하지도 않았다.

난 아직 첫 Atom 기기에 그리 긍정적이지 않기 때문에, 이 라이브 데모는 송직히 나에게 인상적이었다. CPU가 히트싱크를 필요로 하지 않을 때는 아주 오래전이었으며, 이제 Atom과 함께 그것을 볼 수 있다. - Intel은 그 시절을 다시 되돌리는 듯 하다.

20페이지.

제품 라인업

기술 발표와 더불어, Intel은 또한 올해 선적될 첫 5개의 Atom 프로세서의 베일을 벗겼다.

우리가 원래 예상하기를 Atom 최고클럭은 1.6Ghz였지만 Intel은 이 구성에서 1.86Ghz 부분으로 더 높은 성능을 원하는 것 같이 보인다. 1.86Ghz는, Atom은 1.0Ghz의 Penitum M의 성능보다 더 높은 성능을 제공해야 한다. - 2.4w TDP도 나쁜것은 아니다.

가격대는 예상가보다 명백하게 높은데, 최소한 Hyper Threading (SMT) 를 사용하는 칩이 그렇다. Atom 프로세서에 주어진 효율적인 타겟이 UMPC들과 MID들이어서, 가격대는 괜찮아 보이지만 x86을 어느곳에서나 쓸 수 있게 하려는 Intel로 비추어 보아 고성능대 제품은 좀 더 낮은 가격이 되어야 한다.

Centrino Atom

우리가 예전에 말했듯이, Intel Atom 브랜드는 새로운 Centrino Atom 브랜드로 나오게 된다. 요구사항은 아래와 같다.

출처: http://anandtech.com/cpuchipsets/intel/showdoc.aspx?i=3276&p=11

대충 했습니다. 이제 techreport쪽 Atom 번역을 해야되는데 음 대충 하면 안되는데...