ARM Forum 2009 리포트 [CPU 코어 편]

멀티 코어 확장 보급판 "Cortex - A5"


 

11 월 10 일 개최


장소 : 도쿄 컨퍼런스 센터 시나가와



photo000.jpg
 ARM Forum 2009 전시장 입구 패널

photo001.jpg

 영국 ARM 프로세서 사업부의 마케팅 담당 부사장으로 근무 Eric Schorn (에릭 숀) 씨

 


10 일에 개최된 "ARM Forum 2009"에서 Cortex - A 시리즈의 새로운 ARM 코어 "Cortex - A5"(개발 코드명 : Sparrow)의 내용이 공표되었다.

 

영국 ARM 프로세서 사업부의 마케팅 담당 부사장으로 근무하는 Eric Schorn (에릭 숀) 씨가 오전 특별 강연과 오후 일반 강연에서 개요를 설명했다. 본 보고서는 ARM Forum 전날 기자 회견에서 숀 씨가 설명한 내용과 10 월 미국에서 개최된 강연회 겸 전시회 "ARM techcon3"의 내용을 포함하여 Cortex - A5의 개요를 제공한다.

 


 

● 어플리케이션 프로세서의 저가형, 저전력 버전


photo002.jpg

 ARM 코어의 제품 전개


photo003.jpg

 Cortex - A9 및 Cortex - A5 개요


photo004.jpg

 전력 당 연산 성능 (DMIPS / mW)과 연산 성능 (DMIPS)


 

Cortex - A 시리즈는 어플리케이션 처리를 위한 CPU 코어로, 지금까지 ARM은 "Cortex - A8"와 "Cortex - A9"를 발표하였다. Cortex - A8은 싱글 코어로 높은 성능을 추구한 CPU 코어, Cortex - A9은 멀티 코어 확장에 따른 성능 범위 확대와 상대적으로 낮은 소비 전력의 양립을 목표로 한 CPU 코어라고 평가된다.

 

이에 반해 Cortex - A5는 멀티 코어 확장을 통해 성능의 선택 영역을 확장하면서 연산 성능 당 소비 전력을 더욱 낮춘 CPU 코어이다. 멀티 코어 확장은 Cortex - A9와 거의 같은 방식이고, Cortex - A9에서 개발한 멀티 코어 소프트웨어는 거의 그대로 Cortex - A5에서도 유용하다. Cortex - A9의 상위 유형인 Cortex - A5가 대중적인 유형으로 자리매김 할 수도 있다.

 

Cortex - A5가 태어난 배경에는 기존의 어플리케이션 프로세서 ARM 코어인 "ARM1176"와 "ARM926"에 비하면, Cortex - A8과 Cortex - A9는 전력 당 연산 성능 (DMIPS / mW)이 낮다. Cortex - A8과 Cortex - A9은 동작 주파수 당 연산 성능 (DMIPS / MHz)는 높지만, 성능을 추구했기 때문에 소비 전력이 증가하는 약점을 갖고 있다.

 

따라서 ARM1176 및 ARM926 사용자는 Cortex - A8과 Cortex - A9의 경우, 마이그레이션 경로로 적합하지 않다고 생각하는 계층이 존재한다. 그래서 DMIPS / mW를 강화한 Cortex - A5를 새로 개발했고, ARM1176 및 ARM926에서 마이그레이션을 용이하게 했다.


 

● 엄청난 DMIPS / mW 높이


Cortex - A5의 개발 목표는 소비 전력을 ARM926보다 더 낮추면서, 연산 성능은 ARM1176과 동등 또는 그 이상을 달성하는 것이다.

 

실제로 얻을 수 있는 Cortex - A5 코어는 동작 주파수 당 연산 성능 (DMIPS / MHz 값)이 1.5DMIPS/MHz이고 ARM1176의 1.2DMIPS/MHz, ARM926의 1.1DMIPS/MHz보다 훨씬 높다. 동작 주파수는 대만 TSMC의 40nm LP (Low Leakage Version) 과정 500MHz, 40nm G (표준 버전) 과정 1GHz에 도달하고 있다. 동작 주파수가 500MH일 때, 750DMIPS의 연산 성능을 달성할 수 있게 된다.

 

또한 Cortex - A9의 DMIPS / MHz 값은 2.5DMIPS/MHz Cortex - A8의 DMIPS / MHz 값은 2.0DMIPS/MHz이므로 Cortex - A5의 1.5DMIPS/MHz를 추가로 Cortex - A 시리즈는 0.5DMIPS 의 연산 성능을 차별화한 것을 알 수 있다.



photo005.jpg

 Cortex - A5 개발 목표


photo006.jpg

 Cortex - A5와 ARM1176, ARM926 비교


photo007.jpg

 Cortex - A5와 ARM1176, ARM926 비교. (ARM techcon3 강연 슬라이드에서 가져온 자료)

 

동작 주파수 당 전력 (mW / MHz)은 ARM926보다 낮고,(ARM1176보다 훨씬 낮게) 실리콘 면적은 ARM926과 비슷하다.

동작 주파수 당 소비 전력 (mW / MHz)의 구체적인 값은 ARM Forum에서 설명되지 않았다.

 

그러나 ARMtechcon 슬라이드에 Cortex - A5의 시작 결과가 공표되어 있었기 때문에, ARM 홈페이지에 나와 있던 ARM926 및 ARM1176의 값을 함께 비교 해보자.

 

Cortex - A5의 mW / MHz는 40nm LP 프로세스의 프로토 타입 (16K/16K 캐시 있음)에서 0.12mW/MHz ~ 0.13mW/MHz, ARM926는 90nm 공정의 실리콘 면적 우선 코어 (8K/8K 캐시 있음)에서 0.14mW / MHz, ARM1176는 90nm 공정의 실리콘 면적 우선 코어 (16K/16K 캐시 있음)에서 0.25mW/MHz이다. 과정의 차이는 있지만, Cortex - A5는 상당히 낮은 mW / MHz를 달성할 수 있다는 것을 알 수 있다.

 

실리콘 면적도 ARMtechcon 슬라이드에 Cortex - A5의 상세 값이 공표되었다. 마찬가지로 비교해 보자. 40nm LP 프로세스의 Cortex - A5 실리콘 면적은 논리 부품이 0.27 평방 mm, RAM 부 (주로 L1 캐시, 16K/16K)가 0.26 평방 mm, 전체 0.53 평방 mm가 된다. Cortex - A5 코어에서도 옵션 멀티미디어 엔진 "NEON"부동 소수점 유닛 (FPU)을 적용할 경우, 이 같은 프로세스에서 논리 부분이 0.42 평방 mm, RAM 부품이 0.26 평방 mm, 전체 0.68 평방 mm 이다.

 

ARM 홈페이지에 게재되어 있는 자료에서 ARM926의 실리콘 면적은 90nm 공정의 실리콘 면적 우선 코어 (8KB/8KB 캐시 있음)에서 0.85 평방 mm, ARM1176 실리콘 면적은 90nm 공정의 실리콘 면적 우선 코어 (16KB / 16KB 캐시 있음)에서 1.6 평방 mm로 되어 있다.

 

90nm 공정과 40nm 공정이 단순 계산 실리콘 면적에 5 배 차이가 생기므로 90nm 공정으로 1.6 평방 mm의 ARM1176를 단순하게 40nm 공정으로 축소하면 0.32 평방 mm가 된다. Cortex - A5의 0.53 평방 mm에 비해 실리콘 면적이 작다고 단언하기에는 의문이 남는다.

 

게다가 ARMtechcon에서 선전한 Cortex - A5의 시작 결과에 놀란 것은 전력 당 연산 성능 (DMIPS / mW 값)이다. 옵션 (NEON와 FPU)이 핵심으로 12DMIPS/mW 옵션없이 코어 13DMIPS/mW을 달성하고 있는 것이다.

 

이것은 상당히 높은 수치이다. 덧붙여서 Cortex - A9은 4.66DMIPS/mW (65nm G 프로세스), ARM1176은 4.8DMIPS/mW (90nm 공정), ARM926은 7.8DMIPS/mW (90nm 공정)이다. 현 상태에서 공표하는 성능 수치를 보면, Cortex - A5의 DMIPS / mW 값은 우수하다.


photo008.jpg

 TSMC의 40nm LP 프로세스의 Cortex - A5 코어 (16KB/16KB 캐시 있음)의 프로토 타입 결과.

동작 주파수는 485MHz


photo009.jpg

 이것은 옵션 멀티미디어 엔진인 "NEON"부동 소수점 유닛 (FPU)를 추가한 것.

동작 주파수는 453MHz

 

 

● 단일 명령 발행, 인 오더 실행 8 단계 파이프라인


Cortex - A5 코어는 사용자가 보면 Cortex - A9 코어와 마찬가지로 유효하다. 하지만 그 내용에서 마이크로 아키텍처는 A5와 A9에서 확실히 다르다. Cortex - A5 코어는 단일 명령 발행 인 오더 실행에 작동하는 8 단 파이프라인을 갖추었다.

 

Cortex - A9 코어는 비순차적 실행 및 다중 명령 동시 발행을 채용하고 있어, 양측은 상당한 성능 차이가 발생할 수 있다. 숀 씨는 강연 후 질의 응답에서 "Cortex - A5 코어는 의도적으로 일부 성능 향상 기술을 분리했다"고 설명했다.

 

Cortex - A9 코어보다는 낮지만, ARM1176보다 높은 성능을 Cortex - A5 코어가 제공하는 것은 틀림없을 것 같다. EEMBC 벤치 마크에서 ARM1176에 비해 평균 15 % 정도 높은 값을 표시하고 있었다.

 

메모리 액세스 성능도 ARM1176보다 훨씬 높은 성능을 달성할 수 있다. 동일한 클럭 사이클 수를 ARM1176의 3 배 용량의 데이터에 액세스할 수 있다고 강연에 나와 있었다.




photo010.jpg

 Cortex - A5 코어 파이프라인


photo011.jpg

 ARM1176과 Cortex - A5 벤치 마크 결과


photo012.jpg

 ARM1176과 Cortex - A5, Cortex - A9 메모리 액세스 성능



photo013.jpg

 Cortex - A5의 멀티 코어 블록 다이어그램. Cortex - A9과 거의 같은 멀티 코어



photo014.jpg

 Cortex - A5 코어 및 Cortex - A9 코어 개발 계획

 


Cortex - A5의 라이센스는 올해 4 분기부터 시작, 2010 년에는 실리콘 칩 시제품이 시작될 예정이다. 프로세서 판매 업체의 개발이 순조롭게도, 2011 년에는 Cortex - A5 코어를 내장한 프로세서의 양산이 시작된다.

 

Cortex - A5 코어의 미래에 대해 9 일 기자 회견에서 숀 씨는 "ARM9 250 개 이상의 라이센스 수와 ARM11 70 개 이상의 라이센스 수가 Cortex - A5 코어의 시장 기회를 의미한다"고 이야기했다.

 

ARM9과 ARM11은 어플리케이션 프로세싱용으로뿐만 아니라, 실시간 처리를 위한 핵심이 존재한다. ARM9과 ARM11 모든 라이센스가 Cortex - A5으로 마이그레이션 시나리오에는 조금 무리가 있지만, Cortex - A5 코어는 Cortex - A9 및 Cortex - A8 이상의 라이센스 수를 ARM이 예상하고 있다고 엿볼 수 있었다.

 

 

 


(2009年 11月 16日)

[Reported by 福田 昭]

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.