x86을 위협하는 ARM

 

타블렛이 크게 발전하면서 모바일 디바이스 시장에서 새로운 경쟁이 벌어지고 있습니다. ARM은 전통적인 x86 아키텍처의 CPU에게 도전장을 던지고 있고, x86 아키텍처의 대표인 인텔과 AMD는 이런 시도를 억누르려 하고 있습니다.

 

인텔은 아톰을 발전시키는데 주력하여 앞으로 모바일 디바이스 시장에서 일정 비율을 차지하려 하고, AMD는 모바일 시장에 최적화한 Z01 APU를 출시하였습니다.

 

1.jpg

 

ARM은 이미 여러 제품에 널리 사용되고 있으며, CPU 업계의 최강인 인텔마저도 긴장하게 만들고 있습니다.

 

그럼 ARM이 어떻게 이런 일이 가능하게 하였는지, ARM의 기초적인 소개를 하도록 하겠습니다.

 

 

왜 ARM인가

 

ARM의 풀네임은 Advanced RISC Machines입니다. 현재 ARM은 마이크로프로세서의 설계를 담당하는 회사로서, 고성능, 저렴한 가격, 저전력의 RISC 프로세서와 관련 소프트웨어, 기술을 제공하고 있습니다. 현재 임베디드 컨트롤, 가전 시장, 교육, 멀티미디어, DSP, 모바일 등의 여러 시장에서 사용되고 있습니다.

 

2.jpg

 

ARM의 기술은 전세계의 수많은 우명 반도체 회사, 소프트웨어와 OEM 회사에 공급되고 있습니다. 각각의 회사들은 모두 ARM 관련 기술과 서비스 계약을 받아 사용하고 있으며, 이런 파트너 관계를 통해 ARM은 전세계 RISC 표준의 주도적인 위치에 올라서게 됐습니다.

 

ARM은 현재 2백억개가 넘는 프로세서를 생산했으며, 하루에 천만개 이상이 판매되고 있습니다.

 

3.jpg

 

현재 30개가 넘는 반도체 회사들에 ARM의 하드웨어 기술을 사용하는 라이센스를 받았습니다. 여기에는 인텔, NVIDIA, IBM, LG, 삼성, NEC, 텍사스 인스트루먼트, 퀄컴, 소니, 브로드컴이 있습니다. 그 외에 ARM은 소프트웨어 부분에서의 서비스도 제공하고 있으며, 여기에서는 마이크로소프트, 썬, MRI 같은 유명 회사들과 파트너쉽을 체결하였습니다.

 

 

ARM의 성공 비결

 

1991년에 ARM은 영국 케임브릿지에 설립되었습니다. 칩의 설계 기술 라이센스를 판매하는 것이 주요 업무 내역입니다. 지금은 ARM의 기술을 사용한 IP(지적 재산권) 마이크로 프로세서를 그냥 ARM 마이크로 프로세서라고 부릅니다. 이미 공업, 가전 제품, 통신 시스템, 네트워크 시스템, 무선 시스템 등의 여러 시장에 보급되었으며, ARM 기술을 사용한 마이크로 프로세서는 32비트 RISC 마이크로 프로세서 시장의 75% 이상을 차지하고 있습니다. ARM 기술은 현재 우리 생활 곳곳에 사용되고 있는 것입니다.

 

4.jpg

 

ARM 제품의 강력한 점은 세계적으로 100개가 넘는 파트너를 가지고 있다는 것입니다. ARM은 설계 회사이고 칩을 생산하지 않습니다. 인증 허가 제도를 사용하여 칩은 파트너 회사에서 생산하게 됩니다.

 

90년대에 제조 공정과 시장의 영향 등으로, ARM의 성적은 그리 뛰어나진 않았으며 제품 출시량도 눈에 띄는 편은 아니었습니다. 회사 운영에 필요한 자금이 부족해지면서 ARM은 긴 안목을 가지고 큰 결정을 내리게 됩니다. 칩을 직접 제조하는 것이 아니라 칩의 설계 솔루션을 다른 회사에게 판매, 그들이 직접 제조하도록 한다는 것이지요.

 

5.jpg

 

하지만 21세기에 핸드폰 산업이 빠르게 발전하면서 출시량이 대폭 증가하였고, 이에 따라 ARM 프로세서도 전세계 핸드폰 시장에서 선두를 차지하게 됩니다. 2006년에 전세계 ARM 칩의 출시량은 20억개였는데 2010년에는 45억개로 늘어나게 됩니다.

 

ARM은 프로세서 아키텍처에 흥미를 보이는 회사들에게 라이센스를 부여합니다. 라이센스에는 판매를 비롯하여 다양한 방식이 존재합니다. ARM은 라이센스를 받는 회사들에게 ARM 코어의 내장된 하드웨어에 대한 설명과, 완전한 소프트웨어 개발 도구(컴파일러, 디버거, SDK)를 제공하고, 여기에 포함된 ARM CPU 칩의 판매 라이센스를 제공합니다.

 

웨이퍼 공장이 없는 회사들은 ARM 코어를 자체 연구 개발한 칩 설계에 사용하며, 이렇게 하여 필요한 지식 재산권의 인증을 준비합니다. 이들 고객들에게 ARM은 ARM 코어의회로도를 제공하고, 가상 모델과 테스트 모드를 통해 설계의 테스트를 돕습니다. 더 많은 고객들, IDM과 웨이퍼 제조사들을 위해 RTL 형식으로 프로세서의 지적 재산권을 줄 수도 있습니다. 통합 가능한 RTL을 통해 고객들은 아키텍처의 최적화와 강화를 진행할 수 있습니다. 이 방식은 설계자들이 별도의 설계 목표를 회로도를 변경하지 않고 마무리 할 수 있도록 해줍니다. 비록 ARM 아키텍처를 라이센스 받은 쪽에서 아키텍처를 다시 라이센스 할 수 없긴 하지만, 라이센스를 받은 쪽에서는 어떤 제품이건 만들어 팔 수 있습니다.

 

6.jpg

 

대다수의 IP를 판매하는 회사처럼, ARM의 사용 가치는 IP 판매 가격을 결정합니다. 아키텍처를 본다면 더 저성능인 ARM 코어가 더 고성능인 코어보다 더 낮은 라이센스비를 받아야 합니다. 실리콘 칩을 놓고 본다면, 모든 기능이 내장된 코어가 별도의 하드웨어 칩을 요구하는 칩보다 더 비싸야 합니다. 더 복잡한 가격 문제라면 ARM 라이센스를 받은 상용 웨피저 제조사들이 더 저렴한 가격으로 고객들에게 판매할 수 있다는 것입니다. 웨이퍼 제조사 자신의 설계 기술을 통하여, 고객들은 더 저렴한 가격으로 ARM 코어를 사용할 수 있습니다. 상대적으로 전문적인 설계 기술을 갖추지 않은 제조사의 경우 라이센스 비용은 2~3배 정도 더 비쌀 수밖에 없습니다. 적은 양을 공급한다면 설계 부분에 더 저렴한 가격을 할당할 수밖에 없으나, 생산 물량이 마낳다면 장기간 생산하는 것으로 더 저렴한 가격으로 웨이퍼 가격을 낮출 수 있습니다. ARM의 NRE 원가를 줄이는 것은 웨이퍼 제조사에게 있어 더 좋은 선택일 것입니다.

 

7.jpg

 

ARM은 기술 라이센스를 부여하고, 웨이퍼 제조사들은 저마다 특징이 있는 ARM 칩을 제조합니다.

 

지금은 아주 많은 반도체 회사들이 ARM 라이센스를 받아 칩을 제조하고 있습니다. Atmel, 브로드컴, 시러스 로직, 프리스케일, 퀄컴, 후지쯔, 인텔, 인피니언, IBM, OKI, 닌텐도, 삼성, 샤프, ST 마이크로일렉트로닉스, VLSI, 텍사스 인스트루먼트 등이 서로 다른 방식으로 ARM 라이센스를 받았습니다.

 

비록 ARM 라이센스에는 기밀 유지가 포함되어 있지만, 지적 재산권 업계에서 ARM은 꽤나 비싼 코어 중에 하나로 알려져 있습니다. 하나의 상품을 제조하는데 필요한 기본적인 ARM 코어는 20만달러의 라이센스 비용을 필요로 하며, 여기에 아키텍처 변경이 대량으로 추가된다면 천만달러 이상으로 라이센스 비용이 오를 수 있습니다.

 

 

ARM 아키텍처의 변화

 

현재 ARM 프로세서의 설계 범위는 매우 넓습니다. 여기에서는 어플리케이션 분야의 프로세서만 소개하는데, 여기에도 ARM7/ARM9/ARM11 같은 비교적 고전적인 아키텍처부터 시작해서 최근 널리 사용되고 있는 Cortex 시리즈 중에 A5/A8/A9 등이 있고, 앞으로 출시할 A15 아키텍처까지 있습니다.

 

8.jpg

 

Cortex-A15. 차세대 모바일 아키텍처로서 무선 베이스밴드 구성 어플리케이션에 최고의 솔루션을 제공

Cortex-A9. 800MHz~2GHz의 클럭을 제공하며 각각의 코어가 5000DMIPS의 성능을 제공

Cortex-A8. 싱글 코어 솔루션으로 높은 가격대 성능비를 제공. 600MHz~1GHz의 클럭에서 2000DMIPS의 성능을 제공

Cortex-A5. 저가형 제품으로 400~800MHz 클럭에서 1200DIMPS 이상의 성능을 제공

 

9.jpg

 

모든 Cortex-A 프로세서는 시스템 아키텍처와 기능을 공유하고 있습니다. 이것은 개방형 플랫홈을 설계하기 위핸 최적의 솔루션으로서, 다양한 소프트웨어 사이의 호환성과 이식성이 제일 중요한 요소가 됩니다.

 

-ARMv7-A 아키텍처

-모든 운영체제를 지원. 리눅스(안드로이드, 크롬 OS, 우분투, 데비안), 리눅스 서드파티(몬타비스타, QNX, 윈드 리버), 심비안, 윈도우즈 CE

-명령어 셋트 지원. ARM, Thumb-2, Thumb, Jazelle, DSP

-트러스트 존 보안 확장

-싱글 프리시전/더블 프리시전 부동소수점 지원

-NEON 멀티미디어 엔진

 

최고의 성능과 신축성, 높은 효율과 저렴한 가격, 동시에 완전한 소프트웨어 호환성을 위해 Cortex-A 프로세서는 설계의 유연성을 제공하고 있습니다.

 

 

ARM과 SoC 시스템

 

SoC(System on a Chip)은 한개의 칩 위에 완전한 시스템을 올린 것으로서, ARM의 칩은 이 설계를 사용하여, 작은 크기의 칩에 여러 복잡한 기능을 내장하고 있습니다. 전통적인 구조의 칩에서는 여러 소프트웨어와 하드웨어 시스템을 사용했던 것을 하나의 칩으로 통합하면서 크기를 줄이고 소비 전력을 줄였으며 시스템 기능을 향상, 속도를 개선, 제조 원가를 절감합니다.

 

10.jpg

 

ARM 칩의 내부에는 자주 보이는 CPU, GPU, 메모리 컨트롤러, 브릿지 칩 외에도 일반적으로는 칩 외부에 장착되는 비디오 코덱, 사운드 코덱, 모뎀, GPS, 블루투스, 3G/4G 등의 기능 모듈을 내장합니다. x86 PC와 비교하면 한개의 칩만 사용하여 외부 입출력을 모두 실현할 수 있어, 완전한 컴퓨팅 디바이스를 실현할 수 있습니다. 따라서 SoC 기반의 ARM은 스마트폰, 타블렛 같은 소형 디바이스에 알맞습니다.

 

11.jpg

 

소형화 추세

 

ARM 칩의 높은 내장도 덕분에 제품의 크기가 현저하게 줄어들고, 제조 공정의 발전을 통해 초기 칩의 낮은 성능과 높은 발열 등의 문제들이 대폭 개선되었습니다. 이것은 최근 ARM이 타블렛과 스마트폰 등에서 널리 사용되는 원인입니다.

 

12.jpg

 

ARM 명령어 셋트의 지원으로 ARM 코어의 모든 특징을 지원하며, 높은 효율과 빠른 속도가 특징. Thumb 명령어 셋트는 탄력적인 특징을 제공합니다.

 

ARM이 사용하는 RISC 명령어 셋트는 제품 개발 난이도를 대폭 낮춰주며, 개발 주기도 단축시켜 시장에서 경쟁력을 높여줍니다. ARM 프로세서는 높은 성능, 작은 용량의 코드, 낮은 소비 전력, 작은 크기의 균형을 맞추고 있습니다.

 

 

고전적인 ARM9 프로세서

 

ARM9 프로세서 시리즈는 마이크로 컨트롤러, DSP, 자바 어플리케이션 등을 위한 싱글 프로세서 솔루션으로서 크기가 작으며 복잡도외 소비 전력이 낮아, 제품 출시 속도를 더 빠르게 해줍니다.

 

ARM9 DSP 개선형 프로세서는 종합 DSP와 마이크로 컨트롤러에 매우 적잡합니다. ARM9 프로세서 시리즈는 ARM926EJ-S, ARM946E-S, ARM968E-S 프로세서가 포함됩니다.

 

13.jpg

 

ARM9는 스마트폰, PDA, 셋탑박스, PMP, 휴대용 게임기, 디지털 카메라, 캠코더 등에서 늘리 사용되고 있습니다. 가혹한 환경과 제조 원가에 민감한 임베디드 어플리케이션에서 높은 신뢰도와 유연성을 제공합니다. 풍부한 DSP 확장은 SoC 설계에서 단독 DSP를 사용할 필요가 없도록 해줍니다.

 

ARM968E-S는 크기가 작고 DSP 강화 기능을 포함한 ARM9 프로세서입니다. 저전력, 데이터 밀집형, 임베디드 실시간 어플리케이션 등에 특화되었습니다. 표준 포트를 통해 메모리와 간단히 연결되어 높은 효율로 작동합니다.

 

ARM946E-S는 MPU DSP와 고속 캐시를 내장한 프로세서로서 RTOS의 실시간 어플리케이션 실행이 주요 목표입니다. 고속 캐시와 완전한 메모리 보호 유닛을 갖춘 프로세서입니다. 대부분의 코드를 메인 메모리에 저장하여 사용하기 때문에 매우 유용하가 사용할 수 있으며, 별도의 데이터를 고속 캐시에 저장하며, 중요한 비동기 처리 코드와 데이터는 로컬 메모리에 저장하여 활용할 수 있습니다.

 

ARM926EJ-S는 자바 가속, DSP 확장, MMU를 위한 어플리케이션 프로세서입니다. 운영체제 시스템의 활용에 맞춰져 있으며, 보급형 임베디드 프로세서로 완전한 운영체제 실행이 가능합니다. 여기에는 리눅스, 윈도우즈, CE, 심비안이 포함됩니다. 따라서 이 프로세서는 완전한 그래픽 유저 인터페이스를 갖춘 어플리케이션에서 이상적인 선택입니다.

 

14.jpg

 

ARM968E-S는 최대 4MB TCM, ETM9 CS, 듀얼 AHB-라이트, DSP 확장, VFP9-S, 임베디드 코어.

ARM946E-S는 MPU, 최대 1MB 고속 캐시, 최대 1MB TCM, ETM9 CS, AHB 포트, DSP 확장, VFP9-S, 임베디드 코어.

ARM926EJ-S는 자바, MMU, 4x128KB 고속 캐시, 최대 1MB TCM, ETM9 CS, 듀얼 AHB, DSP 확장, VFP9-S, 플랫홈 OS 코어.

 

ARM9 시리즈의 기술 특징

- ARMv5TE 아키텍처 기반

- 고효율 5단계 파이프라인, 출력량과 시스템 성능을 향상

- 추출/디코드/실행/메모리/쓰기

- ARM과 Thumb 명령어 셋트 지원

- 고효율 ARM-Thumb 호환 조작으로 최적의 성능과 코드 밀도를 내는 조합

- 하바드 시스템 아키텍처. 독립된 명령과 데이터 메모리 포트

- 메모리 대역폭을 증가

- I&D 메모리 동시 엑세스

- 개선된 성능

- 31x32비트 레지스터

- 32비트 ALU와 배럴 시프터

- 개선된 32비트 MAC 모듈

- 코어사이트 ETM9 포트로 개선된 스케줄러와 추적 기능

- 표준 AMBA-AHB 포트

- 코프로세서 포트

 

 

고전적인 프로세서: ARM11

 

ARM11 프로세서 시리즈의 엔진은 현재 생산되는 대다수 스마트폰에 쓰이고 있으며, 그 외에도 광범위한 컨슈머 제품, 가전 제품, 임베디드 영역에 쓰이고 있습니다. 이 프로세서는 소비 전력에 매우 낮고, 성능은 크기가 작을 경우 350MHz부터 시작하여 속도에 최적화하면 1GHz까지 가능합니다(45나노에서 65나노). ARM11 프로세서 소프트웨어는 지금까지 나온 모둔 ARM 프로세서와 호환됩니다. 거기에 멀티미디어 처리의 32비트 SIMD, 운영체제에서 컨텍스트 스위칭 성능을 향상시키기 위한 물리 표기 고속 캐시, 강제로 하드웨어 보안 조치를 실시하는 트러스트 존, 실시간 어플리케이션의 메모리 결합 등을 도입하였습니다.

 

15.jpg

 

 

ARM1167JZ(F)-S

 

스마트폰, 디지털 TV, MID까지 ARM1176 어플리케이션 프로세서는 매우 넓은 범위에서 사용되고 있고, 멀티미디어와 브라우저 기능, 보안 계산 환경을 제공하며, 저렴한 가격으로 1GHz의 성능을 낼 수 있습니다. ARM1176JZ-S 프로세서는 보안을 위한 ARM TrustZone 기술을 지원하며, 높은 효율의 임베디드 자바 시스템을 위한 ARM Jazelle를 지원합니다. 메모리 시스템의 긴밀한 조합을 간소화하여 ARM9 프로세서의 이식과 실시간 설계가 가능하며, 동시에 AMBA 3 AXITM 포트는 메모리 버스의 성능을 높여줍니다. DVFS는 소비 전력을 최적화해주기 때문에 ARM11TM 프로세서의 소비 전력은 우수합니다.

 

16.jpg

 

- 컨슈머 제품과 무선 제품을 위해 설계된 어플리케이션 프로세서

- 2종류의 프로세서가 모두 멀티미디어 확장인 ARMv6 명령어 셋트 아키텍처와 ARM Jazelle, 압축 코드에 사용하는 ARM Thumb을 지원

- ARM11 프로세서 시리즈 중에서 오직 ARM1176JZ(F)-S만 ARM TrustZone을 지원. TrustZone은 CPU와 플랫홈 시스템 메모리의 지원으로 신뢰 가능한 계산 환경을 제공해주며 다운로드된 어플리케이션의 중요 시스템 기능을 보호, 다운된 멀티미디어의 판권 보호 등을 제공.

 

 

ARM1136J(F)-S

 

ARM1136 프로세서는 멀티미디어 확장인 ARMv6 명령어 셋트, Thumb 코드 압축 기술을 지원하고 부동소수점 코프로세서를 옵션으로 지원합니다. ARM1136은 오랜 기간동안 사용된 코어로서 핸드폰과 컨슈머 제품 등에서 광범위하게 사용되고 있습니다.

 

17.jpg

 

ARM1176JZ(F)-S 프로세서의 구조

 

- 어플리케이션 프로세서로 작동하도록 설계, ARM1176JZ(F)-S 프로세서의 더 많은 기능을 포함

- AMBA 3 AXI 버스와 트러스트존은 포함 안함

- ARM1136J(F)-S 프로세서는 ARM9 프로세서의 SoC 설계를 기반으로 설계되어, AMBA AHB 버스와 외부 호환

- AMBA AHB를 통해 AXI와 연결되는 구조는 더 가볍게 AHB 버스 외부 디바이스를 ARM1176JZ(F)-S 프로세서 설계로 이식할 수 있도록 함

- 최신 Cortex-A 시리즈 프로세서의 소프트웨어 호환과 다양한 경로의 이식

 

 

ARM1156T2-S

 

ARM1156 프로세서는 ARM11 성능에 최적화를 하여 더 높은 신뢰성과 임베디드 어플리케이션에 적합합니다. ARM1156T2-S와 ARM1156T2F-S 프로세서는 ARMv6 명령어 셋트를 기반으로 하며, Cortex 프로세서 중에서 Thumb-2 기능을 통한 확장을 사용하였습니다. ARM1156 프로세서는 9단계 정수 파이프라인 스테이지를 사용하며, 비슷한 제품 중에서 최고 수준의 분기 예측 기능을 통해 어떤 ARM11 계열 프로세서에서도 최고의 명령어 처리량을 보여줍니다.

 

- ARM Thumb-2 기술을 처음으로 내장한 프로세서로 더 높은 코드 밀도와 명령 효율이 가능해짐

- Thumb-2 기술을 사용하여 메모리를 순수 32비트 코드를 사용했을 경우보다 31% 절감하여 제조 비용을 줄여주며, Thumb 기술의 38% 성능 향상

- 고속 캐시와 TCM 메모리에 맞춰 동일 위치의 데이터 보호를 지원, 높은 신뢰도를 통해 임베디드 영역에 보다 적합함

- ARM1156T2-S 프로세서는 개선된 메모리 보호 유닛 MPU를 내장, 기존의 ARM946E-S, ARM966E-S같은 16비트 프로세서와 비교하여 임베디드 컨트롤 부분에서 이상적인 업그레이드

- AMBA 3 AXI 포트를 지원하여 보다 적은 버스층으로 높은 시스템 버스 대역폭과 빠른 레이턴시를 제공

- 최신 ARM Cortex-R 프로세서와 소프트웨어 이식 호환

 

 

ARM11의 멀티코어화

 

ARM11 MPCore는 ARM11 아키텍처에서 멀티 코어를 실현한 것으로서 1개의 RTL을 기반으로 1개의 코어에서 4개의 코어로 멀티 코어 확장을 하였습니다. 이런 간단한 시스템 설계를 통해 최고 4배의 성능 향상이 있을 수 있습니다. ARM11 MPCore 프로세서는 SCU를 내장하여 높은 효율의 일치성을 실현하였으며, ARM SMP 기능을 지원합니다. PIPT 고속 캐시 확장 ARMv6 아키텍처를 사용하며 16~64KB L1 고속 캐시를 지원합니다.

 

18.jpg

 

- ARM11 MPCore는 멀티코어 프로세서로서 ARM11 아키텍처를 기반으로 사용, 1~4개의 프로세서를 내장, 최고 2600 Dhrystone MIPS의 성능 제공

- 강력한 ARMv6 명령어 아키텍처

- ARM Thumb 명령어를 통해 35%의 메모리 대역과 크기를 줄여줌

- 고효율 임베디드 자바와 ARM Jazelle을 내장

- ARM DSP 확장

- SIMD 멀티미디어 처리 확장으로 2배의 동영상 처리 성능

- ARM 트러스트 보안 기술을 사용(ARM1176JZ-S와 ARM1176JZF-S 프로세서)

- Thumb-2 기술(ARM1156(F)-S만 지원)로 성능, 효율과 코드의 밀도를 개선

- 저전력 기능. 0.6mW/MHz(130nm 1.2V), 고속 캐시 컨트롤러를 포함, 에너지 절약 기능과 누설 전류를 감소

- 고성능 정수 프로세서

- 8단계 정수 파이프라인으로 빠른 클럭이 가능(ARM115TT2(F)-S는 9단계)

- 데이터 로딩과 연산을 위한 단독 파이프라인

- 분기 예측과 반송 라인

- 고성능 메모리 시스템 설계

- 4~64K 고속 캐시 지원

- 멀티미디어 어플리케이션 영역에 최적화한 DMA 메모리 결합

- 멀티미디어 처리와 네트워크 어플리케이션 영역에 맞춰 고성능 64비트 메모리 시스템이 더 빠른 데이터 처리 속도를 제공

- ARMv6 메모리 시스템 아키텍처 구성에서 조작 시스템의 컨텍스트 스위칭 속도의 고속화

- 벡터 인터럽트 포트와 낮은 인터럽트 딜레이 모드를 통해 인터럽트 리스폰스 속도를 향상시키고 실시간 처리 성능의 개선

- 자동차/공업 제어와 3D 그래픽 가속에서 벡터 부동소수점 코프로세서를 사용할 수 있음(ARM1136JF-S, ARM1176JZF-S, ARM1156T2F-S)

- 모든 ARM11 시리즈 프로세서는 ARM-시놉시스의 레퍼런스 방법을 제공하여 코널의 특증 기술 실현 시간을 단축

 

 

새로운 어플리케이션 프로세서, Cortex-A8

 

Cortex-A8은 싱글코어 프로세서 칩으로 ARMv7 아키텍처를 사용하며 클럭은 600MHz에서 1GHz 사이입니다. Cortex-A8 프로세서는 300mW에서 작동하는 모바일 디바이스 최적화의 요구를 만족시키며, 2000 Dhrystone MIPS의 성능을 제공합니다.

 

19.jpg

 

Cortex-A8 고성능 프로세서는 터미널 디바이스에서 검증을 받았습니다. 고급형 핸드폰, 넷북, DTV, 프린터, 자동차, 엔터테인먼트 등에서 Cortex-A8 프로세서는 신뢰성 높은 고성능 솔루션을 제공하며, 매년 수백만대가 판매되고 있습니다. 

 

- 600MHz에서 1GHz 사이의 클럭

- 고성능 슈퍼스칼라 마이크로 아키텍처

- 멀티미디어와 SIMD 프로세서에 쓰이는 NEON 기술

- ARM926(ARM9), ARM1136과 ARM1176(ARM11) 프로세서의 2진수 호환성

- 복잡한 시스템에서 실행하는 고성능 프로세서

- 대칭형 슈퍼 스칼라 파이프라인으로 2개의 명령을 실행하는 기능

- 고효율 파이프라인으로 높은 클럭이 가능

- 고급 분기 예측 유닛으로 95% 이상의 정확성

- 내장된 L2 고속 캐시로 고성능 시스템에서 최적의 성능 제공

- NEON 기술로 소프트웨어 멀티미디어 처리

- 128비트 SIMD 데이터 엔진

- v6SIMD의 2배 성능

- 고효율 머티미디어 처리로 소비 전력 절감

- 민첩한 처리로 앞으로 출시될 멀티미디어 포멧을 지원

- Cortex-A8의 NEON 기술을 통해 소프트웨어에서 간단히 여러 코덱을 내장

- 개선된 인터페이스

 

NEON은 사운드, 비디오, 그래픽 작업에서 SoC를 지원하는 전용 가속기의 부담을 줄여주고, 앞으로 나올 표준까지 지원합니다.

 

L2 고속 캐시를 코어에 내장하여 집적도를 높이고 고효율과 높은 성능을 실현하였습니다. 고속 캐시는 RAM 표준 컴파일을 사용하여 이루어졌으며, 그 범위는 0KB에서 1MB입니다. 고속 캐시는 컴파일의 메모리 구축에 사용할 수 있으며, 다양한 조합이 가능합니다.

 

Cotex-A8을 사용한 대표적인 제품은 다음과 같습니다.

텍사스 인스트루먼트: OMAP 3430, OMAP 3530, OMAP 3610/3630/3640

퀄컴 : MSM 7230/7630/8255/8255T/8655/8655T, QSD 8250/8250A/8650/8650A

삼성 : S5PC110

애플 : A4

프리스케일 : MX515 

락칩 : RK2918

 

 

새로운 어플리케이션 프로세서: Cortex-A9 

 

Cortex-A9는 지금까지 성능이 제일 높은 ARM 프로세서입니다. ARMv7 아키텍처의 풍부한 기능을 광범위하게 지원합니다. Cotex A8과 비교하여 새 Cortex A9는 최대 4개의 처리 코어를 내장할 수 있으며, Cortex-A9 프로세서의 설계는 선진적이고 효율이 높고 여러 명령어를 실행하는 슈퍼 스칼라 구조를 사용합니다. 난수 예측 방식으로 8단계의 파으파링 스테이지를 사용하는 프로세서를 통해 광범위한 가전 제품, 네트워크, 기업과 모바일 어플리케이션에서 지금까지 제공했던 모든 기능을 제공하며, 예전에 없었던 고성능과 높은 효율을 제공합니다.

 

20.jpg

 

Cortex-A9 마이크로 아키텍처는 탄력적인 멀티코어 프로세서 구조를 사용하며(Cortex-A9 MPCore 멀티코어 프로세서) 전통적인 프로세서(Cortex-A9 싱글코어 프로세서)로도 사용할 수 있습니다. 탄력적인 멀티코어 프로세서와 싱글코어 프로세서는 16/32/64KB 4웨이 L1 고속 캐시를 지원하고 L2 고속 캐시 컨트롤러를 사용할 수 있습니다. 최대 8MB L2 고속 캐시를 장착하여 특정 분야와 시장에서 사용 가능합니다.

 

- 비교할 수 없는 성능. 2GHz에서 TSMC 40G 매크로셀을 실현

- 저전력을 목표로 한 싱글 코어 프로세서는 가격에 민감한 디바이스에 적합

- 고급 MPCore 기술을 사용하여 최대 4개까지 확장 가능한 멀티코어

- NEON 멀티미디어와 부동소수점 처리 엔진을 탑재 가능

 

21.jpg

 

테그라 2에서 사용하는 Cortex A9 듀얼코어 아키텍처

 

아키텍처 공유 때문에 생기는 다양한 요구 때문에 Cotex-A9 프로세서는 각종 시장의 어플리케이션 수요에 알맞는 확장 솔루션을 제공합니다. 스마트폰부터 고성능 디바이스와 기업용 제품까지 전부 여기에 포함됩니다.

 

Cortex-A9 MPCores는 큰 성공을 거둔 ARM MPCores 기술과 더 많은 개선 기능을 내장하였습니다. 이로서 멀티코어 솔루션을 간소화하여 어플리케이션 범위의 확장을 제공합니다. Cortex-A9 MPCore 프로세서는 이전까지 없었던 확장성과 높은 성능을 제공하고, 동시에 융통성 있는 설계와 새로운 기능을 제공, 소비 전력을 줄여줍니다. Cortex-A9 MPCore 프로세서를 사용하여 프로세서의 방향을 실현하면서, 모바일 디바이스의 최그 성능은 계속하여 향상되었습니다. 그 구체적인 방법으로는 탄력적인 설계의 ARM MPCore 기술을 사용하여 고효율 관리 기술을 제공하며, 쿨링의 제한과 전원의 부족을 예측하여 실행을 유지하는 것입니다. 신축성있는 최고 성능을 사용하여 지금까지 출시됐던 비슷한 종류의 고성능 임베디드 디바이스를 초월하는 성능을 제공하며, 넓은 시장을 기초로 안정적인 소프트웨어 투자가 가능합니다.

 

Cortex-A9 싱글코어 프로세서는 예전에 없었던 높은 성능과 효율을 제공합니다. 저전력이 필요하고 제조 원가에 민감한 분야에서 싱글 코어 프로세서를 기반으로 한 디바이스가 제공하는 고성능은 모든 설계에서 이상적인 솔루션이 됩니다. 사용이 편리한 IP 기성품인 Cortex-A9 프로세서는 ARM11 프로세서 기반의 기존 설계에서 이상적인 업그레이드를 제시하고 있습니다. 이런 종류의 설계는 비슷한 실리콘 제조 원가와 전원 예측을 통해 더 높은 성능과 효율을 제공하고, 동시에 사용 환경의 호환도 유지합니다. Cortex-A9 싱글코어 프로세서의 독립 명령어와 데이터 처리는 한번에 2개씩 처리하고, 레이턴시가 낮으며, Harvard 64비트 AMBA 3 AXI 포트를 사용, 메모리의 캐시 구역 사이에서 데이터를 복사하고 5개의 프로세서 사이클 추기 동안 4번의 2바이트 쓰기가 가능합니다.

 

싱글코어와 멀티코어의 소프트 매크로 외에, 자주 쓰이는 듀얼코어 셋업도 TSMC 40G/GL 공정에서 하드 매크로를 실현하여, 최대한도로 고성능 Cortex-A9 프로세서가 출시되는 시간을 단축시키고, 출시에 필요한 제조 원가와 위험성을 낮췄습니다. 최적화된 ARM 물리 IP와 선진 실현 기술을 사용하여 하드 매크로의 출력 최적화를 실현하며 성능의 최적화를 실현하였습니다.

 

속도 최적화 하드 매크로는 시스템 설계 담당자들이 업계 표준의 ARM 프로세서에 저전력 기술을 포함하여 실현되었습니다. 이렇게 하여 ARM의 성능은 더욱 탄력적으로 최적화되었습니다. 높은 밀도와 쿨링의 제한을 받는 환경에 필요한 장비 중에는 높은 이윤을 낼 수 있는 제품들과 기업용 장비들이 포함됩니다. 표준 실리콘에서 하드 매크로를 선택하여 그 실행 클럭은 2GHz를 넘길 수 있어, 높은 성능으로 큰 수익을 내는 솔루션에서는 제일 이상적인 방안을 제공하고 있습니다.

 

쿨링이 제한된 실행 환경에서는 효율이 상당히 중요합니다. Cortex-A9의 전력 최적화는 하드 매크로를 통해 실현되어, 최고 성능은 4000 DMIPS까지 가능하지만, 이때 각 CPU의 소비 전력은 250mW가 안됩니다.

 

하드 매크로의 실현은 ARM AMBA 표준의 고성능 시스템 모듈에 부합됩니다. 최대한도로 데이터 통신 속도를 높이면서 사용하는 전력과 실리콘 면적을 최대한도로 줄일 수 있습니다. 각각츼 Cortex-A9 하드 매크로는 CoreSight PTM을 포함하며, 이는 프로세서의 명령 흐름을 완전히 볼 수 있어, 소프트웨어 구역에서 성능을 최적화하는 코드를 만들 수 있게 합니다. 그 밖에 ARM 고성능 L2 고속 캐시 컨트롤러를 내장하여 L2 고속 캐시 메모리가 128K와 8M 사이의 설정이 가능하게 해줍니다.

 

22.jpg

 

Cortex-A9를 사용하는 대표적인 제품은 다음과 같습니다.

텍사스 인스트루먼트 : OMAP 4430/4460/4470

퀄컴 : MSM 8260/8660, APQ 8060/8064

NVIDIA : 테그라 2

애플 : A5 

 

 

앞으로 다가올 Cortex A15

 

최신 아키텍처인 Cortex A15는 아직 제품이 출시되지 않았으며 빨라야 2012년에 출시될 것입니다. Cortex A15와 Cotex A9/A8은 모두 ARMv7-A Cortex 아키텍처를 사용했으며, 프로세서 코어 수는 최대 4개로 Cortex A9와 같습니다. 프로세서 코어 사이는 AMBA 4로 연결되어 있으며 ISA도 지원합니다. 소비 전력을 계속하여 절감하고 쿨링과 원가를 예측하여 고도의 확장성을 가진 솔루션을 제공,스마트폰, 타블렛, 대형 스크린을 사용하는 모바일디바이스, 디지털 엔터테인먼트, 무선 기지국, 기업용 장비 등에 사용할 수 있습니다.

 

23.jpg

 

Cortex A15의 명령어 셋트

- ARM

- Thumb-2

- TrustZone security technology

- NEON Advanced SIMD

- DSP&SIMD extensions

- VFPv4 Floating point

- Jazelle RCT

- Hardware virtualization support

- Large Physical Address Extensions(LPAE)

 

ISA 명령어 셋트는 새 Cortex A15가 ARMv7 시스템을 승계한것 외에 Large Physical Address Extensions(LPAE)를 추가하여, 프로세서가 최고 1TB의 메모리를 엑세스할 수 있게 되면서 디바이싀 메모리 용량과 대역폭을 넓힐 수 있게 도와줍니다.

 

24.jpg

 

캐시의 경우 새 Cortex A15 프로세서는 L1 캐시에 큰 최적화를 하여 데이터와 명령어가 각각 독립된 32KB 캐시를 사용할 수 있게 하여 레이턴시를 최대한 낮췄습니다. 또한 소비 전력도 확실히 줄어들고 코어 사이의 데이터 교환도 개선되면서 멀티 코어를 지원하는 소프트웨어어의 개발이 쉬워졌습니다. L2 캐시의 경우 Cortex A15는 최고 4MB L2 캐시를 지원하여 속도가 더 빨라지고 칩의 소비 전력도 줄어들었습니다.

 

멀티코어의 급격한 발전에 맞춰 ARM도 변화를 멈추지 않았습니다. 새로 추가된 AMBA 4는 멀티코어 Cortex A15를 위해 설계되어 코어가 캐시를 더 잘 활용할 수 있게 해주고 소프트웨어의 개발도 간소화시켰습니다. 높은 대역이 필요한 게임, 서비스, 네트워크 등에서 높은 효율을 낼 수 있습니다.

 

그 밖에도 Cortex A9의 멀티미디어 성능이 예상보다 떨어졌다는 점에 맞춰, ARM은 새 Cortex A15에 NEON 고급 SIMD 명령어 셋트와 Floating-Point Unit(FPU)를 Cortex A15의 필수 요소로 넣어, 멀티미디어 처리 속도를 현저히 끌어올렸습니다.

 

새로운 부동소수점 유닛인 VFPv4 아키텍처는 VFPv3과 비교하여 더 높은 성능을 내며, VFPv4 아키텍처는 초기 ARM 부동소수점 유닛 코프로세서를 기반으로 하고 있습니다.

 

기술이 끊임없이 발전하면서 처음 출시되는 Cortex A15는 32나노와 28나노(TSMC/글로벌 파운드리) 공정으로 제조되고, 앞으로는 20나노까지 손을 뻗칠 것입니다. Cortex A15는 최고 2.5GHz로 작동하며 다양한 영역에 맞춰 설정이 가능합니다. 예를 들어 스마트폰과 모바일 컴퓨팅 분야에서는 1.1~1.5GHz 싱글/듀얼코어, 디지털 홈 엔터테인먼트에서는 1~2GHz 듀얼/쿼드코어, 가정용 웹 2.0 서버에서는 1.5~2.5GHz 4/8코어 프로세서를 사용하여 더 큰 규모의 연결이 가능합니다. 

 

Cortex-A 시리즈 패밀리의 최신 구성원으로 Cortex-A15는 광범위한 소프트웨어와 기능 호환성을 가지고 있는 프로세서로서, 운영체제의 가상화, 에러 교정, 더 큰 메모리 어드레싱, 시스템 일치성 등을 포함한 고효율 하드웨어 지원을 제공합니다. 동시에 저전력 설계의 장점을 그대로 가지고 있으며, 어플리케이션 호환성을 유지하여 바로 기존의 개발자들과 소프트웨어 에코시스템에 투입 가능합니다. 구글 안드로이드, 어도비 플래시 플레이어, 자바 SE, 자바 FX, 리눅스, 윈도우즈 임베디드 컴팩트 7, 심비안, 우분투 외에 수백곳의 ARM 커넥티드 커뮤니티 구성원들에 제공하는 소프트웨어, 하드웨어, 소프트웨어 개발 키트, 미들웨어, SoC 디바이스가 여기에 포함됩니다.

 

Cortex-A15 프로세서는 동기화 개발, ARM 물리 IP의 지원에 최적화, 다양한 ARM 기술, ABMA 4 호환 코어링크 시스템 IP, 코어사이트와 추적 IP, Mali 그래픽 코어와 개발 키트등을 지원합니다.

 

 

앞으로의 ARM 프로세서 

 

제조 공정과 기술의 발전에 따라 ARM도 발전합니다. ARM926은 초기에 180나노 공정으로 시작했지만 곧 출시될 Cortex A15는 28나노 공정으로 제조되어 트랜지스터 밀도가 얼마나 늘어나는지 계산하기 힘들 정도입니다. 공정의 발전에 따라 성능 역시 끊임없이 향상합니다.

 

25.jpg

 

현재 주로 사용되는 Cortex A 시리즈 ARM.

 

26.jpg

 

초기의 ARM926 공정과 기술은 Dhrystone 성능이 1.1DIMPS/MHz밖에 안됐습니다. 제조 공정의 한계 때문에 초기의 ARM926은 180나노 공정을 사용했으며 클럭도 최고 200MHz밖에 안됐고, 성능 향상도 큰 제한이 있었습니다. 하지만 지금 사용되는 Cortex A9는 최고 4개의 코어를 사용할 수 있으며 싱글 코어의 Dhrystone 성능은 2.5DIMPS/MHz로 두배 이상 늘었으며, Cortex A9가 65/40나노 공정을 사용하기 때문에 클럭도 대폭 상승하였습니다. 성능이 최적화된 듀얼코어 Cortex A9는 2GHz까지 클럭을 높일 수 있어 성능은 10배까지 높일 수 있습니다.

 

제조 공정과 기술의 발전에 따라 ARM의 성능이 메인스트림 PC 수준까지 올라가는 것은 더 이상 문제가 아닐 것입니다. ARM은 간단한 명령어 셋트를 사용하여 연산을 더 효율적으로 처리합니다. 시장 경쟁력을 더 갖추기 위해 ARM 프로세서는 고성능, 작은 코드 크기, 낮은 소비 전력, 작은 다이 크기를 앞세우고 있습니다.

 

출처: http://www.m8cool.com/sjzs/68678.aspx

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.