패키지 기술의 대혁신. 아이폰 7의 A10
애플 아이폰 7의 모바일 SoC인 애플 A10 퓨전은 이 업계에서 기념비적인 칩입니다. 패키지 기술의 혁신이라는 점에서요. A10이 사용한 Fan-Out Wafer Level Package(FO-WLP) 기술은 그만큼 큰 변화입니다. FO-WLP는 유기 기판을 사용하지 않는 새로운 패키지 기술로 패키지의 특성을 크게 향상시키고 패키지의 두께를 줄입니다. 패키지만으로 성능 효율을 높이고 쉽게 시스템 두께를 줄일 수 있게 해줍니다.
FO-WLP는 패키징에 유기 재료 기판 대신 매우 얇은 Redistribution Layer(RDL)를 사용합니다. 그러나 기존의 칩 스케일 패키지 WLCSP(Wafer Level Chip Scale Package)와 다르게 패키지가 다이와 똑같은 크기일 필요가 없습니다. 핀 수가 많은 패키지나 다이보다 더 큰 칩도 쓸 수 있을 정도로 응용의 폭이 넓습니다.
FO-WLP 계 기술은 두꺼운 기판을 쓰지 않으면서 패키지의 두께가 얇아집니다. 또 배선이 짧아져 배선 저항이 줄어들고 I/O 성능이 높아 소비 전력도 줄일 수 있습니다. 아이폰 7 A10을 생산하는 TSMC는 InFO-WLP 기술이 패키지 두께를 20% 줄이고 I/O 속도를 20% 높이며 발열은 10% 줄어든다고 설명합니다. A10은 패키지 레벨에서 성능과 전력이 개선된 것입니다.
A10은 예전부터 FO-WLP 기술을 쓸 것이라 예상됐습니다. 현재 애플 A 시리즈를 생산하는 TSMC가 자사의 새로운 패키지 기술인 InFO WLP(Integrated Fan-Out Wafer-Level Package)을 대형 고객이 채택했다고 밝혔기 때문이죠. TMSC는 2015년 10월의 금융 컨퍼런스 콜에서, 2016년부터 InFO의 대량 생산이 시작돼 4분기에는 1억 달러의 매출을 올린다고 설명했습니다. 그러니 A10이 InFO WLP를 쓸 것이라는 점은 이미 예상된 것이죠.
ASM Pacific Technology이 설명한 FO-WLP 기술
InFO/CoWoS의 포트폴리오
TSMC WLSI 기술 플랫폼
InFO란?
InFo PoP 3D 스택
아이폰용 Ax 시리즈 SoC는 DRAM과 적층한 PoP(Package On Package)로 탑재됩니다. A10은 InFO 기반의 POP입니다.
반도체 칩이란 점에서 A10의 가장 큰 특징은 이 패키지 기술입니다. 아이폰은 지금까지도 여거 다양한 기술을 앞장서서 도입했으며, 이번 아이폰 7은 FO-WLP 기술의 출시를 이끌고 있습니다. FO-WLP 패키지 기술은 오래간만의 개혁으로 앞으로 큰 흐름이 될 것으로 예상됩니다. 또 반도체 산업에선 인 하우스 패키지로 전환하게 될 것입니다.
시스템에선 FO-WLP 패키지의 높이를 억제해 더욱 얇게 만들기가 쉬워졌습니다. 스마트폰의 가장 큰 발열원인 애플리케이션 프로세서 칩이 FO-WLP로 얇아지면, 스마트폰 자체를 얇게 만들기가 쉬워집니다. 애플의 케이스 기본 디자인은 2년마다 바뀌니 아이폰 7에선 케이스 크기 자체의 변화는 거의 없습니다. 그러나 앞으로는 기대할만 합니다. 또 3.5mm 이어폰 잭을 빼면서 물리적 I/O 포트를 줄일 준비도 이미 됐지요.
빅 리틀 멀티 코어 구성의 CPU
A10 칩 아키텍처의 가장 큰 특징이라면 대형 CPU 코어와 소형 CPU 코어를 함께 사용한 멀티 코어 구성이라는 점입니다. ARM의 big.LITTLE 아키텍처와 비슷한 코어 조합입니다. 애플은 2개의 고성능 CPU 코어와 2개의 고효율 CPU 코어를 조합했다고 설명했습니다. 고효율 CPU 코어는 고성능 CPU 코어의 1/5 전력으로 실행됩니다.
big.LITTLE과 비슷하다고 말한 건 ARM의 big.LITTLE이 인터럽트 처리를 비롯한 하드웨어 설계와 OS의 스케줄러 확장, 패치 등을 포함한 솔루션이기 때문입니다. 애플은 ARM의 아키텍처 라이센스를 받아 CPU 코어 마이크로 아키텍처 자체를 자체 개발하고 있습니다. OS도 자사 OS입니다. 따라서 대형 코어와 소형 코어 구성을 제어하는 것 역시 애플이 직접 만들었을 것이라 보입니다.
작업 부하에 따라 빅/스몰 코어에 동적으로 할당, 높은 효율을 유지하기란 꽤 어렵습니다. 애플은 파워 컨트롤러가 자동 제어한다고 설명했습니다. 애플리케이션이 CPU 코어가 어떤 것인지는 알기 어렵고, 그 아래의 OS와 하드웨어가 어떤 제어를 하는지는 아직 명확하지 않습니다. ARM의 big.LITTLE 소프트웨어 모델의 경우 OS 스케줄러를 연결하여 대형 CPU 코어와 소형 CPU 코어를 쌍으로 전환하는 모델로, 작업마다 CPU 코어에 배분하는 모델로 진화했습니다.
ARM의 big.LITTLE의 소프트웨어 모델
대형/소형 코어 조합의 장점은 명확합니다. CPU 코어 마이크로 아키텍처를 고성능/저전력에 각각 최적화할 수 있다는 거죠. 하나의 CPU 코어로 부하가 높을 때 고성능, 낮을 땐 고효율로 억제하려면 아키텍처와 회로 설계가 몹시 복잡해집니다. 인텔처럼 마이크로 아키텍처 레벨에서 회로 설계, 공정 기술에 이르기까지 모든 영역에서 조정한 CPU 코어를 개발하지 못하면 고성능부터 저전력까지 하나의 마이크로 아키텍처로 커버하기가 어렵습니다.
ARM의 big.LITTLE 대형/소형 코어 조합의 장점
따라서 CPU 코어를 2종류로 나눠, 각각 고성능과 저전력에 최적화하는 게 결과적으로 CPU 설계가 쉽고 효과적입니다. 고성능 코어는 저전압 구동을 고려하지 않고 고성능에 최적화한 설계를 쓰면 됩니다. 표준 셀 라이브러리 및 회로 설계, 트랜지스터 옵션에서 상위의 마이크로 아키텍처 최적화까지. 파이프 라인을 깊게 만들어 클럭을 높일 수 있고 명령의 병렬 실행 폭을 넓힐 수 있습니다. 성능 라이브러리를 선택할 수도 있고, 게이트 전압이 낮은 고속 트랜지스터의 비율을 높일 수도 있습니다. 실제로 아이폰 7은 고성능 코어의 최고 클럭이 아이폰 6s보다 크게 올랐습니다.
한편 저전력 코어는 전력 효율성에 최적화된 설계만 쓰면 되니까 이것도 설계가 쉽습니다. 셀 라이브러리 레벨에서 저전력 라이브러리를 선택할 수 있습니다. 트랜지스터의 Vt 선택도 누설 전류를 억제할 수 있어, 단일 아키텍처보다도 설계가 훨씬 쉽습니다.
물론 CPU 코어 아키텍처를 2개로 분리하는 단점도 있습니다. OS 스케줄러가 작업을 지능적으로 배분하거나 CPU 코어 사이에서 작업 마이그레이션을 빠르게 할 필요가 있습니다. 그러나 CPU 코어 최적화라는 장점을 갖고 있어, 현재 모바일에선 빅/리틀 코어의 멀티 코어 구성이 대부분입니다.
명령 병렬도가 높은 애플의 독자적인 마이크로 아키텍처 CPU 코어
원래 애플의 CPU 코어는 ARM 계열 모바일 CPU 코어 중에서도 명령 병렬도가 높고 싱글 스레드 성능도 높습니다. ARM의 플래그쉽 CPU 코어인 Cortex-A72보다도 명령어 병렬도가 높지요. 애플은 저전력 CPU 코어의 개발로 유명해진 벤처 기업 PA Semi를 인수하고 그 개발진이 중심이되어 애플 A 시리즈 CPU 코어를 개발했다고 말합니다. PA Semi 자체는 DEC의 Alpha 21064 나 StrongARM의 개발자가 설립한 회사로, 이 회사가 개발한 Power 아키텍처의 CPU PA6T는 저전력이면서 4개의 내부 명령(uOPs) 디스패치에 5개의 실행 파이프, 2 로드/스토어 파이프를 가진 강력한 코어입니다.
애플의 지금까지 CPU 코어는 64비트(ARMv8) 명령 세트 아키텍처가 된 아이폰 5s의 애플 A7 CPU 코어 싸이클론 기반인 것으로 보입니다. 싸이클론은 6 uOPs 디스패치에서 정수 연산 파이프가 4개, 곱셈 파이프라 1개, 나눗셈 파이프라 1개, 로드/스토어 파이프가 2개로, 모바일 CPU 코어 중에선 최대 규모를 지닌 강력한 CPU 마이크로 아키텍처입니다.
퀄컴 스냅드래곤 820 이후에 탑재된 자체 개발 코어 Kryo가 5uOPs 이슈 폭이고, 삼성 M1이 4명령 디코드에 3 정수 연산, NVIDIA 덴버는 명령 디코더는 2개나 최적화 스케줄링이 더해지고 최대 7uOPs의 병렬 실행이 가능합니다. 이들과 비교에도 애플 CPU 코어 마이크로 아키텍처는 강력합니다. 그만큼 논리 회로 규모가 크고 전력 절감 기술이 필요합니다. 따라서 대형 코어와 소형 코어 이종 멀티 코어 화는 의미가 있다고 할 수 있습니다.
애플의 Ax 시리즈 변화
아이폰의 메모리 대역폭 성장은 앞으로 느려질 것
아이폰 7의 DRAM 메모리는 LPDDR4입니다. 스택 구조의 DRAM 기술 Wide I/O 2는 아이폰에 채택되지 않았습니다. 아이폰의 DRAM은 거의 2년 주기로 차세대 메모리 규격으로 바뀌었습니다. 아이폰 4의 A4까지가 LPDDR, 아이폰 4s의 A5에서 아이폰 5의 A6까지가 LPDDR2, 아이폰 5s의 A7에서 아이폰 6의 A8까지가 LPDDR3, 그리고 아이폰 6s의 A9와 아이폰 7의 A10이 LPDDR4.
그러나 앞으로는 차세대 DRAM까지의 간격이 넓어집니다. 차세대 LPDDR5는 내년에나 스펙이 공개되며, 실제 제품에 체택되는 건 2018년이 될 것입니다. 따라서 DRAM 업계에선 그 중간이 되는 LPDDR4X를 준비중입니다. LPDDR4X는 코어 전압(VDD)이 LPDDR4와 같지만 I/O 전압(VDDQ)을 낮춥니다. LPDDR4의 1.1V ~ 0.6V에서 I/O 전압을 낮춰 I/O 전력을 40% 정도 줄입니다. LPDDR4X는 LPDDR4의 3.2Gbps와 같은 수준의 전력 전송 속도 4.266Gbps을 실현합니다. 아이폰 8이 LPDDR4X을 채용한다면 메모리 대역은 최대 34.1GB/sec를 달성할 수 있게 됩니다.
삼성이 Hot Chips에서 보여준 LPDDR4X 스펙
삼성이 Hot Chips에서 보여준 LPDDR5 스펙
이렇게 보면 스마트폰의 메모리 대역폭 증가는 지금까지 이어져 온 2년마다 2배의 속도보단 느려질 것입니다. 메모리 인터페이스 폭이 같다면 메모리 대역은 3년마다 2배 정도의 속도로 늘어나게 될 것입니다. 메모리 대역폭의 성장 둔화는 모바일 SoC의 그래픽 성능에 영향을 줍니다. 현재 그래픽 아키텍처는 메모리 대역폭을 많이 쓰기에 이 부분의 발전이 필요합니다. 특히 PC 수준을 넘어선 아이패드 프로에 미치는 영향은 큽니다.
모바일 DRAM의 로드맵