지금까지와 다른 패턴의 트랜지스터 수 증가
애플 A 시리즈를 비롯한 모바일 SoC의 트랜지스터 수 변화
애플은 아이포 11 시리즈 스마트폰에 탑재한 A13 바이오닉에서 성능을 약 20% 높였습니다. CPU 코어와 GPU 코어, 뉴럴 엔진이 각각 20% 향상됐습니다. 바꿔 말해서 새로운 아이폰은 기존 제품에 비해 성능 향상이 20%에 그쳤습니다. 그 이유는 간단합니다. 칩에 탑재된 트랜지스터 수가 딱 그만큼 늘었기 때문입니다. 아이폰 XR의 A12 바이오닉은 다이에 69억 개의 트랜지스터를 탑재했습니다. 반면 A13의 트랜지스터 수는 85억 개, A12와 비교하면 트랜지스터 수가 약 23% 늘었습니다. 간단히 말해서 23% 더 많은 기능을 A13에 탑재할 수 있습니다.
GPU나 뉴럴 엔진은 병렬 연산 자원을 늘리는 데 트랜지스터를 쓰면 성능이 향상됩니다. 그러나 A13는 A12에 비해 GPU 코어 수가 늘어나지 않았습니다. 코어 내부의 연산 자원이 확충됐을 가능성은 있지만 아직 자세한 내용은 알려지지 않았습니다. CPU 코어는 퍼포먼스 코어가 2개, 저전력 코어가 4개로 구성은 같습니다. 애플은 1 Trillion Operations per Second까지 성능이 올랐다고 말합니다.
자세한 내용은 아직 알 수 없으나 분명한 건 A12에서 A13로 오면서 트랜지스터 수가 23% 증가하는데 그쳤고, 그래서 성능 향상 폭이 크지 않았습니다. 23%의 트랜지스터 증가는 애플의 과거 SoC 증가율과 비교하면 작습니다. 아이폰 XR의 7nm A12은 아이폰 8의 10nm A11에서 60% 늘었습니다. A11은 아이폰 7의 16nm A10에서 30% 늘었고, A10은 16/14nm의 아이폰 6s A9에서 30% 정도 늘어났습니다. A9에서 A10의 성능 변화가 명확하지 않은 건 A9의 트랜지스터 수가 발표되지 않아서입니다. 아이폰 5s의 28nm A7에서 아이폰 6의 20nm A8은 2배 가까이 트랜지스터 수가 늘었습니다. A7은 10억 개 이상, A8은 20억 개라고 발표됐습니다.
지금까지 애플은 SoC를 진화시킬 때마다 트랜지스터 수를 30% 이상, 때로는 60% 이상 늘려왔습니다. 이를 통해 CPU 코어 수를 늘려 퍼포먼스 코어의 싱글 스레드 성능을 높이고 GPU 코어의 자원을 확장하며 새로운 뉴럴 엔진을 탑재했습니다. 그런데 이번에는 트랜지스터 수가 23% 늘어나는데 그쳐, 성능 향상도 전처럼 크지 않습니다.
그 이유는 두 가지입니다. 하나는 칩을 제조하는 반도체 공정 기술이 기존의 A12 바이오닉과 같은 7nm라서 트랜지스터 밀도가 거의 변하지 않았습니다. 단위 면적당에 탑재 가능한 트랜지스터 수가 그만큼 늘어날 수밖에 없습니다. 이 경우 애플은 칩의 다이 크기를 키워서 트랜지스터 수를 늘려왔습니다. A9에서 A10로 갔을 때 그랬죠. 그러나 이번에는 그 방법을 쓰기 어렵습니다. 7nm 세대 프로세스의 제조 비용이 비싸기에 다이를 키우면 칩의 제조 비용도 크게 오릅니다. 모바일 SoC의 다이 원가는 세대마다 늘어나며, 천하의 애플도 다이를 무작정 키우긴 어렵습니다.
반도체 칩의 제조 비용이 급상승, 다이 크기의 확대에 제한
애플 A13은 지금까지 했던 방법대로 스마트폰을 진화하기 어려울 거란 사실을 보여주고 있습니다. 지난 몇 년 동안 애플 SoC의 진화는 일정한 패턴이 있었습니다. 새로운 프로세스로 전환하면 일단 다이가 줄어듭니다. 하지만 트랜지스터 수는 오히려 늘어나니 그만큼 기능이 많아집니다. 다음 칩은 프로세스를 유지해도 다이를 키워서 트랜지스터 수를 늘리고 이걸로 기능을 강화합니다. 아이패드용 칩은 아이폰보다 더 크게 만들어 트랜지스터를 늘립니다. 이렇게 늘어난 트랜지스터는 CPU 코어의 성능 향상과 CPU 코어 수의 증가, GPU의 연산 자원 증가에 투자됩니다.
그러나 아이폰 XR의 A12부터 상황이 바뀌었습니다. 애플의 모바일 SoC는 A12에서 7nm 공정 세대에 진입하면서 칩의 제조 비용이 급증했습니다. TSMC의 7nm 공정은 기존의 ArF 엑시머 레이저 광원에 액침 멀티 패터닝을 쓰는 마지막 공정입니다. 하부 배선층(M4까지)를 SADP : Self-Aligned Double Patterning 멀티 패터닝 기술을 사용해 가장 좁은 배선 간격 40nm를 채웠습니다. (트랜지스터의 핀 부분은 SAQP : Self-Aligned Quadruple Patterning). 따라서 반도체 제조 공정의 노광 공정이 복잡하고 제조 비용이 높습니다. 위 그래프는 IMEC가 VLSI 심포지엄에서 설명한 웨이퍼 레벨의 제조 비용 비교인데, 10nm도 비싸지만 7nm는 33% 더 비싸고, 28nm와 비교하면 제조 비용은 2배로 늘어납니다.
이처럼 7nm의 제조 비용이 비싸기에 애플이 다이 크기를 늘려 트랜지스터를 더 넣고 기능을 강화하기가 어렵습니다. 애플은 아이패드 프로용 A12X에 100억개의 트랜지스터를 넣은 7nm 칩을 사용했습니다. A12X는 120제곱mm 이상의 다이를 썼 으리라 추측됩니다. 이건 비싼 아이패드에 들어가는 것이니 괜찮습니다. 크다고 해도 PC용 칩보다는 작으니까 경쟁력이 있습니다. 그러나 아이폰에 탑재되는 메인스트림 A 시리즈는 비용을 저렴하게 억제할 필요가 있습니다. A13의 다이 크기는 아직 알려지지 않았으나 100제곱mm 수준으로 억제했으리라 추측됩니다. 애플이 A13에서 트랜지스터를 23%까지 늘린 것도 이런 배경 때문입니다.
A13에서 채용한 TSMC의 7nm 공정 개선판
A13의 7nm 공정은 A12의 7nm와 다릅니다. 아이폰 XR의 A12는 TSMC의 첫 번째 7nm 공정인 N7(CLN7FF)로 만들었습니다. 아이폰 11의 A13은 TSMC의 새로운 7nm인 N7+(CLN7FF+)에서 생산합니다. N7과 N7+의 차이는 노광 공정에 있습니다. N7+는 EUV(Extreme Ultraviolet : 극 자외선) 노출을 씁니다. 그러나 6월에 열린 반도체 학회 VLSI 심포지엄에서는 TSMC의 7nm는 N7+ 외에 N7을 개량한 2세대 N7이 있다고 밝혔습니다.
2세대 N7 프로세스는 ArF 다중 노광 기술이지만 특성을 크게 개선해 전력 사용량을 유지하면서 5% 이상 클럭을 끌어올릴 수 있습니다.
반대로 클럭이 같으면 전력을 10% 낮출 수 있습니다.
아이폰 11의 A13이 어느 7nm 공정을 쓰는지는 아직 알지 못합니다. 그러나 2세대 N7도, N7+도 A12의 N7보다 전기적 특성은 분명 개선됐습니다. 그리고 이는 A13에서 소비 전력 절감과 성능 향상으로 이어집니다. N7+라면 다이 크기가 더 작아집니다. N7+는 N7보다 트랜지스터 밀도가 높아진다고 TSMC가 설명한 바 있습니다.
이론적으로 EUV 노광은 ArF 다중 노출보다 프로세스가 단순해져 공정이 단축되고 제조 비용이 줄어듭니다. 따라서 EUV의 제조 비용 문제는 줄어듭니다. 그러나 EUV 노광 장치 자체가 매우 비싸기에 도입 초기에는 N7+이 제조 비용 절감에 주는 효과는 제한됩니다.
또 N7+는 EUV를 사용하는 레이어가 4층으로 한정되며, 배선층 사이를 연결하는 Via 주위에 씁니다. 라인과 공간 부분에 본격적으로 EUV를 도입할 단계는 아닙니다. 이는 삼성과 대조적입니다. 같은 EUV 공정에서도 TSMC와 삼성은 구현 방법이 크게 다릅니다. 또 TSMC는 6nm 공정 N6을 준비하는데 N7과 호환되며 N7보다 더 많은 층에 EUV를 도입한 공정입니다. N6은 N7 설계에서 비용을 줄이는 중간 단계 역할을 수행합니다.
TMSC의 진짜 새로운 노드는 2020년 상반기에 양산하는 5nm 공정으로, 여기서 TSMC는 본격적으로 EUV을 라인과 공간의 여러 계층에 도입합니다. EUV를 배선에 본격 도입하면 지금 1D 배선 설계하던 하부 배선이 2D 배선으로 바뀌어, 회로 설계가 간단해지면서 배선 저항도 유리해집니다. TSMC의 프로세스는 5nm에서 EUV 노광 배선의 혜택을 보게 됩니다. 아이폰 12는 이 TSMC 5nm를 쓸 가능성이 높습니다. 아이폰에서 EUV의 진가가 발휘되는 건 아이폰 12일 겁니다.
파운드리의 프로세스 로드맵
CPU와 GPU, NNE가 모두 20%의 성능 향상
A13은 2개의 고성능 코어와 4개의 저전력 코어로 구성됩니다. Arm의 big.LITTLE과 마찬가지로 아웃 오브 오더의 와이드 슈퍼 스칼라 CPU 코어와 인 오더의 스몰 CPU 코어 조합입니다. 애플은 고성능 코어 성능이 20% 향상되고 전력 사용량은 30% 줄어든다고 설명했습니다. 두 가지를 동시에 달성한다는 건 아니고, 20%의 성능 향상이나 30%의 전력 절감 중 하나가 가능하다는 의미로 추측됩니다. 만약 이 두가지를 동시에 실현한다면 최대 성능은 20%보다 훨씬 더 높겠죠.
저전력 코어도 20%의 성능 향상과 40%의 전력 절감을 이야기합니다. 이것도 같은 워크로드에서 40%의 전력을 줄이거나 같은 전력에서 20% 성능 향상으로 보입니다. 프로세스 기술과 아키텍처 개선을 감안하면 이 두가지를 모두 달성하는 건 말이 안 됩니다.
GPU는 4코어에 20%의 성능 향상과 40%의 전력 절감을 달성했습니다. GPU 코어 수는 A12와 같지만 내부 구성이 같지 않습니다. 메탈 API에 최적화했어도 레거시 API를 버리진 않았을 겁니다. GPU 코어는 드라이버 최적화로 성능을 더 끌어올릴 수 있으리라 봅니다.
CPU 코어의 20% 성능 향상은 제조 공정 향상만으로 가능한 일은 아닙니다. 2세대 N7이나 N7+같은 새 공정을 써도 5~10% 정도의 클럭 향상만 가능합니다. 따라서 마이크로 아키텍처의 확장을 더해서 최소 20%라 부를 수 있을 만큼의 효과를 봤다고 추측됩니다. 다만 애플 CPU가 IPC(Instruction-per-Clock)을 개선할 여유가 그만큼 많다고는 보이지 않습니다. 애플의 CPU 코어는 Arm 계열 CPU 코어 중에서도 이례적으로 IPC에 초점을 맞춘 설계라 더 이상 올리기 힘듭니다.
애플은 CPU 코어의 싱글 스레드 성능의 향상에 집착합니다. A12의 고성능 CPU 코어 Vortex는 명령 디코드가 7-wide로, Arm 명령 세트 아키텍쳐의 모바일 CPU 코어 중에서는 아주 넓습니다. Arm의 CPU 코어 IP는 Cortex-A77의 4-wide가 최대입니다. 따라서 애플의 고성능 아웃 오브 오더 시스템 CPU가 이미 효율을 최대한 높였다고 봐야 합니다.
명령 병렬도를 늘리려면 명령 스케줄도 신경써야 하기에, 늘어난 트랜지스터만큼 싱글 스레드 성능이 향상되기는 더 이상 어렵습니다. 따라서 A13도 CPU 코어 마이크로 아키텍처의 싱글 스레드 정수 성능 향상에 많은 자원을 할애하진 않았다고 예상됩니다.
애플은 A13을 소개하면서 CPU 군의 성능이 1초에 1조개의 작업을 수행(Trillion Operations per Second)한다고 설명했습니다. 이걸 프로세서 단위로 바꾸면 1TOPS(Tera Operations Per Second)입니다. CPU의 성능을 TOPS로 측정하는 신경망의 워크로드가 늘어난 지금은 나름대로 의미가 있는 숫자일지도 모릅니다. 이 TOPS는 데이터를 병렬 처리하는 SIMD (Single Instruction, Multiple Data)의 성능이라 보입니다.
이 1TOPS이라는 숫자가 어디에서 나왔는지를 알아야 합니다. 만약 A13의 고성능 코어 2개가 2.6GHz로 동작하고, 128비트 폭의 NEON SIMD 엔진이 3 파이프에 8비트 정수 연산을 수행했다 해도 최고 성능은 0.5TOPS밖에 안 됩니다. 저전력 코어가 나머지 절반을 채우진 않겠죠. 이게 어디를 기준으로 한 성능인지는 곧 알려질 겁니다.
그나저나 SIMD로 8비트 연산을 해댄걸 1TOPS라고 하니 흠 .....