신경망 프로세싱에 초점을 맞춘 A14
애플이 차세대 모바일 SoC(System on a Chip)인 애플 A14 바이오닉을 발표했습니다. 5nm 공정으로 제조하며 트랜지스터 수는 118억개입니다. 모바일 SoC 시장에선 하이실리콘의 기린 990 5G(N7+ 프로세스)가 100억 개의 트랜지스터를 넘겼는데, 애플도 100억개를 넘어섰습니다.
CPU 코어 구성은 빅 코어 2개에 스몰 코어 4개이며, 딥 러닝을 위한 명령어 확장 세트를 갖춥니다. Arm 명령어 세트 중에서 Arm v8.6-A에 해당된다고 추측됩니다. CPU 성능은 40% 향상됐다고 애플은 말합니다.
GPU 코어는 애플의 자체 아키텍처로 4코어 구성, 30%의 성능 향상입니다. 가장 확장이 많이 된 건 신경망 엔진입니다. A13은 유닛 수가 8코어였는데 이번엔 16코어로 2배가 늘었습니다. 성능은 11TOPS (Tera Operations Per Second)로 A13의 5TOPS에서 두배 이상 올랐습니다.
칩 전체를 보면 가장 많이 강화된 부분은 CPU 코어 내부의 GEMM 연산 유닛과 신경망 엔진입니다. 딥 러닝을 위한 기능 강화라고 봐도 되겠습니다. 트랜지스터가 많이 늘어난 것도 이 부분 때문이리라 추측됩니다.
현재 프로세서의 트렌드는 특정 영역에 특화된 처리 성능을 향상시키는 것입니다. 반도체 제조 공정을 개선하는데 제약이 있다보니 아키텍처를 개선해 성능을 높여야 합니다. 공정 기술을 발전시켜 회로 설계의 기본인 스탠다드 셀 밀도는 높아지며, 그에 맞춰 소비 전력은 줄어듭니다. 따라서 그만큼 트랜지스터 수를 늘려 나갑니다.
단순히 프로세서 코어의 숫자를 늘리면 전력 사용량이 늘어나, 제대로 활용하지 못하는 다크 실리콘이 생겨납니다. 따라서 무거운 작업을 메인 프로세서에서 각 영역에 최적회된 하드웨어로 빼내 처리하도록 바뀌는 추세입니다. 그리고 지금 늘어나는 작업 분야는 신경망이고, 거기에 특화된 하드웨어를 강화하는 게 최적의 방법입니다.
이런 트렌드를 이해하기 위해선 A14 실리콘의 공정 기술을 알 필요가 있습니다.
최첨단 5nm 공정으로 제조
반도체 칩 입장에서 본 A14의 가장 큰 특징은 5nm 공정 제조입니다. 애플은 2018년의 A13에서 7nm 공정을 도입하고, 2년 후에 5nm 공정으로 옮겼습니다. 애플 A 시리즈 SoC는 최첨단 공정을 가장 먼저 사용하며, 그 점은 이번에도 변함 없습니다. 가장 발전된 공정에서 애플 A14가 생산된다고 보면 되겠습니다.
그러나 제조 공정이 1세대 나아간 만큼 트랜지스터 수가 늘어나진 않았습니다. 5nm A14의 트랜지스터 수는 118억개, 7nm A13의 85억개보다 32% 늘었습니다. 제조 공정은 1노드 개선됐으나 트랜지스터 수가 2배가 되진 않았습니다.
이건 애플이 의도적으로 조정한 결과라 추측됩니다. 애플 A 시리즈에서 트랜지스터 수의 증가는 일정한 규칙이 있습니다. 제조 공정을 개선한 첫 세대에선 다이 크기를 줄이고 트랜지스터 수의 증가도 억제합니다. 그리고 같은 공정을 유지한 2세대 칩에선 다이를 약간 키우고 트랜지스터 수도 늘립니다.
예를 들어 7nm 노드의 첫번째 N7 공정을 쓴 애플 A12는 다이 크기가 83.27제곱mm에 트랜지스터 수 69억개였습니다. 7nm의 2세대인 N7P에선 애플 A13이 98.5제곱mm에 트랜지스터는 85억개였습니다.
이번 A14는 5nm 노드 세대의 첫번째 칩이기에 다이 크기를 늘리지 않습니다. 매년 SoC를 발전시켜야 하니 트랜지스터 규모를 적당히 유지해야 하며, 제조 비용이 갈수록 비싸지는 첨단 공정을 경제적으로 사용하는 방법이기도 합니다. 또 칩 전체 소비 전력을 줄이기 위한 선택이기도 합니다. 1년 후에 성숙된 공정이 나오면 수율이 개선돼 다이를 키우기가 더 쉬워집니다.
또 같은 노드에서도 2세대 프로세스는 특성이 향상돼 그만큼 성능과 전력이 개선됩니다. 2021년에는 2세대 5nm 프로세스가 나오는데 트랜지스터 수가 늘어나고 기능이 향상되리라 예상합니다.
TSMC의 새로운 메이저 노드 프로세스 N5
애플 A14의 5nm 공정은 지금까지 그랬던대로 TSMC입니다. TSMC는 현재 5nm 세대의 첫 공정인 N5의 생산을 시작했습니다. TSMC N5는 EUV(Extreme Ultraviolet) 노광 기술의 비중을 늘린 공정입니다.
TSMC는 7nm 공정의 N7+와 N6에서 EUV를 썼지만 그 적용 범위가 넓진 않았습니다. 그에 비해 5nm는 배선과 배선 사이를 포함해 보다 많은 영역에 EUV를 썼습니다. 기존의 ArF 엑시머 레이저 광원 액침 다중노광 공정에선 마스크 수가 5개였지만 EUV는 1개로 줄어들었다고 합니다. 이렇게 해서 제조 비용 증가를 억제하고 처리량을 높일 수 있었습니다.
N5는 TSMC 7nm 공정의 첫 세대인 N7과 비교해서 소비 전력이 같을 경우 속도가 15% 향상되고, 속도가 같다면 전력 사용량이 30% 줄어들었다고 합니다. 또 로직 회로의 밀도는 모바일 버전에서 최대 1.84배 늘어나며, SRAM 셀의 밀도도 1.35배 오릅니다. SRAM 밀도가 1.35배인데 논리 회로가 1.8배인 이유는 공정 기술과 회로 설계의 최적화인 DTCO(Design-Technology Co-Optimization)로 로직 셀의 크기를 줄이기 때문입니다.
TSMC는 15%의 속도 향상을 1.84배의 고밀도 로직 셀에서 실현 가능하며, 고성능 컴퓨팅을 위한 옵션인 extremely Low Vt (eLVT) 게이트 전압 트랜지스터를 사용하면 같은 전압을 인가했을 때 최대 25% 성능 향상을 기대할 수 있다고 설명합니다.
게이트 전압 옵션을 확장
첨단 프로세스는 여러 옵션이 있습니다. 빠르지만 누설 전류가 많고 게이트 전압이 낮은 트랜지스터, 느리지만 누설 전류가 적고 게이트 전압이 높은 트랜지스터 옵션이 있습니다. 게이트 전압이 서로 다른 트랜지스터를 사용해 최적화를 수행하고 성능을 향상시킵니다. N5 공정은 빠른 eLVT를 옵션으로 제공하는데, A14와 같은 모바일 버전이 아니라 고성능 프로세서용입니다.
N5에서 CPU와 GPU 코어 속도
TSMC N5는 DTCO 기술 중 하나인 Via Pillars를 광범위하게 도입했습니다. N7에선 시험 도입이나 5nm부터는 본격적으로 사용합니다. 현재 첨단 공정은 배선층의 하층 부분의 배선이 가늘어 저항이 큽니다. 따라서 트랜지스터보다는 배선에서 생기는 지연이 더 큰 영향을 줍니다. Via Pillars를 사용하면 배선의 저항이 줄어드는 효과가 있습니다.
Via Pillars 기술의 효과
N5에서 Via Pillars의 구현
2년마다 메이저 노드를 도입하는 TSMC의 로드맵
A12의 N7 공정은 A11의 10nm 10FF 공정과 비교해서, 전력이 같으면 속도가 10% 향상되고 속도가 같다면 전력이 35% 줄어듭니다. N7과 16nm 세대의 16FF+를 비교하면 전력 사용량이 같을 때 속도가 35% 향상되고, 속도가 같으면 전력이 60% 줄어듭니다. 또 논리 회로의 밀도는 16FF+에서 N7로 오며 3.3배 늘어납니다.
이렇게 보면 로직 셀의 크기는 매 공정마다 계속해서 줄어들고, 트랜지스터 밀도가 높아지며, 성능/전력도 순조롭게 증가하고 있음을 알 수 있습니다. 트랜지스터 밀도는 프로세스 스케일링만으로 여기까지 올리지 못합니다. 따라서 DTCO로 표준 셀의 크기를 줄여 로직 밀도를 높입니다. 이게 현재 제조 공정 기술의 트렌드입니다. TSMC의 N5도 이런 방식입니다.
TSMC의 첨단 공정 로드맵입니다. 각 프로세스의 시작 부분은 시험 생산, 노드 숫자가 써진 부분이 본격 양산입니다. 현재 TSMC는 3nm 공정의 개발을 진행 중이며, 5nm의 개선형인 N5P와 거기서 파생되 나온 N4도 개발하고 있습니다. 7nm도 A12를 생산한 N7과 A13을 생산한 N7P 외에 AMD가 채택한 N7+, 앞으로 나올 N6이 있습니다. 이 로드맵에 따르면 A15는 N5P, A16은 N3 프로세스를 쓰리라 예상됩니다.
7나노에서 전공정 EUV 돌리니