2013년 핸드폰 프로세서 가이드 (상)에서 우리는 2012년에 나온 제품들을 되돌아 봤습니다. 그리고 이제야말로 진짜 2013년을 위한 프로세서를 볼 때가 왔습니다.

 

먼저, 우리는 가장 기본적인 문제를 던질 필요가 있습니다. 스마트폰의 하드웨어 스펙은 최근 폭발적인 성장을 기록했습니다. 하지만 우리 소비자들은 무엇을 얻었을까요?

 

이 문제의 답은 간단합니다. 그러나 해설은 매우 복잡합니다.

 

2007년에 아이폰의 발표를 시작으로, 스마트폰은 진정한 스마트폰 시대에 들어섰습니다. 프로세서는 초창기 ARM11 400Mhz부터 시작해서 2008년에는 ARM11 533Mhz가 됐고, 2009년에는 Cotex-A8 400Mhz까지 올라갔으며, 2010년에는 Cortex-A8 1GHz로 뛰었습니다. 2011년에는 듀얼코어 Cortex-A9 1.2GHz가 보급되기 시작했는데 2012년엔 쿼드코어 Cortex-A9 1.4GHz가 출현합니다. 스마트폰의 프로세서 성능은 매년마다 거의 2.5배식 뛰어오르고 있습니다. 플랫폼의 수명은 어떨까요. ARM9는 5년 정도였지만 ARM11은 4년이 됐고, Cortex-A8은 고작 1년 반 정도를 버티다가 싱글코어 Cortex-A9가 나오기도 전에 듀얼코어 Cortex-A9가 등장해 일년 동안 시장에 있었습니다. 그 뒤는 쿼드코어 Cortex-A9가 역시 일년 정도 나왔네요.

 

1.jpg

 

업계의 제품 갱신 속도는 ARM의 예상을 뛰어넘고 있습니다.

 

왜 시장에 이런 강대한 추진력시 생겨난 것일까요. 기업은 기술과 이윤에만 집중하면 될 텐데, 왜 이렇게 핸드폰을 미친듯이 업그레이드하는 걸까요?

 

가장 큰 원인은 핸드폰이라는 상품 자체에 생긴 변화 때문입니다. 옛날에는 모두들 PC가 있어야 프로그램과 몇몇 기능들을 쓸 수 있었지만, 지금은 이들이 전부 핸드폰으로 옮겨가기 시작했습니다. 이것은 핸드폰 하드웨어의 폭발적인 발전을 이루게 한 원동력입니다.

 

이런 요구는 핸드폰에 무궁무진한 성능을 요구하게 만들었습니다. 또 핸드폰의 화면이 점점 더 커진 이유도 됩니다. 우리는 한 번에 더 많은 정보를 보길 원하니까요. 핸드폰의 화면 역시 자연스럽게 커진 것입니다.

 

2.jpg

 

하드웨어 스펙의 대대적인 업그레이드 후엔, 마찬가지로 전력 사용량과 발열 역시 대대적으로 늘어났습니다. 미친듯한 하드웨어 경쟁은 스마트폰의 황금 시대를 열었지만, 업계 전체에 시한폭탄을 남기기도 했습니다. 그리고 그 위기는 눈 앞에 있습니다.

 

만약 경차에 천마력짜리 엔진을 달면 어떻게 될까요. 슈퍼카 수준의 성능을 낼까요? 답은 그렇지 않다입니다. 왜냐하면 경차는 그 엔진의 힘을 견딜만한 설계가 되어 있지 않기 때문입니다.

 

마찬가지 이유로, 우리는 인텔 코어 i7 프로세서를 스마트폰에서 볼 수 없습니다. 왜냐하면 핸드폰은 애시당초 그 정도의 전력 사용량을 감당할 수가 없습니다. 이 부분에서 우리는 이성적이고, 제조사들도 이성적으로 판단합니다. 최소한 상당히 긴 시간 동안은 몰이지요. 이런 이성적인 판단은 언젠가는 사라질 것입니다.

 

3.jpg

 

업계에서는 이런 예측이 나오고 있습니다. 듣기에 꽤나 이상하고도 기괴한 소린데요. 2012년 이후에 출시되는 플래그쉽 스마트폰 중에서, CPU가 긴 시간 동안 다운클럭 없이 풀로드로 작동할 수 있는 건 몇 대 없을 것이라고.

 

제조사는 멈추지 않고 스마트폰에 더 빠르고 더 강한 하드웨어를 넣고 있습니다. 이와 동시에, 부득불 프로세서의 동작 클럭과 동작 시간을 제한하고 있습니다. 제품 매뉴얼에서 쿼드코어 1.7GHz 같은 글귀를 보신 적 있으시겠지요. 하지만 실제로는 그만한 성능에 절대로 도달하지 못할 것이란 이야기입니다. 이 점을 알려주는 예는 많습니다. 넥서스 4를 냉장고에 넣자 성능이 30% 늘었다느니, K3V2 프로세서의 GPU 클럭이 60% 정도로 줄었다느니, 대다수 플래그쉽 스마트폰은 원래 내야 할 성능을 충분히 발휘할 방법이 없습니다.

 

4.jpg

 

아난드텍의 벤치마크에서. 넥서스 4를 냉장고에 넣자 성능이 20% 이상 늘었습니다.

 

여러 벤치마크를 보면, 현재 플래그쉽 스마트폰은 최고 클럭으로 작동할 수 있는 시간이 이껏해봤자 몇 분, 짧으면 십초입니다. 그 후엔 클럭을 떨어트려서 발열을 줄입니다. '성능이 몇 퍼센트 향상' 이런 광고를 보고, 값비싼 돈을 지불하고 '쿼드코어 1.7GHz' 프로세서가 박힌 핸드폰을 사들고 집에 와도, 그 기쁨을 누릴 수 있는 건 고작 30초 정도밖에 안된다는 겁니다. 핸드폰에 들어가있는 '강력한' 프로세서가 풀 스피드로 작동할 수 없다면, 이것은 경차에 천마력짜리 엔진을 넣은 것과 마찬가지 아닐까요?

 

아래 그래프는 그 예가 될 것입니다. LG 옵티머스 G 프로에는 강력한 스냅드래곤 600 프로세서가 들어가 있는데, 최고 부하로 3분 이상 작동하면 실제 성능은 한세대 전의 칩인 APQ8064가 들어간 엑스페리아 Z만도 떨어집니다. 더 고급이고 신형 제품인데, 실제 사용에선 가성비가 떨어지는 것이지요.

 

5.png

 

스냅드래곤 600과 APQ8064의 성능 비교. 각종 게임 성능을 테스트했습니다.

 

이렇게 말할 수도 있을 것입니다. 가격이 더 비싸지 않은데, 풀스피드를 내지 못한다고 해서 무슨 손실이 있겠냐구요. 하지만 이런 관점에는 이런 반박이 가능합니다. 핸드폰의 표기 성능을 보고 돈을 지불한 것이지, 실제 성능에 돈을 낸 아니라고 말입니다. 8코어 프로세서가 4코어 프로세서하고 똑같은 성능을 내고 가격이 8코어 급이라면 문제가 있지요. 하드웨어의 제조 원가는 어떤 형식으로던 간에 결국은 소비자에게 돌아오게 되어 있습니다. 문제는, 왜 우리가 써보지도 못할 성능에 돈을 내야 하냐는 것입니다.

 

이런 움직임은 2013년에도 여전히 먼 이야기처럼 보입니다. 소비자들은 자신의 입장을 좀 더 명확하게 해야 합니다. 이런 상황은 잘못된 것이라구요. 우리는 상태가 더 악화되는 걸 막아야 합니다. 우리가 돈을 낸 건 종이 위에 써진 숫자를 보기 위해서가 아니라, 그 성능을 활용하기 위해서니까요. 못하겠음 종이 위의 숫자를 바꾸던가, 아님 그게 그림의 떡이라고 말이라도 제대로 하던가.

 

 

절대장벽

 

그 어떤 기술로도 바꿀 수 없는 것이 있습니다. 스마트폰을 놓고 말하자면, 하나는 물리 법칙이고, 다라는 사람의 생리적인 요구입니다. 이 글은 스마트폰 프로세서에 대한 글이니까, 거기에만 집중해서 이야기해 봅시다.

 

한 가지 단정지을 수 있는 건, 기술만으로는 핸드폰을 바꿀 수 없다는 것입니다. 사람이 기계를 만졌을 때 받아들일 수 있는 온도는 한정되어 있습니다. 또 핸드폰은 물리 법칙에서 벗어날 수 없습니다. 일정한 온도에서 발생하는 열량은 고정되어 있다는 것이지요(쿨링팬 이야기는 하지 맙시다. 이건 핸드폰이니까). 여기에서 삶과 죽음의 갈림길이 그어집니다. 사람이 편안하게 핸드폰을 사용하려면, 우선 핸드폰의 크기를 확정해둔 후, 하드웨어의 전력 사용량을 정하게 됩니다. 혹자는 프로세서의 전력 사용량은 한게가 정해져 있고, 이를 넘으면 반드시 동작 클럭을 낮춰야 한다, 그렇지 않으면 온도 상승을 멈출 수 없을 것이다라고도 이야기합니다. 그래서 우리는 핸드폰의 최대 전력 사용량은 발열에 의해 정해진다고 선을 그을 수 있습니다.

 

6.png

 

갤럭시 S4의 발열 테스트. 실온 20도에서 사람이 편안하게 느끼는 온도는 30도, 뒷면은 빨간색, 앞면은 파란색. 위에서부터 영상 재생, 3G 인터넷, 연속 사진 촬영, 게임 실행, 대기 모드입니다.

 

오랬동안 업계에서는 습관처럼 가격과 스펙으로 제품을 평가해 왔습니다. 하지만 스펙과 성능의 관계가 사라진다면 이 스펙이란 것은 더 이상 쓸데가 없을 것입니다. 그래서 우리는 새로운 판단 기준을 세워야 합니다. 일단은 그걸 효율값이라고 불러 보죠.

 

효율값이란? 우리는 효율값을 기기 체적과 에너지 계수의 곱셉이라 정의해 보도록 하겠습니다. 이것은 핸드폰이 연속으로 제공 가능한 극한 성능을 가리키지요. 이 값과 이론 최대 성능을 합해서 평가를 하면 이런 결론을 낼 수 있습니다. 만약 시스템의 효율값이 최대 성능보다 작다면, 이 시스템은 뭔가 잘못됐다는 거. 왜냐하면 성능을 낭비하고 있으니까요. 반대로 효율값이 최대 성능보다 크다면 이 시스템은 성능이 충분하지 않다는 의심을 사게 됩니다. 가장 이상적인 상황은 효율값과 최대 성능이 같은 것입니다. 이것은 해당 시스템이 자신의 성능을 전부 발휘할 수 있고, 이를 극한까지 뽑아낼 수 있도록 설계됐다는 거니까. 이 효율값을 간단히 설명하면 '1와트 당 성능'이라고 말할 수도 있을 겁니다.

 

7.jpg

 

어떤 핸드폰이건, 특정 시간 안에 배출할 수 있는 열량은 한정되어 있습니다.

 

핸드폰의 절대 성능을 측정하는 건 간단합니다. 따라서 효율값에서 가장 중요한 건 '몸체'입니다. 즉 핸드폰의 크기에 용납 가능한 최대 출력 말입니다. 이 부분은 명확한 업계 표준이 없으니 일단 가설을 세워 봅시다. 먼저 우리의 가설은 일정한 시간 동안, 핸드폰은 케이스를 통해 열을 배출합니다. 컴퓨터처럼 쿨링팬 같은 걸 쓰는 게 아니라요. 다음으로, 사람은 온도가 40도까지 올라갔을 때는 괜찮다고 여기지만, 50도쯤이 되면 견디기가 힘듭니다. 마지막으로, 핸드폰이 작동하는 환경의 온도-실온은 25도 정도이고, 공기의 흐름은 없다고 쳐 봅시다.

 

8.gif

 

자연 대류에 의해 뜨거운 공가기 뜨거워진 판 위로 올라가고, 양 옆에서 차가운 공기가 유입되는 중.

 

바깥 공가기 움직이지 않는 경우, 핸드폰의 열량은 공기의 자연 대류와 핸드폰 자체의 복사에 의해 공기로 발산됩니다. 핸드폰의 온도가 사람이 맨손으로 잡아 쓸 수 있는 한계인 45도라고 가정하면, 그럼 주변 환경과의 온도 차이는 20도지요. 핸드폰의 크기를 놓고 볼 때 네 모서리에서 발산되는 열은 무시해도 좋을 정도입니다. 열이 배출되는 곳은 핸드폰의 앞부분과 뒷부분이지요. 핸드폰을 수직으로 놨다고 가정했을 때 이야기입니다만.

 

그럼 이제 계산을 해 봅시다. 먼저 방출하는 열량을 계산해야 하는데, 여기선 아이폰 5를 예로 들어 봤습니다. 아이폰 5의 크기는 123.8x58.6x7.6mm로, 아이폰의 정면 면적은 0.0073제곱mm가 됩니다. 수직으로 놨다고 가정했을 때, 아이폰 5의 정면 열전달 계수는 4.65W/(m2•℃)며, 이것은 한쪽 표면에서 발산하는 열량이 0.68W라는 이야기가 됩니다. 핸드폰은 양면이니까, 단순히 합하면 1.36W가 되겠네요. 모서리에서도 배출한다고 치면 1.5W라고 말할 수도 있을 겁니다.

 

9.jpg

 

다음은 복사열입니다. 아이폰 5의 케이스 재질은 알루미늄 합금과 유리인데, 산화 알루미늄 합금의 복사율은 대략 0.3 정도이고 유리는 0.85 정도입니다. 그러니까 전체 복사율은 0.6 정도라고 가정할 수 있겠는데요. 그럼 케이스 바깥 부분의 온도가 45도일 때, 복사로 분산되는 열량은 1.16W라는 계산이 나옵니다.

 

이 말은, 아이폰의 온도가 45도일 때 수직으로 놔 두면, 실온 25도인 환경에서 2.66W의 열량을 날려버릴 수 있다는 이야기가 됩니다.

 

실제 환경에서, 사용제 체험을 고려해 본다면, 핸드폰은 균일하게 열을 발산해 내지 못합니다. 따라서 핸드폰의 열 발산 능력을 계산보다는 낮춰 잡아야 하지요. 하지만 사람의 손과 맞닿은 부분에서도 어느 정도의 열은 발산이 됩니다. 그러니 이 점은 일단 넘어가자구요. 정리해보면 대충 2.66W가 아이폰 5가 감당 가능한 최대 전력 출력(여기서 말하는 건 프로세서가 아니라 핸드폰 전체입니다. 안테나 말고 다른 부품들은 다 열을 내니까요)이란 소리가 됩니다.

 

다음에는 갤럭시 S4를 봅시다. 계산 방식은 위에서 했던 그대로니까 다시 설명하진 않겠습니다. 다른 점이라면 갤럭시 S4의 케이스는 플라스틱이라는 것. 열복사 효율이 알루미늄 합금인 아이폰 5보다 훨씬 높은 0.9 정도입니다. (플라스틱 케이스의 또 다른 장점이지요) 어쨌건 그리하여 나온 결론은 갤럭시 S4가 동일 조건에서 발열량이 4.15W라는 것입니다.

 

갤럭시 S4는 플래그쉽 안드로이드의 대표입니다. 그러니까 크기가 더 크다는 건 여기서 말할 필요도 없겠지요. 결과는 매우 쉽게 알 수 있습니다. 아이폰5 정도의 크기를 지난 핸드폰에선 시스템의 극한 출력이 2.66W가 되지만, 갤럭시 S4의 크기를 지닌 제품에선 4.15W가 됩니다. 크기가 다르니까 열 배출 능력도 차이가 나는 것이지요. 사실 크기에 대한 이야기를 할 필요도 없습니다. 왜냐면 핸드폰의 크기는 기술에 따라서 바뀌고 자시고 할 성질이 아니거든요. 그러니까 우리는 여기서 기술과 가능성만 가지고 이야기를 해 보도록 합시다.

 

그럼 정리해서, 5인치 핸드폰에게 있어 우리가 얻을 수 있는 최대 성능은 4.15W x 1와트 당 성능이라는 결론이 나옵니다. 그 핸드폰의 이론적인 최대 성능이 얼마나 크건 간에 말입니다. 왜냐하면 발열을 해소할 수 있는 수준이 그 정도밖에 안되니까. 바꿔 말하면, 5인치 핸드폰의 전체 열 배출량이 4.15W를 넘어서면, 그 핸드폰은 성능을 제대로 발휘할 수 없다는 이야기도 됩니다.

 

10.jpg

 

한걸음 더 나가서, 한 대의 핸드폰을 두고 보면, 스크린이 차지하는 전력은 4인치가 1.2W고 5인치가 1.8W로 다양합니다. 따라서 우리는 이런 결과를 얻어낼 수 있습니다. 스크린 같은 부품을 빼고, CPU, GPU, 메모리 등 계산을 담당하는 부품만 따지고 본다면, 아이폰 5 정도 크기의 핸드폰은 1.5W 정도가 한계이고, 크기가 더 큰 갤럭시 S4는 2.5W 정도를 계산 부품에 할당할 수 있다는 것을요.

 

여기서 설명이 좀 필요한데, 열량을 계산할 때 우리가 염두에 두고 있는 대상은 핸드폰의 바깥 표면이라는 것입니다. 내부에서 열이 어떻게 전달되건 그것은 결과에 영향을 주지 않습니다. 이런 의문이 들 수도 있겠지요. 어떤 핸드폰은 히트파이프를 넣었다느니, 어떤 핸드폰은 그라파이트 서멀 패드를 넣어서 열을 더 잘 해결한다느니 운운 하는 것들 말입니다. 이것은 틀렸습니다. 열의 배출을 보조하는 조치는 핸드폰 내부의 열 전도 효율을 늘려줄 뿐, 최종 효과는 핸드폰 전체의 온도 균일성을 높이는 데에서 비롯되는 것입니다. 사실 아까 계산을 할 때 온도가 매우 균일하다고 가정을 했고, 내부 열 전달도 매우 완벽한 상황이라고 가정을 했지만서도.

 

11.jpg

 

그럼 이제 스마트폰의 코어 수 늘리기 경쟁이 가지고 온 문제에 대해 명확한 결론을 내릴 때가 됐습니다. 최근 핸드폰의 스펙은 미친듯이 향상되고 있으며, 이것은 핸드폰의 최대 성능이 효율값을 넘어서는 현상을 초래하고 있습니다. 이런 전제조건 하에, 이론적으로 낼 수 있는 성능이 얼마나 뛰어나건 그건 전부 쓸데가 없습니다. 왜냐하면 열 설계 전력이 절대장벽으로 작용하고 있거든요. 물론 우리도 앞으로 스마트폰의 성능이 더 향상되길 바라고 있지만, 그러려면 성능 향상이 아니라 발열과 전력 해소를 위해 많은 노력을 해야 할 것입니다.

 

이야기가 길었죠? 그럼 지금 시장에 나온 주류 프로세서를 봅시다.

 

 

퀄컴 스냅드래곤 800

 

가장 먼저 퀄컴부터 봅시다. 퀄컴을 제일 먼저 고른 이유는, 퀄컴 제품의 변화가 상대적으로 가장 작기 때문입니다. 그래서 고전적인 데이터를 참조할 게 가장 많거든요. 얼마 전만 하더라도 퀄컴의 최신 제품은 스냅드래곤 S4 프로 APQ8064였습니다. 지금은 퀄컴이 제품 라니업을 바꿔, S4 프로는 스냅드래곤 600이란 후임자가 생겼지요. 이 칩은 APQ8064와 차이점이 매우 적습니다. 가장 많이 달라진 점이라면 메모리가 듀얼채널 LPDDR2 533MHz에서 듀얼채널 LPDDR3 1066MHz로 바뀌었다는 것입니다. 따라서 우리는 이 칩에 대해 자세한 설명을 하지 않겠습니다.

 

퀄컴은 올해 하반기-혹은 내년 초에 스냅드래곤 800을 우두머리로 내세울 것입니다. 개선된 Krait 400 코어를 쓰는데, 주요 변화라면 내부 캐시 아키텍처를 조정하고, 비동기 설계가 가져다주는 부작용을 줄였다는 점이 있습니다. 동시에 스냅드래곤 800은 HPM 공정을 도입해 클럭을 2.3GHz까지 높였습니다. 핸드폰의 SoC 중 처음으로 2Ghz를 넘는 제품이 된 셈입니다. 또 Adreno 330 GPU를 넣어 그래픽 성능을 다시 한번 배로 높였습니다.

 

12.jpg

 

스냅드래곤 800의 코어 사진

 

이 글의 앞부분을 보신 분들이라면, 이미 요 바로 위에 써진 문구들에 현혹되지 않으실 겁니다. 여기서 다시 한번 강조하자면, 절대 성능은 지금 큰 의미가 없습니다. 사용자 체험을 결정하는 건 효율값, 혹은 와트 당 성능이라구요. 그럼 스냅드래곤 800의 와트 당 성능은 변했을까요? 

 

먼저 CPU 부분을 봅시다. 캐시가 강화됐으니, Krait 400 코어의 실행 효율은 어느 정도 향상된 것이 당연합니다. 하지만 Krait 코어는 본질적으로 기능을 늘린 Cortex-A9에 불과합니다. 이 코어의 가장 큰 문제는 명령어 큐의 부족이며, 이 때문에 IPC가 어느 정도 제한을 받게 됩니다.

 

Krait의 백 엔드 규모는 거대한 공장처럼 보입니다. 또 지금도 계속 업그레이드 중이지요. Krait의 프론트엔드는 작은 어촌을 큰 항구로 늘린 모양세지만, 그 사이를 연결하는 길은 여전히 딸랑 한개밖에 없습니다. 이런 아키텍처는 이론적인 성능 테스트에서 상당히 높은 성적은 내지만, 실상은 그렇지 않습니다. 변화무쌍한 앱의 코드 앞에선 효율을 제대로 낼 수가 없습니다. 일부 테스트에 의하면 동영상 디코딩, 파일 압축과 압축 해제 등의 작업에서, Krait 300은 같은 클럭의 Cortex-A9나 A7보다도 못한 성능을 보이기도 했습니다. 물론 이것만 가지고 Krait 300의 아키텍처 문제라고 결론을 내릴 순 없겠지만, 최소한 문제가 있음을 설명할 순 있을 것입니다.

 

13.jpg

 

파일 압축 속도 테스트. 스냅드래곤 600의 Krait 300 코어는 같은 클럭의 Cortex-A7보다도 성능이 떨어집니다.

 

그러니까 종합적으로 보면 Krait 시리즈 코어의 전력 사용량은 비관적인 결론을 낼 수밖에 없습니다. 상편에서도 비슷한 결론을 냈었고 여기서도 한가지 결론이 나오네요. APQ8064의 실행 효율은 Cortex-A9만 못하며, Krait 400 코어는 비록 두 번의 업그레이드를 거쳤지만, Krait 300의 실제 표현을 보면 실행 효율이 A9보다 약간 높은 수준에 머무르고 있습니다. 이 말은 Krait 400 아키텍처의 효율도 Cortex-A9보다 그렇게 많이 앞서는 게 아니란 이야기도 됩니다.

 

그럼 제품 효율은 어떨까요? 그 전에 화제를 잠깐 다른 데로 돌리고자 합니다. 이미 발견하셨는지 모르겠지만 우리가 효율을 비교할 때는 전부 Cortex-A9를 기준으로 삼았습니다. 좀 더 정확하게 말하자면 삼성 엑시노스 4412하고 비교했지요. 왜 이걸 기준으로 삼았냐구요? 이건 삼성을 편애해서 그런 게 아니라 간단한 원인이 있어서 그렇습니다. 그건 바로 아까 말했던 핸드폰의 극한 전력 사용량에 대한 정의 때문입니다. 이러한 전력 제한이 존재한다는 조건 하에, 엑시노스 4412의 효율값과 절대 성능의 차이는 상당히 적은 편이거든요. 엑시노스 4412의 코어는 1.4Ghz로 작동할 때 코어 한 개의 전력 사용량은 440mW고 1.6GHz는 600mW입니다. 모든 코어의 전력 사용량은 1.8W와 2.4W입니다. 그래서 엑시노스 4412는 매우 좋은 표준이 됩니다. 만약 어떤 제품의 효율이 4412보다 높다면, 4412보다 더욱 뛰어난 성능을 발휘한다는 것이고, 그렇지 않다면 클럭을 낮춰 작동하는 경우가 많다는 이야기가 되니까요.

 

14.jpg

 

아난드텍의 테스트 결과입니다. 스냅드래곤 S4 APQ8064의 코어 한 개가 먹는 전력은 700mW 정도 됩니다.

 

퀄컴은 스냅드래곤 800 시리즈 외의 제품에 28LP SiON/Poly 공정을 사용합니다. 이 공정은 누설 전류가 비교적 커서 에너지 전화 효율이 낮습니다. 상편에서 우리는 아난드텍의 결론을 인용해 이런 이야기를 했지요. 28LP 공정의 스냅드래곤 APQ8064는 1.5GHz로 작동할 때 코어 한 개당 전력 사용량은 700mW라고.

 

스냅드래곤 800에서 퀄컴은 선진 HKMG 기술을 도입해 공정을 28HPM으로 바꿉니다. 그럼 이 공정은 스냅드래곤 800의 효율을 높여주었을까요? TSMC가 28HPM 공정에 대해 설명한 것을 참고하면, 우리는 그 답이 비관적인 편임을 알 수 있습니다. 왜냐하면 28HPM의 본질은 성능을 높이기 위한 공정이며, 그 주요 목적은 28LP를 쓴 스냅드래곤 600이 도달하지 못했던 높은 클럭까지 스냅드래곤 800을 끌어올리기 위한 것이기 때문입니다. 프로세서의 누설 전류 감소와는 별 상관이 없다는 것이지요.

 

15.jpg

 

TSMC의 4종 28나노미터 공정의 비교

 

조잡하게 계산해보면, 2.3GHz로 작동하는 Krait 400 코어는, 클럭이 상승하면서 코어 한 개의 풀로드시 전력 사용량도 1W를 넘어갈 것이고, 쿼드코어의 총 전력 사용량을 계산하면 2.5W를 넘기게 됩니다. 낮은 클럭으로 작동할 때도 스냅드래곤 800의 전력 사용량은 스냅드래곤 600보다 높을 것입니다. 하지만 전체적으로 봤을 때 스냅드래곤 800의 CPU 부분 전력 전환 효율은 Cortex-A9보다 대폭 앞선다고 보기 어렵습니다. 이 말은 스냅드래곤 800의 효율값이 최대 성능보다 많이 뒤떨어진다는 이야기도 되지요.

 

앞서 분석한 것에 따라, 스냅드래곤 800 스마트폰을 장시간 사용할 경우 성능은 Cortex-A9보다 썩 많이 뛰어난 편은 아니라는 걸 알 수 있습니다. (단시간 사용할 경우, 예를 들어 벤치마크의 경우에는 기기가 열을 커버할 수 있는 범위까지는 성능이 대폭 상승하지만, 그것도 1~3분 정도이며 그 후에는 Cortex-A9 수준으로 성능이 떨어지게 됩니다.)

 

16.jpg

 

17.jpg

 

모니터링 툴로 스냅드래곤 APQ8064의 CPU 클럭 변화를 봤을 때. 2분이 지나자 CPU 클럭은 1GHz 이하로 떨어집니다.

 

18.jpg

 

모니터링 툴로 스냅드래곤 600의 CPU 클럭 변화를 체크한 것. Krait 300 코어는 풀 스피드를 유지할 수 없습니다.

 

그럼 GPU 쪽은 어떨가요? 이 문제는 CPU보다 더 심할 수 있습니다. 퀄컴 Adreno 300 시리즈 GPU가 전력 효율이 매우 낮다는 건 온 세상 사람들이 다 알고 있는 문제이며, CPU를 심각하게 뛰어넘는 수준입니다. GPU는 CPU와 비교했을 때 클럭이 낮고 대규모 회로를 갖췄습니다. 따라서 CPU보다 누설 전류에 민감하며, 클럭 변화가 전력 사용량에 주는 영향은 CPU보다 작습니다. 스냅드래곤 800에 들어간 Adreno 330의 회로 규모는 ADreno 320보다 두배로 올랐고, 전력 사용량 역시 그만큼 늘어났을 것입니다. Adreno 330이 HPM 공정을 쓰면 전력 사용량 증가 문제를 벗어날 수 있을 거라 가정해 보겠지만요.

 

이 문제에 대해서도 조잡한 측정과 판단밖에 할 수 없겠네요. 갤럭시 S4와 스냅드래곤 600을 탑재한 스마트폰은 3D마크에서 비슷한 성능을 냅니다. 하지만 전력 사용량을 측정해 보면 갤럭시 S4의 SGX544MP3 GPU의 전력 사용량은 Adreno 320의 15%나 그보다 더 낮습니다. 바꿔 말하면 SGX544MP3의 전력 전환 효율은 Adreno 330의 7배에 달한다는 이야기입니다. 조잡한 테스트 결과에 의하면 Adreno 320의 전력 사용량은 최대 6W에 달하는 것으로 나왔는데, 설령 이 숫자가 틀렸다고 해도 Adreno 320이 이미 2.5W의 제한은 넘어선 지 오래고 4.15W의 한계에 도달했다는 이야기는 됩니다. Adrneo 330이 성능이 두배로 늘어나고 전력 사용량은 그대로 유지한다고 한들, CPU와 마찬가지로 실제 사용 시엔 자신의 최대 성능을 '영원히' 발휘할 수 없다는 것입니다. 그 효율값이 이론 최대 성능보다 너무 떨어지기 때문에요.

 

19.jpg

 

정리하자면, 우리는 스냅드래곤 800에 대해 비관적인 예측을 할 수밖에 없습니다. CPU의 경우, 스냅드래곤 800을 쓴 제품은 사용자에게 쿼드코어 Cortex A9를 넘는 성능을 제공할 수 없습니다. 광고나 벤치마크, 스펙 말고 실제 체험 말이에요. GPU의 경우 SGX544MP3보다 훨씬 부족합니다. 이론적으로는 얼마나 강력하건 간에 그 성능을 다 쓸 방법이 없다는 겁니다. 스냅드래곤 800은 전력 전환 효율을 향상시키지 않았기 때문에, 스냅드래곤 800을 쓴 제품은 그 효율값이 '대외적으로 선전하는 성능'보다 너무 떨어집니다. 결론은, 소비자들은 어마어마한 숫자를 보고 제품을 구입하겠지만, 그 종이에 써진 숫자를 체험할 일은 없을 거란 이야기입니다. 아, 벤치마크를 돌릴 때는 볼 수 있겠네요.

 

 

테그라 4와 테그라 4i

 

비록 모두 테그라 4라는 이름을 붙이고 있긴 하지만, 실제로 테그라 4와 테그라 4i의 코어는 같은 것이 아닙니다. 전자는 Cortex-A15에 속하고 후자는 Cortex-A9를 개선한 것이지요. 여기선 후자에 대해선 많이 설명하지 않고, 테그라 4에 대해 집중하겠습니다.

 

20.jpg

 

21.jpg

 

테그라 3와 마찬가지로 테그라 4는 NVIDIA가 자체 설계한 vSMP 4+1 기술을 사용합니다. 따라서 테그라 4의 효율을 분석할 때는 두 부분으로 나눠야 합니다. 4코어 부분과 컴패니언 코어 부분으로 말이지요.

 

먼저 4코어 쪽을 봅시다. 테그라 4의 모든 코어는 전형적인 Cortex-A15 아키텍처이고 제조 공정은 TSMC 28HPL을 사용했습니다. 그래서 이 부분은 분석을 위한 매우 좋은 비교대상을 찾을 수 있지요. 바로 넥서스 10에 들어간 엑시노스 5250입니다. 엑시노스 5250은 듀얼코어 Cortex-A15, 32나노 HKMG LP 공정을 쓰며 클럭은 1.7GHz입니다. 현재 나온 테스트 결과에 의하면 엑시노스 5250의 CPU 전력 사용량은 4W이며 이 말은 싱글코어의 전력 사용량이 2W라는 이야기입니다. 이것은 엑시노스 4412가 각각 4440/600mW였던 것에 비하면 상당히 큰 숫자지요. 또 Cortex-A15의 성능이 Cortex-A9의 네배는 되야 효율이 맞다는 이야기도 됩니다. 그럼 NVIDIA는 그렇게 했으려나요? 매우 뻔하고, 유감스럽게도, 그렇지 않습니다. Cortex-A15의 성능 향상은 전력 사용량 증가율을 따라가지 못합니다. Cortex-A15의 1와트 당 성능은 Cortex-A9의 절반 이하입니다.

 

22.jpg

 

A15 아키텍처의 엑시노스 5250은 CPU 코어 한 개의 전력 사용량이 2W에 달합니다. 아난드텍의 테스트 결과입니다.

 

그럼 다시 테그라 4로 돌아가 봅시다. 코어는 같은 걸 쓰지만 제조 공정은 다르지요. TSMC 28HPL과 삼성 32나노 HKMG LP를 비교해 보면 성능과 누설전류가 향상됐다고 판단하기가 매우 어렵습니다. 하지만 두 공정은 동일 세대에 속하면 동일 수준의 공정이지요. 그래서 수준 차이가 그리 크진 않을 것이라고 생각해 봅니다. 그러니 TSMC의 28LP 공정의 전력 사용량이 삼성보다 30% 줄었다고 가정해 보죠. 이 정도만 해도 동일 세대 공정에서 나올 수 있는 가장 큰 차이면서도, Cortex-A15와 Cortex-A9의 200% 가까운 차이에는 못 미치지만. 게다가 테그라 4가 클럭이 1.9GHz라면 클럭을 낮춰야만 전력 사용량이 코어 당 2W보다 낮을 것입니다. 이게 말하는 건 오직 1개의 코어만 작동할 때, 테그라 4의 전력 사용량은 이미 4인치 스마트폰의 열 설계 상한에 도달한다는 것이며, 4개의 코어가 동시에 작동한다면 CPU 부분의 전력 사용량만 따져도 가볍게 8W를 돌파한다는 이야기입니다.

 

23.jpg

 

테그라 4의 전력 사용량이 크다는 건 NVIDIA도 알고 있습니다. 그래서 쉴드에 쿨링팬도 달았지요.

 

에너지 전환 효율이 이렇게 낮다면, 기술이 어떻게 바뀌었고, 이론 성능이 얼마나 상승했으며, 어디가 어떻게 업그레이드됐다 하는 이야기가 별 쓸데가 없게 됩니다. 스마트폰에서, 테그라 4의 쿼드코어 Cortex-A15를 장시간 사용한다고 가정했을 경우, 매우 극소수의 상황을 제외하면 아주 잘 설계된 쿼드코어 Cortex-A9보다 높은 성능을 내지 못할 것입니다.

 

그럼 컴패니언 코어 쪽은 어떨까요? NVIDIA는 이 코어의 자세한 정보를 발표하지 않았습니다. 이게 1GHz로 작동한다고 가정하고, HPL 공정은 누설 전류가 낮으니까 이 코어의 전력 사용량이 0.6W까지 줄어들 수 있다고 칩시다. 그럼 1.6GHz로 작동하는 Cortex-A9와 같은 수준이네요. 이 작동 조건에서 Cortex-A15의 전력 효율은 Cortex-A9와 비교적 가깝습니다. 따라서 효율값 역시 비슷하지요. 하지만 이 때 테그라 4의 절대 성능은 쿼드코어 Cortex-A9의 1/4밖에 안됩니다. 효율값이 절대성능보다 훨씬 높다는 겁니다. 이것은 이 때 테그라 4의 성능이 너무 느려 사용자의 요구를 만족시키지 못한다는 이야기가 됩니다.

 

24.jpg

 

컴패니언 코어의 전력 사용량을 줄이려면 반드시 낮은 클럭에서 작동해야 합니다.

 

종합해서 보면, 테그라 4는 어떤 상황애서건 최대 성능이 쿼드코어 Cortex-A9를 넘기 힘듭니다. 이 프로세서를 쓴 핸드폰의 유일한 장점이라면 풀로드 상태로 3분 동안은 기가 막힌 벤치마크 점수를 뽑아낸다는 것입니다. 슈퍼카로 출퇴근을 하는 것과 비슷하다고 보면 되겠네요. 멋있긴 하지만 실용적이진 않은.

 

테그라 4의 GPU 부분도 알려진 자료가 매우 적습니다. 그래서 분석을 하기 힘드네요.

 

물론 우리는 잘 알고 있습니다. 테그라 4에 대해 이런 비극적인 결론을 내리는 건, 테그라 4의 잘못이나 NVIDIA의 기술 부족에서 비롯된 것이 아니라는 것을요. 원흉은 바로 Cortex-A15 코어의 효율이 나쁘다는 데 있습니다. 이것은 NVIDIA뿐만 아니라 Cortex-A15 아키텍처를 쓴 다른 프로세서에도 모두 적용되는 것입니다. 핸드폰을 비롯한 모바일 기기에 한정지어 보면, Cortex-A15는 실패한 설계라고 보여집니다. 퀄컴과 애플이 일찌기 몇 년 전부터 이 아키텍처를 포기하고 Cortex-A9를 기반으로 삼아 자신의 코어를 강화하고 있는 것도 그리 이상한 것은 아닙니다. 이를 다른 방면에서 보면, 최소한 현재 볼 수 있는 ARM 제품 중에서 Cortex-A9는 여전히 최강의 '실제 성능'을 내는 제품이라는 겁니다. 나온지 2년이 넘었지만 말이에요.

 

25.jpg

 

마지막으로 테그라 4i 이야기를 합시다. NVIDIA가 이 제품을 계획했다는 건, NVIDIA 스스로가 이미 Cortex-A15가 어떤 코어인지를 매우 잘 알고 있기 때문이라 생각됩니다. 따라서 우리는 이렇게 이해할 수 있습니다. 테그라 4i야말로 스마트폰 시장의 고성능 제품을 담당하는 것이라고. 개선된 Cortex-A9 r3p1 코어는 전력 사용량이 같다고 가정했을 때 최대 15%의 성능 향상 효과를 가져오며, 이것은 더 높은 효율값과 실제 성능을 가져다 줍니다. 하지만 테그라 4i는 스냅드래곤 800과 같은 HPM 공정을 사용했고, 거기에 내장되는 베이스밴드의 인증 문제 때문에 2013년 안엔 출시될 수 없습니다. 이것은 테그라 4i와 NVIDIA에게 있어 매우 안 좋은 일입니다. 특히 Cortex-A12가 그 모습을 드러내고 있는 지금은 더더욱 그렇습니다. 무엇을 Cortex-A9로 정통 후계자로 봐야 하느냐, 이 부분에 대해서는 나중에 설명하죠.

 

 

삼성 엑시노스 5 옥타

 

그럼 마지막으로는-이 글은 아직 한참 남아 있긴 하지만- 기술적으로 제일 복잡하고, 동시에 제일 말도 많은 삼성 엑시노스 5 옥타(엑시노스 5410)에 대해 봅시다. 이 칩의 가장 큰 특징은 ARM의 big.LITTLE 기술을 써서 내부에 8개의 코어를 넣었다는 것입니다. Cortex-A15 네개, Cortex-A7 네개요. 이것은 스마트폰에서 처음으로 쿼드코어를 넘어선 시스템이라 말할 수 있겠습니다.

 

26.jpg

 

그럼 이렇게 반문할 수도 있을겁니다. NVIDIA의 테그라 3와 테그라 4는 실제로 5개의 코어를 갖고 있는데, 왜 그건 5코어 SoC로 취급하지 않느냐고. 원인은 간단합니다. 테그라의 컴패니언 코어는 4개의 메인 코어 중 하나의 역할을 대체하는 것으로, 실제 작업에선 컴패니언 코어를 식별해 내지 못합니다.

 

하지만 엑시노스 5 옥타는 다릅니다. 이 8개 코어는 일부 상황에선 동시에 작동이 가능합니다. 그래서 8코어 SoC라고 부를 수 있는 것입니다. 비록 실제 상황에선 이런 8코어 동시 작동이 그렇게 자주 볼 수 있는 현상은 아니고, 이 점 때문에 엑시노스 5 옥타가 8코어 프로세서가 맞기는 하냐 이런 말을 듣는 거지만요. 엑시노스 5 옥타를 둘러싼 제일 뜨거운 논쟁거리에 대해선 나중에 다시 설명하죠.

 

27.jpg

 

big.LITTLE 아키텍처

 

big.LITTLE만 빼면 엑시노스 5 옥타는 본질적으로 매우 전형적인 프로세서라 말할 수 있습니다. 표준 Cortex-A15 코어, 표준 ARM 시스템 IP, 지원 스펙과 시스템 셋팅은 삼성 스타일 그대로, 상급에 속하지만 최상급은 아닙니다. LPDDR3-1600 메모리 지원은 12.8GB/s의 대역폭을 내는 데 스마트폰 SoC 중에선 상당히 뒤어난 것입니다. PowerVR SGX544MP3는 533Mhz의 높은 클럭으로 작동하며, 테그라 4의 실력은 일단 논외로 친다 하더라도, ARM 업계에서 3위 안에 드는 성능을 냅니다. 아이패드 4의 SGX544MP4와 스냅드래곤 800의 Adreno 330 다음으로 3등이란 소리죠.

 

제조 공정의 경우 삼성은 자사의 최신 28나노 HKMG LP 공정을 썼습니다. 삼성의 자료에 의하면 32나노 HKMG와 비교해서 28나노 HKMG는 밀집도가 더 늘어나, 단위면적 당 집적되는 트랜지스터가 더 늘어나는데, 그 상승폭이 35% 정도 된다고 합니다. 누설 전류 등의 제조 공정 성능의 경우 이전 세대인 32나노 HKMG, 다시 말해서 엑시노스 4412와 큰 차이가 있을 것으로 봅니다. 그 원인은 상편에서 이야기했지요. 삼성 32나노 HKMG는 매우 뛰어난 성능을 갖춘 공정이고, 엑시노스 5 옥타의 기본 수준을 보장해주는 것입니다.

 

28.jpg

 

그러나 앞서 말한대로, Cortex-A15 자체가 스마트폰에 쓰기에 썩 좋은 아키텍처는 아닙니다. 스마트폰에 적용했을 경우 전력 사용량의 문제를 피해갈 수 없으며, 삼성 역시 예외는 아닙니다. 엑시노스 5 옥타의 최고 클럭은 현재 정확산 설명이 나와 있지 않지만, 1.7~1.9GHz 정도로 보입니다. 그러나 우리가 알기로는 갤럭시 S4에 쓰인 엑시노스 5 옥타의 최고 클럭은 1.6Ghz 정도입니다.

 

1.6GHz의 표준 Cortex-A15 코어는 풀로드에서 못해도 1.8W 정도는 먹습니다. 삼성은 대량의 최적화를 거쳤다고는 해도 엑시노스 5410 쿼드코어 A15의 총 전력 사용량은 6W에 육박합니다. 이미 2.5W와 4.15W의 상한선을 크게 넘어버린 것이지요. 실제 사용에서 이를 판단할 수 있는 가장 좋은 사례는, 갤럭시 S4의 CPU가 풀로드로 작동할 수 있는 시간이 10초 정도이며, 그 후에는 코어 온도가 90도를 돌파하고 바로 Cortex-A15 코어를 꺼버린다는 것입니다.

 

엑시노스 5 옥타는 시장을 선도하는 제품입니다. 삼성이 이를 설계했을 때는 시장의 수요를 파악하는 것을 최우선으로 했지요. 이 정도 규모의 하드웨어가 안전하게 작동할 수 있는지는 별로 신경쓰지 않고. 물론 ARM이 내놓은 big.LITTLE이 있습니다. 삼성은 이 기술을 넣었지만 그렇다고 해서 설계의 문제를 본질적으로 해결할 수 있는 건 아닙니다. 그럼 이게 아주 좋은 건 아니라 하더라도 실패라 말해야 할까요? 그건 계속해서 봅시다.

 

29.jpg

 

5초가 지나자 클럭이 떨어지기 시작합니다.

 

이제 우리는 이렇게 장담할 수 있습니다. 만약 당신이 갤럭시 S4 옥타코어를 사용하고 있다면 이렇게 느꼈을 것이라고. 엑시노스 5410 프로세서의 클럭은 실제 작동 중에 매우 불안정하게 움직이며, 표기 클럭인 1.6Ghz보다 더 낮은 클럭으로 작동한다고.

 

엑시노스 5410에서 Cortex-A15 쿼드코어의 최저 클럭은 1.2Ghz입니다. 그리고 Cortex-A7 쿼드코어의 최고 클럭 역시 1.2GHz입니다. 문제는 두 프로세서가 똑같은 클럭에서 내는 성능이 같지 않다는 것입니다. 서로 다른 아키텍처의 두 프로세서에서 클럭을 기준으로 삼아 비교를 하기가 어려운데, 삼성은 시스템 정보에서 Cortex-A7의 클럭을 실제 작동 클럭의 절반 정도로 잡아서 표시하고 있습니다. 그래서 클럭 변화를 나타내는 그래프를 보면 변동이 심해 보이지요.

 

이 말은 엑시노스 5 옥타의 클럭이 1.2GHz 이상으로 작동할 때는 Cortex-A15가 작동중이고, 600MHz로 표시될 때는 Cortex-A15가 작동을 멈추고 1.2GHz의 Cortex-A7로 바꿨다는 소리입니다. 클럭 조절이 매우 민감하기 때문에 우리는 엑시노스 5 옥타의 효율을 계산하기가 상당히 어려웠지만, 실제 작동 상황과 극한 성능을 통해 결과를 도출해 냈습니다.

 

30.jpg

 

엑시노스 5410 CPU+GPU가 풀로드로 작동할 때. 아래쪽의 클럭 변화 그래프를 보세요.

 

http://gigglehd.com/zbxe/10343693 여기에서 소개했던 테스트 결과에 따르면, 풀로드 동작 시 엑시노스 5410의 작동 상황은 이렇게 됩니다. Cortex-A15가 1.6Ghz로 6초 정도 동작하고, 1.2GHz나 1.4GHz로 클럭이 떨어진 상태로 4초 정도 유지한 다음, 1.2Ghz의 Cortex-A7로 바꿔 10초 정도 갑니다. 그리고 이 과정을 계속해서 순환입니다. 이렇게 클럭을 조절하는 목적은 온도와 전력 사용량 때문입니다. 따라서 우리는 이런 순서로 동작한다고 볼 수 있습니다. 프로세서의 평균 열 전력이 2.5W 정도니까. 만약 Cotrex-A15의 성능이 동클럭 Cortex-A9의 1.5배라면 Cortex-A7은 0.7배 정도 됩니다. 그래서 이 20초 동안 엑시노스 5 옥타가 내는 전체 성능은 쿼드코어 Cortex-A9가 1.53GHz로 작동하는 것과 비슷합니다. 이것은 엑시노스 5 옥타가 내는 최대 성능 말고, 평균 성능이 엑시노스 4412만 못하다는 소리입니다. 왜냐면 엑시노스 4412는 똑같은 2.5W의 제한이 걸려있을 때 1.6Ghz로 작동하거든요.

 

31.jpg

 

엑시노스 4412는 성능과 전력 사용에서 균형을 아주 잘 잡은 스마트폰 프로세서입니다.

 

물론 이 결론은 추측이 많이 들어가 있습니다. 우리는 벤치마크를 돌렸을 때 오리온 5 프로세서의 CPU 클럭 변화만 알 수 있었고, 실제 사용에서는 이와 다른 상황이 나타날 수 있으니까요. 그러나 하나는 확실합니다. 그것은 엑시노스 5410이 스마트폰에 장착됐을 때 낼 수 있는 성능이 실제 스펙보다 매우 낮다는 것입니다. Cortex-A7과 Cortex-A15의 효율을 합치면 Cortex-A9와 비슷비슷하다는 거지요. 이 말은 엑시노스 5 옥타를 장착한 기기의 효율값이 엑시노스 4412보다 높지 않다는 것입니다.

 

32.jpg

 

물론 이것을 엑시노스 5 옥타가 최적의 상황에서 동작하는 것이라 말할 순 없습니다. ARM의 big.LITTLE은 3가지 종류의 작동 모드가 있는데, 클러스터 마이그레이션,  CPU 마이그레이션, 멀티 프로세싱이 그것입니다. 클러스터 마이그레이션은 Cortex-A15와 Cortex-A7 사이에서 작업을 1대 1로 이전하는 것으로 두 코어가 동시에 작동할 순 없고, 작동하는 코어의 수는 시스템에 걸린 부하에 따라서 결정됩니다. CPU 마이그레이션은 Cortex-A15 쿼드코어와 Cotex-A7 쿼드코어 의 두 조합을 비대칭 형식으로 작업 전환하는 것입니다. 외부 버스의 비동기 모드에 의존하면 8개의 모든 코어를 쓸 수 있지요. 세번째 방법은 제일 흥미가 가는 것으로, 각각의 !5와 A7을 묶는 것입니다. 그래서 하나의 단독 프로세서로 취급을 하는 것이지요. 시스템은 이 프로세서 묶음을 단위로 삼아 작업을 전환하며, 각각의 프로세서마다 Cotex-A15와 Cotex-A7이 모두 있으니, 작업 부하에 따라 어떤 코어를 쓸 것인지를 고를 수 있습니다.

 

이론적으로 엑시노스 5 옥타는 위의 3가지 동작 모드를 모두 지원합니다. 하지만 삼성은 현재 첫번째 모드만 쓰고 있지요. 클러스터 마이그레이션 말입니다. 이것은 삼성이 이 부분의 CPU 개발 기술을 아직 완성하지 못했다는 이야기가 됩니다. (원문에는 없는 이야기지만. 이것을 삼성 탓으로만 돌릴 순 없습니다. http://gigglehd.com/zbxe/9880042 여길 참조하세요) 심지어 어떤 분석에선 엑시노스 5 옥타의 하드웨어 설계에 결함이 있으며, 앞으로 이를 수정할 것이라는 이야기까지 있습니다. 우리는 그 말이 맞기도 하고 틀리기도 하다고 봅니다.

 

왜 이렇게 말하냐구요? 우선 단순히 전력 사용량을 낮추는 건 별 의미가 없다는 전제조건이 붙습니다. 효율값을 올려야만 비로소 강한 성능을 낼 수 있기 때문입니다. 엑시노스 5 옥타를 예로 들면, 다른 두 가지 작동 모드가 전력 사용량을 낮춰줄 순 있습니다. 그러나 그것이 와트 당 성능을 높여줄 수 있을까요? 그건 아직 알 수 없습니다. 게다가 그다지 낙관적으로 볼 수 없는 부분이기도 합니다. 이유는 엔기소느 5 옥타에 들어간 두 종류의 프로세서는 L2 캐시의 크기가 다르기 때문입니다.

 

34.jpg

 

아키텍처를 보면 엑시노스 5 옥타의 Cotex-A15는 L2 캐시가 2MB이고 Cotex-A7 부분은 512KB밖에 안됩니다. 만약 Cotex-A9 시절이었다면 이건 문제가 안 됐을 것입니다. 왜냐하면 모든 L2 캐시는 모두 버스를 통해 엑세스해야 했거든요. 하지만 Cortex-A15와 A7에서 ARM은 캐시 효율을 높이기 위해 L2 캐시를 멀티코어 컨트롤러 SCU에 내장했습니다. 이 방법의 문제가 여기서 드러납니다. 일단 시스템이 동시에 Cortex-A7과 Cotex-A15을 활성화 시킨다면, 두 코어의 L2 캐시 용량이 다르기 때문에, 두 코어 사이에 연합 연산을 하기가 매우 까다롭다는 겁니다.

 

L2 캐시는 메모리의 데이터를 가져와 보관합니다. 따라서 모든 코어가 L2 캐시의 데이터를 액세스할 때 그 내용이 완전히 같아야 합니다. Cotex-A15와 Cotex-A7은 각자 독립된 L2 캐시를 가지고 있어, 두 코어가 동시에 작동할 때도 캐시의 내용은 공유가 안됩니다. L2 캐시 사이의 데이터 일관성이 변하게 되면 성능에 매우 큰 영향을 주게 됩니다. 퀄컴의 비동기 아키텍처의 성능 하락은, 일관성을 유지하는 데 많은 자원을 소모한다는 점에서 비롯되었다는 걸 잊지 마세요.

 

엑시노스 5 옥타는 A15와 A7의 l2 캐시 크기가 서로 다릅니다. 이 말은 최적의 상황에서 Cortex-A15 프로세서의 유효 L2 캐시 용량은 2MB에서 512KB로 줄어든다는 소리가 됩니다. 이것은 성능에 큰 영향을 줍니다.

 

35.jpg

 

하나의 프로세서 안에 들어 있는 A15 코어와 A7 코어의 캐시 용량이 완전히 다릅니다.

 

따라서 삼성은 오직 첫번째 방법밖에 쓸 수 없었습니다. 그 방법을 쓰면 캐시 일관성을 유지할 필요가 없이, 메모리를 통해 캐시 데이터를 복사하면 됐거든요(A7에서 A15로 복사하는 건 충분하고, A15에서 A7로 복사할 때는 512KB가 넘는 부분은 버립니다). 심지어 더 간단한 방법으로는 아예 L2 캐시의 데이터를 포기하고 새로 채워넣는 것도 있습니다. 왜냐하면 연합 작동 모드에서 필요로 하는 일관성 요구와 비교해서 보자면(클럭의 잦은 변경은 캐시의 적중율과 상관이 있습니다), 클럭을 동적으로 바꾸는 비중이 높을수록 코어 전환을 할 필요가 줄어들며, 몇 초에 백번 정도의 수준만 되도 손실을 최소화할 수 있습니다. 바꿔 말하면, 다른 두 종류의 big.LITTLE 마이그레이션 모드는 매우 좋아 보이지만, 실제 환경에서 시스템 효율은 낮은 편이며, 엑시노스 5 옥타 기기의 효율값을 낮춰 Cortex-A9보다 더 느린 성능을 낼 수도 있습니다.

 

그런 의미에서 스마트폰의 프로세서, 특히 CPU만 놓고 보면 엑시노스 5 옥타는 실제로 엑시노스 4412보다 퇴보했다고 말할 수도 있을 것입니다. 이것은 기형적인 시장의 수요에 맞춘 최선의 선택이었이죠. 매우 높은 스펙과 강대한 숫자들을 갖고 있지만 성능은 오히려 퇴보했다는 것. 이게 누구의 요구에 따른 것인지 모를 일입니다.

 

당연히 엑시노스 5 옥타가 나쁜 점만 있는 건 아닙니다. LPDDR3 지원을 추가해 메모리 대역폭을 배로 늘려 시스템의 일상 사용에서 체감 성능을 높였습니다. 따라서 전체적으로 봤을 때 엑시노스 5 옥타의 체감 성능은 앞에서 말한 것처럼 그렇게 비관적이진 않습니다. 다만 으리으리한 숫자와 체험 성능의 간격이 너무 멀리 떨어져 있을 뿐입니다. 또 다른 장점이라면 PowerVR SGX544MP3 GPU가 있겠지요.

 

36.jpg

 

컴퓨터와 마찬가지로, 스마트폰에서도 GPU에 대한 수요가 CPU를 넘어서게 됐습니다. 솔직히 말해 일반 사용에서 쿼드코어 Cortex-A7 정도만 되도 쓰는 데 전혀 문제가 없지만, 게임은 쉬지 않고 더 높은 성능을 필요로 하고 있습니다. 엑시노스 4210이 막 발표됐을 때 Mali 400 MP4는 거의 모든 게임을 만족하는 것처럼 보였습니다. 이 GPU는 속도가 빨랐고 전기도 덜 먹어 효율이 매우 높았거든요. 하지만 스마트폰 게임이 발전하면서 엑시노스 4412로는 부족한 점이 하나 둘씩 드러나게 됐습니다. 삼성이 엑시노스 5 옥타에서 GPU를 바꾼 건 때를 잘 맞춘 결정이었습니다. 엑시노스 5 옥타의 3D 성능은 현재 스마트폰 프로세서의 최고 수준에 도달했으며, 사용자들의 체험도 향상시켜 주었습니다.

 

몇몇 간단한 테스트에 따르면 엑시노스 5 옥타를 탑재한 갤럭시 S4는 3D마크를 돌릴 때 전체 전력 사용량이 2.5W를 넘지 않았습니다. 이 말은 이 GPU가 풀로드에서 1.5W를 넘지 않는다는 이야기입니다. 상당히 고무적인 결과지요. 이것은 PoweRVR SGX544MP3가 Mali 400 MP4의 에너지 효율을 유지하면서(엄격히 말하면 줄어든 거지만, 후속작인 Mali T604보단 높습니다) 최대 성능은 거의 4배 정도 높였다는 이야기니까요. 이것이야말로 사용자의 수요에 맞춘 업그레이드라 할 수 있습니다.

 

 

차세대 프로세서의 성능과 분석

 

비록 우리가 앞에서 이야기한 관점은 현재 플래그쉽 스마트폰 플랫폼이 전력 사용량 때문에 제 성능을 내지 못하며, 일상 사용에서 나아진 점을 느끼기 어렵다는 것이었지만, 벤치마크 역시 사용자의 일상 사용이라 말할 수 있을 것입니다. 뿐만 아니라 이들 칩의 상황, 실제 사용이 어찌됐건 벤치마크만 잘 나오면 빠른 것-이라는 관점은 많은 사람들이 흥미를 느끼는 부분이기도 합니다. 당연히 몇 년 전의 제품과 비교하면 지금 플랫폼의 벤치마크 결과는 갈수록 그 의미가 줄어들고 있으며, 그렇기에 여기선 그 점에 대해 깊게 설명하지 않겠습니다. 우린 그저 몇 가지 벤치마크 소프트웨어 점수로 그 제품이 얼마나 많은 잠재력이 있는지를 평가할 뿐입니다.

 

37.jpg

 

차세대 스마트폰 프로세서의 다운 클럭 문제는 매우 심각합니다. 따라서 우리는 단순한 클럭과 점수 비교만으로 평가를 내리기가 어렵습니다. 그 방법을 쓰면 실제 테스트에서 어느 정도의 클럭으로 작동하는지를 확정지을 수 없기 때문입니다. 이 문제는 스냅드래곤 800의 경우 상대적으로 작습니다. 왜냐하면 Krait 400 코어의 실제 전력 사용량은 기기의 열 처리 최고 상한과 상당히 동떨어져 있거든요. 그래서 안투투 같은 벤치마크를 돌려보면 프로세서가 간헐적으로 풀로드를 찍고, 그 상황을 1분도 채 못 채우고 다시 떨어지는 현상이 발생하는 것입니다.

 

38.jpg

 

절대로 클럭이 떨어지지 않는다는 APQ8064 프로세서. 하지만 이건 개발자 키트에서 찍은 겁니다.

 

엑시노스 5 옥타의 상황은 앞에서 이미 말했습니다. 하지만 안투투에서 풀로드 테스트를 했을 때 시스템이 안정적인 클럭으로 작동하진 않았습니다. 따라서 우리는 엑시노스 옥타가 안투투에서 1.6GHz나 1.4GHz Cortex-A15로 작동하거나 1.2GHz Cortex A7로 작동하는 비중이 각각 1/3씩 차지한다고 가설을 세웠습니다. 이것을 DIMPS의 데이터에 따라 계산해 보면 전체 성능은 1.19GHz Cortex-A15에 해당합니다. DIMPS에선 Cortex-A7의 정수 부분 성능이 동클럭 Cortex-A15와 큰 차이가 나지 않는 것으로 나옵니다. 하지만 부동소수점 부분의 성능은 차이가 크지요. 따라서 정수 부분만 놓고 보면 1.5GHz, 부동소주점만 떼어서 보면 1.19GHz입니다.

 

테그라 4는 평범한 스마트폰에서 거의 절대로 1.9GHz의 풀 스피드로 작동하기 어렵습니다. 그래서 우리는 NVIDIA 쉴드의 결과를 찾아봤지요. 쉴드는 액티브 쿨링팬을 달아 클럭이 떨어지는 것을 막았습니다. 그래서 테스트 중에도 계속 1.9GHz를 유지했습니다.

 

아래는 CPU의 정수와 부동소수점 테스트 결과를 정리한 것입니다.

 

39.png

 

안투투 벤치마크, 위쪽 4개가 부동소수점, 아래쪽 4개가 정수 성능 테스트입니다.

 

결과는 우리 예측대로였습니다. 다운 클럭만 아니라면 Cotex-A15의 절대 성능은 제일 강력했을 것입니다. 스냅드래곤 800은 최고 2.3GHz에 달하지만, 이것도 풀스피드 테그라 4에 비교할 정도는 아닙니다.

 

동시에 Cortex-A9의 대표인 엑시노스 4412와 비교했을 때, 우리는 스냅드래곤 800의 정수 성능이 클럭 차이만큼 많이 앞서진 않는다는 걸 발견했습니다. 엑시노스 5 옥타의 경우 전력 사용량-발열이 높아 원래 냈어야 할 성능을 내지 못했습니다.

 

다음은 1Mhz 당 성능을 봅시다.

 

40.png

 

안투투 벤치마크, 위쪽 4개가 부동소수점, 아래쪽 4개가 정수 성능 테스트입니다.

 

그럼 이번에는 전력 사용량과 결합해서, 1mW당 성능을 봅시다.

 

41.png

 

안투투 벤치마크, 위쪽 4개가 부동소수점, 아래쪽 4개가 정수 성능 테스트입니다.

 

이 결과는 꽤 재밌습니다. 보면 알 수 있겠지만, 테그라 4의 정수와 부동소수점 성능은 1mw당 성능이 Cortex-A9를 넘지 못합니다. 심지어 정수는 절반 정도밖에 안 되지요. 엑시노스 5 옥타의 정수 성능은 테그라 4보다 효율이 더 좋습니다. 이 공은 효율이 더 높은 Cortex-A7 코어가 작동했기 때문이지요. 뭐 A7이건, A9건, A15건 정수 연산 유닛은 모두 2개입니다. 이론적으로는 같은 클럭에서 계산해 내는 연산량엔 변화가 없습니다. 하지만 Cortex-A9에 비해 실질적인 성능 향상을 이루어 냈지요. 스냅드래곤 800의 경우 정수 성능과 전력 효율은 모두 Cortex-A9보다 떨어집니다.

 

이제 결론은 확실해졌습니다. 똑같은 전력을 쓴다는 조건 하에, 일상 사용에 가장 큰 영향을 주는 정수 성능은, 스냅드래곤 800이건 엑시노스 5 옥타건, Cortex-A9보다 더 나은 결과를 낼 수 없습니다. 물론 이건 이론적인 이야기고, 실제로 앱을 실행할 때는 프로세서 내부의 아웃 오브 오더 실행과 분기 예측 등이 개선되면서, 몇몇 신제품은 이전 세대인 엑시노스 4412보다 더 좋은 성능을 내겠지요. 하지만 우리는 앞에서 했던 말을 다시 반복해야겠습니다. 당신은 벤치마크에서 볼 수 있는 그런 엄청난 성능을 체험할 수 없을 것입니다. 테그라 4가 벤치마크에서 4만 점이 나오고, 스냅드래곤 800이 33000점이 나오며, 엑시노스 5 옥타는 비록 그 둘에 미치진 못해도 29000점이 나오는데, 엑시노스 4412는 16500점이 나옵니다.

 

42.jpg

 

이 숫자의 차이만큼의 성능은 체감할 수 없을 것이란 이야기입니다. 오직 벤치마크에서만 볼 수 있는 거라 그 소리죠.

 

전체적으로 말해서, 비록 GPU 성능이 나아졌고 메모리 성능이 높아졌다고만 해도, 그것은 새 프로세서의 성능이 전체적으로 나아졌다는 이야기는 아닙니다. 앞서 살펴봤던 3개의 제품 중, 실제 효율이 명확한 발전을 이룬 경우는 하나도 없었습니다. 이것은 비록 신제품을 광고할 때 이전 세대보다 성능이 몇% 늘었다고 광고를 해도, 실제 사용 중에 체험하게 되는 효율값은 제자리걸음을 걷고 있으며, 우리는 실제 사용에서 광고만큼 빠른 속도를 낼 수 없다는 이야기입니다. 이런 상황이 1, 2세대 계속된 건 괜찮습니다. 하지만 앞으로 줄곧 이렇게 나간다면, 소비자들은 제품에 대한 신뢰도가 떨어질 것이고, 지금의 PC시장과 같은 현상을 초래하게 될 것이며, 결국 사람들은 최신 제품을 살 의욕이 생기지 않을 것입니다. 이것은 핸드폰 제조사들이 바라는 상황은 아니죠.

 

자. 프로세서가 더 높은 효율을 내게 만들고, ARM의 기술로 이 상황을 타파하는 건 이제 한계에 달한 걸로 보입니다. 그럼 이제 남은 방법이 뭐가 있을까요? 답은 하나, 제조 공정 뿐입니다.

 

 

핵심 중의 핵심. 반도체 제조 공정

 

프로세서 마이크로아키텍처를 개선해 성능을 높이는 방법은 가장 떳떳한 방법이지만, 가장 어려운 방법이기도 합니다. 40년 전에 나온 인텔 4004부터 지금 판매 중인 코어 i7까지, IPS-클럭 당 명령어 처리-는 1에서 2로, 다시 3으로 발전해 왔습니다. 여기서 더 나가면 뛰어넘기 힘든 전력 사용량의 벽에 부딛치게 됩니다.

 

그럼 이 높은 벽을 넘어설 방법은 무엇일까요? 답은 하나, 더 나은 제조 공정입니다. ARM의 경우 더더욱 그렇습니다. 5년 전에 나온 ARM11 프로세서는 여전히 구닥디 130나노 일반 CMOS 공정을 씁니다. 최근 1, 2년 사이에는 기존 코어를 더 쥐어짜기 힘들어지게 되면서, 업계에선 점점 더 신형 공정을 써서 신형 ARM 프로세서를 만들고 있습니다. 34나노에서 32나노, 심지어 지금은 28나노까지 나왔지요. ARM 프로세서의 제조 공정 발전 속도는 PC 프로세서를 넘어섰습니다. 이런 새 공정이야말로, 최근 ARM 프로세서가 매년 200%의 속도로 발전한 원인인 것입니다.

 

43.jpg

 

하지만 제조 공정을 이야기할 때 우리는 또 다른 부분을 살펴보지 않을 수가 없습니다. 바로 한계입니다. 상상을 뒤어넘는 새 제조 공정을 응용해 우리는 상상을 뛰어넘는 성능 향상을 누릴 수 있었습니다. 하지만 제조 공정의 발전은 무궁무진한 것이 아니며, 이미 우리는 제조 공정의 한계에 가까워지고 있습니다. 전통적인 공정의 한계는 새 기술과 새 방법을 발명해서 돌파할 수 있지만, 제조 공정의 한계 뒤에는 물리 법칙이 있습니다.

 

28나노미터 이후엔 트랜지스터의 크기가 작아져, 물리 법칙을 다시 고려해야만 그 물리적인 성질을 파악할 수 있습니다. 반도체 공정의 선폭이 20나노미터 이하로 줄어들면, 집적 회로의 일부 구조가 양자 세계의 범주에 들어가게 되는데, 지금 파악된 물리학으로는 제조 공정에 활용할만한 답안을 얻을 수가 없습니다.

 

44.jpg

 

프로세서는 트랜지스터를 씁니다. 그 게이트에서 누설 전류가 생기는 원인은 상당 부분이 양자가 게이트를 뚫고 지나가는 현상에서 비롯됩니다. 선폭이 30나노미터인 트랜지스터를 놓고 봤을 때 그 게이트 절연 재료의 두께는 2나노미터밖에 안 됩니다. 다시 말해서 원자 10층 정도의 두께밖에 안 된다는 이야기지요. 제조 공정이 제일 뛰어난 인텔의 경우, 트랜지스터의 게이트 절연막 두께는 1나노미터도 안됩니다. 원자 5층 정도의 두께밖에 안 된다는 이이갸지요. 이런 작은 규모에서 거시 물리학의 법칙은 힘을 발휘하지 못합니다. 오직 많은 실험을 통해 어떤 일이 일어날지를 보는 수밖에 없지요.

 

고전 물리학의 법칙이 더 이상 힘을 쓰지 못하면서, 사람들은 실험 결과에만 매달리게 됐고, 발전 속도는 우리가 처음 생각했던 것만 못하게 됐습니다.

 

45.jpg

 

트랜지스터 절연막의 두께는 원자층 10개 정도밖에 안됩니다.

 

2013년에 28나노미터 시대에 진입했고 2014년엔 20나노 시대로 들어설 것이라고 합니다. 하지만 그런 제조 공정이 과연 수익을 낼 수 있을까요? 여기에 충분한 자신감이 있는 사람은 없을 것입니다. 세계 최대의 대리 생산 업체인 TSMC의 제조 공정은은 업계에 미치는 영향력이 상당히 큽니다. 일찍이 2009년에 TSMC는 28나노미터 로직 회로 공정의 양산 준비를 바쳤다고 발표했지만, 2011년 말에도 TSMC는 성능 테스트를 마친 샘플 칩마저 제대로 내놓지 못했지요. 결국 제대로 된 양산은 2012년 6월이 되서야 시작했습니다. 3년이 걸린 셈이지요. 그럼 TSMC가 2013년 말부터 20나노를 양산한다는 말을 얼마나 믿을 수 있을까요?

 

46.jpg

 

TSMC의 제조 공정 로드맵. 이걸 어디까지 믿어야 할까요?

 

TSMC의 다음 20나노미터 공정은 한가지 문제에 직면해 있습니다. 바로 성능 향상이 매우 한정되어 있다는 것입니다. 공식 프리젠테이션 문서를 보면 알 수 있듯이, TSMC의 20나노미터 공정에서 모바일 기기에 맞춘 공정, 그러니까 LP, HPL, HPM은 한 가지로 통합되어 있습니다. 바로 20SoC지요. 그 성능은 TSMC 공식 예측에 따르면 28HPM에서 누설 저류를 20% 낮추고 성능은 15% 높일 것이라고 합니다. 여기서 알아둬야 할 것은 비교 대상이 28HPM이라는 것입니다. 28HPM의 누설 전류는 28LP와 비슷하지요. 이것은 28나노에서 20나노로 건너가도 TSMC는 누설 전류를 20%밖에 못 줄인다는 이야기입니다.

 

게다가 이건 공식적인 예측, 그러니까 낙관적인 예측입니다. 실제 상황은 이보다는 부정적이지요. TSMC가 28나노 공정을 계획대로 시간에 맞춰 내놓는다고 해도 말입니다. 20나노 시대에서 우리는 더 높은 트랜지스터 집적 밀도를 얻을 수 있겠지만, 그것 말고는 발전된 것이 없을 겁니다. 이것은 20나노 공정으로 제조한 칩이 대규모 집적 회로로 더 높은 이론 연산 성능을 갖출 수 있겠지만, 단위면적당 에너지 사용 효율의 상승을 이끌어내진 못합니다. 스마트폰의 절대 성능이 이미 효율값을 크게 넘어선 상황에서, 이미 이런 결론이 나올 것이라 답이 정해진 것이나 다름 없습니다. 앞으로 나올 제품은 더 빠른 실제 성능을 제공하지 못할 거라고요.

 

47.jpg

 

인텔은 2012년부터 3D 트랜지스터를 양산하기 시작했지만 TSMC는 2015년에나 가능합니다.

 

그럼 더욱 선진 공적은 어떨까요? 예를 들어서 16나노라던가. 현재 계획에 따르면 TSMC는 16나노 공정을 최근 일어났던 반도체 제조 공정의 변화 중, HKMG 다음으로 제일 큰 변화이며 제일 마지막 변화가 될 것이라 여기고 있습니다. 바로 3D 트랜지스터, 혹은 FinFET라고 부르는 게 들어가거든요. 이 기술은 반도체의 성능을 40% 높이면서 동시에 전력 사용량을 30% 낮춥니다. 현재 오직 인텔만이 이 기술로 제조한 트랜지스터를 양산중이며, 그렇게 할 기술력을 갖고 있습니다.

 

하지만 우리는 TSMC가 FinFET의 개발-양산을 순조롭게 진행할 것이라고 판단할 그 어떤 이유도 가지고 있습니다. 16나노미터 공정에 EUV가 필요하고, 현재 EUV 산업의 상황을 돌이켜 본다면, TSMC가 2015년에 16나노미터 FinFET을 양산할 확률은 매우 낮다고 봅니다. 글로벌파운드리나 삼성은 어떨가요? 글로벌 파운드리는 이제 28나노미터의 양산을 실현했고, 프리젠테이션에선 앞으로 10나노미터까지 바라보고 있다고 썼지만 우리는 여기에 대해 부정적으로 볼 수밖에 없습니다. 삼성은 비록 우수한 제조 공정 기술을 지녔지만 생산량이 많지 않아 업계 수요를 만족시킬 수준은 아닙니다. 따라서 아직은 크게 신경을 쓸 필요가 없습니다.

 

48.jpg

 

이것이 의미하는 건 2014년과 2015년에 ARM 진영은 상당히 큰 어려움을 겪을 것이라는 소리입니다. 왜냐하면 이 2년 동안 최신 제조 공정은 공백기를 맞이하게 되고, 신형 공정의 지원이 없다면 ARM 제품의 성능 발전은 현실 가능성이 없기 때문입니다. 물론 다른 선택도 있습니다. 그건 바로 출시를 앞둔 20나노미터 공정에 FinFET을 도입하는 것입니다. 인텔처럼 말입니다. 하지만 이것은 20나노미터 공정으로 건너가는 것만으로도 어려움이 상당히 높은데다, 정말 극단적인 상황일 경우 2014년 말에 공정 공백을 겪게 될 것입니다. 그러니까 어떤 일이 벌어지건 우리는 2014~2015년에 공백기가 있을 것으로 보고 있습니다.

 

그럼 더욱 선진 공정, 그러니까 16나노미터보다 더 앞선 공정은 어떨가요? 업계에서는 물리 법칙의 제한 때문에 지금 쓰이는 트랜지스터의 극한 2나노미터 정도가 될 것이라 보고 있습니다. 이 정도 숫자만 되도 거시 물리학에 따라 작동하는 실리콘 반도체가 제대로 작동하기 어려울 것으로 에측됩니다. 실제 제고 공정상황을 본다면 10나노미터만 되도 문제를 해겨할 수가 없습니다. 그러니까 좀 보수적으로 말한다면 우리는 지난 40년 동안 실리콘 반도체 공업의 빛나는 궁궐을 지었고, 앞으로 10년 안에 그 한계가 보이기 시작할텐데, 아무리 낙관적으로 잡아도 6세대고 비관적으로 잡는다면 4세대 정도 발전하면 끝이 나올 겁니다. 그 후에 우리는 새로운 이론을 찾고, 새로운 재료를 찾아야만 합니다. 그 때가 오기까지 시간이 얼마나 남았을까요? 누구도 자신할 수 없습니다. 왜냐하면 기초 물리학은 이미 80년 동안 별다른 발전이 없었고, 반도체 산업의 전성기 후에 이어질 암흑기가 얼마나 길어질 것인지는 누구도 답을 내놓을 수 없기 때문입니다.

 

 

새 아키텍처, 새 희망?

 

앞서 우리는 Cortex-A15에 대해 비관적인 견해를 내놓았습니다. 그럼 이런 의문이 들겠지요. A15를 쓴 핸드폰이 별로라면, ARM은 도대체 왜 이런 코어를 내놓았던 거냐고. 답은 매우 간단합니다. ARM은 반도체 제조 공정의 업그레이드와 기술의 발전 속도를 상당히 낙관적으로 평가하고 있었거든요. Cortex-A15는 원래 20나노 공정을 위해 설계했던 코어입니다.

 

2008년으로 돌아가 봅시다. TSMC는 그 때 앞으로 5년 동안의 반도체 공정 로드맵을 내놓았었는데요. 만약 모든 것이 거기에 나온대로 됐었다면, 우리는 2010년에 28나노 공정 프로세서를 썼을 것이고, 2012년, 그러니까 작년에 20나노 시대에 들어섰을 것입니다. 여기에 맞춘다면 ARM이 2013년에 Cortex-A15로 진화하는 데엔 어떤 문제도 없습니다. ARM의 바램은 20나노 공정이 좋은 성능을 내서, Cortex-A15의 실제 전력 사용량을 0.5W 안으로 압축시키는 것이었는데, 그럼 Cortex-A9보다 두배의 효율비를 얻게 되지요. 이 점은 TSMC와 ARM의 문서를 보면 잘 알 수 있습니다. 뿐만 아니라, A15 역시 절대 성능을 두배로 높인다는 처음의 설계 목표를 달성할 수 있었을 것입니다.

 

49.gif

 

TSMC의 핑크빛 희망

 

하지만 공정은 ARM이 바라던 대로 발전하지 못했습니다. 28나노 공정은 2012년으로 연기됐고, 20나노는 아직 머나먼 2014년의 이야기입니다. 거기에 양산이 성공을 거두기 위해선 성능 향상 폭은 어느 정도 한계가 있을 수밖에 없습니다. Cortex-A15를 둘러 싸고 예상치 못했던 상황이 계속해서 벌어지고 있는 것이지요. 공정 발전이 예상을 벗나가면서 Cortex-A9는 후계자를 잃었습니다. Cortex-A7은 비록 성능 대 전력 사용량은 우수하지만 성능이 매우 부족합니다. 심지어 Cortex-A8보다도 못하지요. Cortex-A15는 비록 절대 성능이 높아졌다고는 하나 전력 사용 효율이 낮아 Cortex-A9를 대체할 수 없습니다. 그래서 ARM은 성능이 떨어지는 제품고 전기를 많이 먹는 걸 합쳐 big.LITTLE이란 이름으로 내놓은 것이지요. 하지만 그렇게 해서 나온 결과물은 Cortex-A9 수준의 효율밖에 안 나왔고, 스펙만큼의 성능은 나오지 않았습니다.

 

 

TSMC가 ARM에게 빗엿을 먹임

 

재밌는 건, ARM의 공식 제품 라인업에 이런 문제가 생겼을 때, ARM IP를 쓰는 두 고객, 퀄컴과 애플은 Cortex-A15보다 더 좋은 해결 방안을 쓰고 있었다는 것입니다. 두 회사는 Cortex-A15의 아키텍처가 너무 크다는 것을 발견하고, Cortex-A9를 최적화해 성능을 높이는 쪽에 주력했습니다. 약속을 한 건 아니지만 두 회사가 선택한 방법도 같았지요. Cortex-A9의 프론트엔드를 유지하고 Cortex-A9의 백엔드를 확충해, 퀄컴은 명령어 처리량을 높였고, 애플은 메모리 시스템의 업그레이드에 신경을 썼습니다. 그 결과는 여러분들이 알고 있는 대로입니다. 퀄컴의 솔루션은 Cortex-A9의 본질적인 문제를 해결하진 못했고, 애플 솔루션은 비교할 방법을 찾기가 매우 어렸지만, 최소한 두 회사가 틀린 선택을 하지 않았다는 것은 알 수 있습니다.

 

그래서 Cortex-A15 아키텍처가 나온 지 3년 지난 2013년에도, ARM은 여전히 골머리를 앓고 있으며, 결국 자기 자신이 직접 이 문제를 해결할 답을 내놓기로 했습니다. 바로 Cortex-A12입니다.

 

50.jpg

 

설계 스펙을 보면 ARM은 마침내 200% 성능 향상 같은 휘황찬란한 목표를 포기하고, Cortex-A12가 Cortex-A9보다 40% 정도 빠르다고 밝혔습니다. 매우 현실적인 목표지요. 특히 Cotex-A9의 아키텍처에 구시대적인 제한이 몇 가지 있다는 걸 고려해 본다면 말입니다. 그럼 Cortex-A12가 어떻게 바뀌었는지 볼까요.

 

51.jpg

 

먼저 다른 ARMv7 아키텍처 프로세서와 마찬가지로, Cortex-A12는 L2 캐시의 성능을 높였습니다. 선배가 되는 Cortex-A12와 A7의 경험을 보고 배운 거지요. L2 캐시를 멀티코어 컨트롤러에 포함시킴으로서, 마침내 코어가 두번 다시 불쌍하기 짝이없는 64비트 버스를 통해 자기의 캐시를 찾아 갈 필요가 없게 만들었고, 이로서 캐시의 성능을 대폭 높였습니다. 다음으로 Cortex-A12는 NEON과 vFP를 네번째 버전으로 업그레이드했고, Cotex-A15와 같은 아웃 오브 오더 설계를 도입해, 명령어 처리 효율을 A9보다 대폭 높였습니다. 마지막으로, A12의 외부 포트는 64비트 AMBA 3에서 128비트 AMBA 4로 업그레이드해 대역폭도 넓혔습니다.

 

52.jpg

 

그럼 Cortex-A12는 무엇에 의지하여 전력 사용량을 낮췄을까요? 크게 세 개가 있습니다. 우선 병렬 발행하는 명령어 펫치를 3개에서 2개로 줄였고, 명령어 대기 큐를 대폭 줄였으며, 실행 유닛의 수 역시 줄였습니다. 명령어 발행 큐의 의미는 아웃 오브 오더 실행을 지원해, 대응되는 레지스터 자원과 하드웨어적으로 연결된 자원이 매우 크다는 것을 말하는데, Cortex-A15의 8개 8묶음 실행 유닛 설계는 완전한 8개의 독립 명령 큐를 갖고 있습니다. 이것이 엄청난 전기를 먹는다는 건 의심할 것이 없으며 Cotex-A12는 이것을 3개로 줄였지요. 동시에 Cortex-A12 연산 유닛의 수도 6개씩 3묶음으로 줄였으며, 정수, 로드/스토어, FP/NEON은 각각 2개의 연산 유닛이 있고 한개의 명령어 큐를 공유합니다.

 

53.gif

 

반면 Cortex-A9는 상당히 썰렁한 편입니다. 한 개의 명령 큐, 2개의 정수 ALU, 1개의 로드/스토어 유닛과 FP, NEON. 따라서 저 정도의 개선만으로도 Cortex-A12는 40%의 성능 향상이 가능했던 것입니다.여기에 L2 캐시에 시스템 버스, 프론트엔드와 디코딩 부분은 말할 필요도 없겠지요. 정수와 명령어 부분은 모두 새로 명명되고 독립적인 개선을 이루었습니다. 전체적으로 보면 Cortex-A12는 Cortex-A9보다 성능이 40% 늘었고, 전력 사용량은 그대로입니다. 이것은 ARM 프로세서의 와트 당 성능을 높여 줄 단 하나의 해결책이지요. A12의 유일한 문제라면 아무리 빨라도 2014년에나 이걸 쓴 제품이 나올 것이란 점입니다. 그때 ARM은 인텔 같은 회사와 사이좋게 치고박고 있을지도 모릅니다.

 

54.jpg

 

Cortex-A12와 퀄컴 Krait, 애플 Swift까지 같이 놓고 보면 재밌는 점을 발견할 수 있습니다. ARM과 다르게 퀄컴 Krait는 Cortex-A9의 프론트엔드 설계를 거의 그대로 유지했고, 유일하게 개선한 점이라면 명령어 페치와 발행을 3개까지 할 수 있도록 늘렸습니다. 백엔드는 Cortex-A15와 마찬가지로 거대한 수의 실행기를 넣었는데 구체적으로는 7개입니다. 이런 구조는 백엔드와 프론트엔드를 연결하는 중간 부분에서 병목 현상을 일으키게 되며, 그 때문에 Krait의 실제 성능은 3300DMIPS를 넘지 못합니다. 이론 성능으로 따지자면 Cotex-A15보다 5.7% 낮은 것이지요. 애플 Swift의 경우 참고할만한 데이터와 비교할만한 자료가 없어 분석을 내리기가 어렵습니다. 하지만 애플의 장점은 하드웨어와 소프트웨어를 완벽하게 조합했다는 데 있습니다. 그래서 애플은 같은 Cotex-A9를 쓴 퀄컴보다도 성능이 더 잘 나오는 편이며, 이것은 운영체제 최적화에서 비롯된 결과이지요.

 

따라서 Cortex-A9와 Cortex-A15 사이에 있는 설계 3가지 중에, Cortex-A12가 제일 현실적이면서고 균형을 잘 잡았다는 결론을 내리게 됩니다. 다만 앞서 말한대로 2013년에는 Cortex-A12를 볼 수 없으며, 2014년에도 실제 제품이 나오길 기대하긴 어려울 것입니다. Cortex-A12가 ARM의 설계 목표를 실현하는지는 2015년에나 알 수 있지 싶습니다.

 

55.jpg  

 

 

ARM이 앞으로 갈 길

 

지금까지 우리는 이미 출시된 제품과 앞으로 출시될 제품, 기술, 아키텍처 등을 살펴 보았습니다. 이를 토대로 2013년에서 2014년에 나올 기술과 제품 상황을 예측해 보고자 합니다.

 

Cortex-A12 아키텍처가 2014년 전에 나오기 어렵기 때문에, 2013년 하반기에서 2014년 사이엔 시장에 출시되는 제품에는 별다른 변화가 없을 것입니다. 표준 ARM 진영의 기업, 그러니까 삼성 같은 곳은 여전히 Cortex-A15를 써서 플래그쉽 제품을 만들 것이고, 퀄컴은 Kriat 400을 내놔 이에 맞설 것입니다. 최고 클럭을 2GHz 이상으로 올려서요. 옛날에 펜티엄 4 시절 인텔처럼 말입니다. Cortex-A15라는 아키텍처만 놓고 본다면, Cortex-A7 코어와 조합하지 않으면 전력 사용량의 한계 대문에 핸드폰에서 감당이 안됩니다. 따라서 big.LITTLE이 앞으로 Cortex-A15를 쓰는 제조사의 유일한-그리고 필수 선택이 될 것이란 예측이 나옵니다. 현재 LG와 화웨이가 Cortex-A15 SoC를 설계중이란 이야기가 있는데, 이들 회사는 분명 4+4나 2+2 설계를 쓸 것입니다. 아니면 NVIDIA 테그라처럼 5번째 컴패니언 코어를 넣던가요.

 

56.jpg

 

다른 제조사들은 시장의 변두리에 서 있는 곳이니, 독자적인 행동을 통해 차별화된 제품으로 시장에서 경쟁해 나가려 할 것입니다. 미디어텍이 발표한 8코어 Cortex-A7만 봐도 그렇습니다. 이 SoC는 8개의 Cortex-A7 코어가 동시에 작동할 수 있으니 이야말로 진정한 8코어 프로세서라 부를 수 있을 것입니다. 하지만 그 성능은 떨어질 수밖에 없죠. 또 일부 제조사에선 쿼드코어 Cortex-A7과 엄청나게 강한 GPU를 조합해 게임용 칩을 만들려고 합니다. 현재 핸드폰 엔터테인먼트의 시장 요구가 높아지고 있으니 이런 제품은 제법 나쁘지 않은 시도라 보입니다. 하지만 전체적으로 봤을 때 주류 핸드폰 SoC는 앞으로 1년 안에 4코어를 넘기는 제품이 나올 가능성이 그리 크지 않습니다. 사실 쿼드코어 Cortex-A9만 하더라도 Cortex-A12가 나오기 전까지는 고급형 제품의 자리를 지킬 실력이 있습니다. 따라서 엑시노스 4412를 사용 중인 사람들, 더 쉽게 말해서 겔럭시 S3를 사용중인 사람들이 더 강한 CPU 성능을 '체감'하고 싶다면 2015년에나 기변을 생각해 봐야 할 겁니다.

 

57.jpg

 

따라서 앞으로 1년 반 안에 우리 눈을 부시게 하는 성능을 지닌 신제품이 나올 것이라는 기대를 너무 많이 하는 건 좋지 않을 겁니다. 삼성, NVIDIA, 퀄컴은 모두 기존의 아키텍처 위주로 제품을 내놓을 것이고. 애플음 A6 프로세서를 듀얼코어 Swift에서 쿼드코어로 바꿀 가능성이 크지요. 하지만 iOS 시스템 설계를 놓고 보면 이런 확충이 큰 의미를 가질 것이라 말하기 어렵습니다. 뭐 일각에서는 성능이 30% 향상되고 64비트 명령어를 지원할 것이란 이야기가 있지만.

 

GPU의 경우 퀄컴 제품은 전력 문제를 해결하기 전에는, 성능이 얼마나 향상됐건 선택할 만한 가치가 그리 높지 않습니다. 만약 게임을 중요하게 생각한다면 엑시노스 5 옥타가 안드로이드 진영에선 제일 괜찮은 선택일 것입니다. Cortex-A7가 대부분의 작업을 처리하고, Cortex-A15는 큰 전력 사용량 때문에 이따금씩만 튀어 나오며, Mali 400 MP4 GPU의 경우 비록 오래됐지만, 대작 게임들도 충분히 처리할 만한 성능을 갖추고 있습니다. 벤치마크를 돌리는 게 취미가 아니라면 Mali 400 MP4는 큰 문제가 없을 겁니다.

 

58.jpg

 

공정 방면에서 우리는 2013년에 20나노 공정 양산이 불가능할 것이라고 봅니다. TSMC가 뭐라 말하건 간에 거기에 큰 기대를 걸긴 어렵지요. 글로벌 파운드리는 이제 막 28나노 공정을 양산하기 시작했고, 생산 능력이 한정되어 있으니 20나노 공정은 당분간 쳐다 볼 상황은 아닙니다. 삼성의 20나노 공정은 일종의 변수라 할 수 있으나 큰 희망을 걸 정도는 아닙니다.

 

대리 생산 공장들은 인텔처럼 어마어마한 판매고를 기록할 수 없기 때문에 제조 공정의 단가가 비쌀 수밖에 없습니다. 지금 대리 생산 공장들은 20나노 공정에 EUV 기술을 도입할 계획을 잡고 있지만, EUV 공정은 줄곧 발전 속도가 매우 느렸으며, 현재 실현된 최대 연속 출력은 40W 수준을 기록했을 뿐입니다. 2011년에 11W가 나온 것보단 많이 나아졌지만요. 이 정도 출력이라면 웨이퍼 생산율이 한 시간에 5장 정도밖에 안되는, 생산 수요를 맞추려면 못해도 60장은 되야 합니다. 정상 상황에서는 한 시간에 못해도 백장은 찍어야 실용화 가치가 있다고 봅니다. 그럴려면 EUV 광원의 출력을 400W까지 늘려야 하지요. 바꿔 말하면 현재 EUV 광원의 출력은 양산 목표와 10배 정도의 거리가 떨어져 있다는 소립니다.

 

59.jpg

 

허나 2011년부터 2013년가지 광원 출력 상승률은 4배가 안 됐습니다. 절대적인 수치로 따지자면 30W도 못 올라갔지요. 그런데 10배, 350W를 올린다는 건 정말 어려운 일입니다. 더욱 큰 문제는 EUV 광원의 출력 문제를 해결한다 하더라도 EUV 에코시스템은 노광 반응속도와 반응 정도가 매우 낮다는 문제를 갖고 있습니다. 이런 문제는 EUV 광원의 출력보다도 더 까다로운 것입니다. 다라서 업계에선 2015년은 되야 EUV 노광기가 양산화 단계에 이를 것으로 보고 있습니다. 이 말은 16/14나노 공정까지는 전 세계의 대리 생산 업체들이 어쩔 수 없이 193나노 트리플 패터닝의 실현에 메달리고 있어야 한다는 겁니다.

 

60.jpg

 

트리플 패터닝은 아주 많은 문제를 가지고 있습니다. 제조 원가부터 생산량에 수율을 거쳐 노광 도안의 한계까지 문제가 없는 곳이 없습니다. 따라서 이를 실현할 수 있다고 하더라도, 칩 설계 쪽에도 특수한 요구를 해야 하며, 이 방법을 일단 사용하면 여러 공장에 나눠 생산을 하거나, 혹은 공장을 바꾸려고 할 대 상당한 어려움을 겪게 됩니다.

 

지금 우리가 알고 있는대로 애플은 자사 제품에서 삼성의 비중을 줄이려 하지만, TSMC와 제대로 된 사업 관계가 아직 시작되진 않았습니다. 일설에 의하면 2015년부터 삼성과 3년 짜리 장기 계약을 맺을 것이라는 소문까지 들려오고 있는데요. 이것은 TSMC의 20나노 공정 상황이 매우 비관적이라는 것을 설명합니다. 좋은 쪽으로 생각한다 하더라도, 애플이 TSMC 20나노 공정을 앞당긴다 한들 성능 향상은 매우 작은 수준에 머무를 것이며 심지어 퇴보할 수도 있습니다. 최악의 경우라면 TSMC의 20나노 공정 양산이 2014년 안에 이루어지지 않는 것이지요. 어느 쪽이건 간에, TSMC는 세계 최대의 대리 생산 업체이며, 전세계 70% 칩의 운명을 잡고 있는 기업입니다. TSMC가 곤경을 겪게 되면 전체 업계가 큰 영향을 받을 것입니다. 최소한 ARM 진영은 말입니다.

 

 

인텔이 앞으로 갈 길

 

역사는 우리에게 이렇게 알려줍니다. 두 경쟁 상대 중 한쪽이 정체 상태이 빠진다면, 다른 한 쪽은 경쟁에서 이길 절대적인 기회를 잡은 거라고요. 2013년부터 2014년의 ARM이 뚜렷한 발전을 하지 못한다면, 그럼 경쟁 상대인 인텔은 좋은 기회를 잡게 될 것입니다. 정말 무서운 일이지요. 인텔은 반도체 기술을 선도하는 회사로 업계보다 평균 5년 이상 앞선 기술을 갖고 있습니다. 또 고성능 프로세서의 설계에서 누적된 경험은 풍부하지요. 더 무서운 건, 이 장점이 갈수록 더 커지고 있다는 것입니다.

 

61.jpg

 

2013년 3분기에 인텔은 차세대 아키텍처인 실버몬트 기반 아톰 프로세서, 코드네임 베이트레일을 본격적으로 내놓습니다. 이것은 아톰이 발표된 후 6년만에 있는 대규모 아키텍처 변화로, 인텔이 새로 CPU를 설계했다고 봐도 과언은 아닙니다. 실버몬트는 지난 아톰 프로세서와 아키텍처적으로는 별 관계도 없거든요.

 

62.jpg

 

새 코어는 아웃 오브 오더 실행 파이프라인, 2웨이 명령 발행 설계, 5개의 명령 큐(인텔은 이를 RSV라 부릅니다), 6개의 실행 유닛이 있는데요. 제일 중요한 건 Cortex-A15에서 실현된 모든 기술적인 특징이 실버몬트에서도 이루어졌다는 것입니다. 실버몬트는 로드/스토어 내부에서도 아웃 오브 오더 실행을 하는데, 이건 ARM이 Cortex-A15에서 실현한 것이거든요. 이것은 거대한 성능 향상을 가져다 줄 것입니다.

 

63.jpg

 

부동소수점과 멀티미디어 명령어 셋트의 경우 인텔 베이트레일은 SSE3를 지원하고 있습니다. vFP와 NEON과 비교하면 의심할 바 없는 선진 기술이지요. 제조 공정은 현재 모든 ARM 제조사가 22나노 HKMG를 꿈꾸고 있지만, 인텔은 진작 FinFET(3D 트랜지스터)를 실현했습니다. 그것도 독점적으로요.

 

GPU의 경우 인텔은 PowerVR SGX 시리즈를 포기하고 자체 개발한 GMA HD 4000 아키텍처 GPU로 바꿨습니다. 이것은 효율값이 상당히 높은 GPU입니다. 8W 정도의 전기만 먹는 걸로 3D마크 아이스스톰에서 4만 점이 넘는 성능을 내고 있으며, 다이렉트 X 11도 완벽 지원하거든요. 우리가 추측하건데, 베이트레일에선 인텔이 고른 건 GMA HD 4000의 절반 정도 규모가 되는 GPU, 즉 8개의 실행 유닛을 갖춘 것일 겁니다. 이 정도만 해도 Adreno 320보다 낮은 전력 사용량으로 두배에 달하는 다이렉트 X 9 성능을 낼 수 있거든요. 또 다른 모바일 GPU를 넘어서는 다이렉트 X 10/11 지원을 자랑합니다.

 

인텔의 규격대로 나눠 보면, 베이트레일 패밀리는 저가형 데스크탑 PC에 들어가는 베이트레일-D, 태블릿에 들어가는 베이트레일-M, 스마트폰에 들어가는 베이트레일-T가 있습니다. 최대 쿼드코어, 최고 2.4GHz의 클럭으로 작동하지요. 인텔의 주장에 따르면 기존 아톰 아키텍처의 두배에 달하는 성능에, 어떤 스마트폰 프로세서보다 4배에 달하는 성능 대 전력 사용량을 자랑한다고 합니다. 정말 무시무시한 숫자네요.

 

64.jpg

 

그럼 구체적인 성능과 전력 사용량은 어떨까요? 지금 우리가 볼 수 있는 자료는 베이트레일의 스펙과 전력 사용량이 유출된 것 뿐입니다. 여기선 태블릿용 쿼드코어 2GHz 베이트레일-M이 최대 TDP가 7.5W밖에 안 된다는 걸 알 수 있습니다. 이것은 테그라 4를 비롯한 Cortex-A15 SoC와 같은 수준이며, 고클럭 Krait의 스냅드래곤 800과 기본적으로 같습니다. 하지만 베이트레일-M의 성능은 그들을 능가하지요.

 

스마트폰용 베이트레일-T는 공정이 다르고 더 낮은 클럭, 전력 사용량을 나타냅니다. 인텔의 계획에 따르면 최대 TDP는 3W를 넘지 않을 것이라고 하네요. 성능의 경우 현재 유일하게 볼 수 있는 테스트 결과는 1GHz로 작동한 베이트레일 칩이 안투투 벤치마크에서 43000점을 넘겼다는 것입니다. 최고 1.9GHz로 작동하고 TDP가 8W를 찍는 Cortex-A15의 플래그쉽, 테그라 4가 겨우 4만 점을 돌파하는 것과 매우 대조적이지요. 물론 벤치마크 스코어가 모든 것을 설명할 수 있는 건 아닙니다. 하지만 최소한 우리에게 베이트레일의 성능이 상당히 뛰어나다는 것을 알려주고 있는 것이긴 합니다.

 

65.jpg

 

인텔의 설계 기술과 최신 공정이 결합된 실버몬트 코어는 매우 간단하게 Cortex-A15의 효율값을 능가한다는 것을 볼 수 있습니다. 이것은 다른 요소를 따지지 않는다면, 실버몬트 코어를 쓴 아톰 프로세서를 쓴 스마트폰이, 효율값에서 ARM Cortex-A 시리즈의 어떤 코어보다도 월등하게 앞선다는 것을 의미합니다. 조금의 과장도 섞지 않고 말해서, 2014년에 ARM이 큰 곤경에 빠졌을 때, 실버몬트 코어를 쓴 새 아톰 프로세서는 성능을 높이고 싶어하는 스마트폰 제조사의 유일한 선택이 될 것입니다.

 

하지만 인텔이 이 새로운 시장을 날로 먹을 수 있는 건 아닙니다. 제품의 좋고 나쁨은 시장을 쟁탈하는 유일한 요소가 아니거든요. 다른 부분에선 아톰이 부조한 점이 많습니다. 비록 아톰의 성능이 뛰어나다고는 해도, 우리가 보건데 앞으로 1년 반 사이에 인텔의 위치는 여전히 도전자일 뿐, 챔피언은 아닙니다. 그 이유는 두가지가 있는데요. 하나는 제품에서 비롯된 것이고, 다른 하나는 제품 이외의 요소입니다.

 

66.jpg

 

먼저 제품을 봅시다. 아톰과 ARM은 서로 다른 ISA 설계를 씁니다. 이것은 이 두가지 프로세서의 하드웨어 컴파일러가 똑같은 로우레벨 코드를 실행할 수 없다는 이야기입니다. 안드로이드 환경에서 절대 다수의 앱은 모두 로우레벨 하드웨어 플랫폼에 NDK 코드를 컴파일러해 쓰고 있는데, 이 코드는 아톰에서 직접 실행할 수가 없습니다. 인텔은 가상 전환 솔루션을 내놔, 일종의 에뮬레이터 비슷한 방식으로 ARM 로우레벨 코드를 x86 코드로 변환해 실행하고 있습니다. 이것은 비록 문제를 해결해 주지만 그 댓가로 효율이 매우 떨어지게 된다는 문제가 있습니다. 서드파티 테스트에 따르면 성능이 70% 이상 떨어진다고 하네요. 이것은 실버몬트가 Cortex-A 시리즈보다 성능은 높지만, 아톰을 쓴 안드로이드 기기에선 성능이 향상되는 게 아니라 오히려 떨어진다는 소리가 됩니다. 비록 인텔이 안드로이드 진영에서 영향력을 넓히기 위해 계속 노력중이며, x86 안드로이드 시스템에서 x86의 NDK 컴파일러를 지원하도록 하고 있지만, x86 로우레벨 베이스를 갖춘 앱은 여전히 매우 적습니다. 이것은 단기간 안에 해결될 수 없는 문제입니다.

 

67.jpg

 

제품 이외의 문제는 인텔이 시장에서 취한 자세와 그 지위입니다. x86과 다르게 ARM 진영은 매우 개방적입니다. 어떤 회사든 ARM IP를 구입할 수 있으며, 다른 시스템 설계를 조합해 자신만의 SoC를 만들 수 있습니다. 그러나 인텔은 그게 안됩니다. 따라서 칩 산업이라는 측면에서 본다면 x86은 한 회사를 대표하지만, ARM은 한 집단을 가리킵니다. 삼성, 애플, 텍사스 인스트루먼트, NVIDIA, 퀄컴 등등등등등. 이들 회사는 이제 칩입할 수 없는 이익 집단을 형성했으며, 인텔이 기술과 성능을 앞세운다 해도 이들을 물리치긴 어렵습니다. ARM 진영에서 기술은 여러 회사에 분산되어 있습니다. 따라서 각각의 회사들은 자신의 수익에 따라 다양한 제품 설계를 만들어내며, 이것으로 이익을 극대화합니다. 그러니 전체적으로 봤을 때 성능은 인텔보다 떨어지지만, 그것이 수익에 영향을 주진 않는 것입니다.

 

하지만 일단 인텔이라는 공룡이 제 자리를 잡고, 주도적인 위치에 선다면, 인텔의 폐쇄적인 라이센스 방식과 강력한 기술 실력이 결합되어, 결국엔 모들 회사들이 부득불 인텔의 칩-완전한 칩 솔루션을 구입할 수밖에 없을 것입니다. 자신의 의지대로 칩을 조합하고 고치는 게 아니라, 오직 인텔이 제공하는 한정된 종류 중에서 자신의 수요에 제일 잘 맞는 걸 골라야 되겠지요. 그렇게 되면 핸드폰 시장은 또 하나의 PC이 되버릴 것입니다. 인텔이 시장을 완전히 장학하고 대부분의 수익을 가져가는 시장 말이지요. 다른 회사들은 인텔과 같은 수준의 기술이 없으니, 뭘 하려 해도 할 수 없게 될 것입니다. 이런 시장 상황은 인텔이 제일 바라는 것이며, 여타 ARM 진영 회사들이 제일 싫어하는 것이기도 합니다.

 

68.jpg

 

그럼 인텔에게 기회가 없는 것일까요? 꼭 그런 건 아닙니다. 왜냐면 ARM 진영들이 최상급 공정을 필요로 하면서, 인텔이 손에 들고 있는 뛰어난 제조 공정이 점점 더 큰 의미를 갖고 있습니다. 2, 3년 전에 인텔이 스마트폰 시장에 진입하려 했을 때는 거의 승산이 없었지만, 지금은 기회가 왔다고 말할 수 있는 것입니다. 인텔은 돌파구를 필요로 합니다. 스마트폰 제조사들이 성능을 필요로 한다는 점을 빌어, 무적의 22나노 공정을 앞세워 자사 제품을 쓰도록 만드는 것이지요. 거대한 성능에 맞설 제품을 ARM이 내놓지 못한다면 제조사들이 인텔 제품을 쓰지 않을 수가 없게 될 것입니다. 가장 이상적인 돌파구는 애플이 될 거라 보고 있습니다만.

 

사실, 이 하드웨어 군비경쟁의 시작은 항상 애플이었습니다. 뿌리 끝까지 파고 들어가봐도, 아이폰은 항상 같은 시기 경쟁자들을 넘어서는 체험을 제공했지요. 사실 아이폰이 동시대 경쟁자보다 앞선 하드웨어를 제공해도, 이 하드웨어는 안드로이드 진영처럼 눈에 팍팍 띠진 않았습니다. 최근에 애플은 하드웨어에서 선도적인 지위를 잃어버리기까지 했지요. 그래서 우리는 아이폰이 획득한 거대한 사용자 체험이 안드로이드에게 뺐기는 광경을 보고 있는 것입니다. 지금 저가형 스마트폰 시장조차도 조작감이나 쾌적한 사용 등은 아이폰과 차이가 크게 나지도 않습니다. 따라서 아이폰에게 남은 장점이란 더 많은 소비 관성, 앱, 그리고 사용자 습관 밖에 없습니다. 이런 것들은 그리 짧은 시간 안에 생겨나지 않습니다. 그래서 애플은 더 강한 하드웨어를 필요로 하며, 동시대의 하드웨어를 뛰어넘여, 동시대 제품이 제공하는 기능을 넘어서고, 다른 경쟁상대가 제공하지 못하는 기능을 제공할 필요가 있습니다. 인텔의 제조 공정이라면 애플이 원하는 것을 줄 수 있습니다.

 

하지만 인텔은 단순한 칩 대리 생산 공장이 아닙니다. 매년 애플을 도와 1억개의 칩을 만들고 있는(x86 맥)-전체 산업에 영향을 주는 것을 목표로 하는 기업이지요.따라서 인텔은 강력한 제조 공정을 앞세워 직접-혹은 간접적으로 애플이 자신의 ARM 코어 A 시리즈 칩을 포기하고 아톰으로 돌아서도록 할 것이고, 결국 애플을 돌파점으로 삼아 핸드폰 산업에 성공적으로 진입할 것입니다. 물론 애플 역시 일단 인텔의 요구를 받아들이면, 인텔이라는 말에 묶인 전차가 된다는 것을 잘 알고 있을 것입니다. 더 이상 돌이킬 수 없는 길을 가게 되는 선택이지요.

 

69.jpg

 

지금 상황을 보면 애플은 인텔을 고르지 않을 수도 있으며, 대다수 안드로이드 스마트폰 제조사 역시 마찬가지입니다. 하지만 시간이 1년 1년 지나갈수록, TSMC가 정말로 경쟁력 있는 공정을 내놓지 못하고, 인텔이 22나노보다 훨씬 더 선진적인 14나노 공정을 내세워 경쟁상대다 엄청나게 앞서나가면, 그 때면 어떤 제조사건 인텔의 선진 공정에 매력을 느끼지 않을 수가 없을 것입니다. 일단 인텔을 고르기만 하면 경쟁상대보다 몇 배의 와트 당 성능을 얻을 수 있으니까요. 그것도 바로. 그리고 이 시기에 ARM 진영의 성능은 상대적으로 적체되어 있을 것이고, 그 차이 역시 갈수록 커질 겁니다.

 

물론 이것은 까마득한 앞날을 예측한 것일 뿐입니다. 만약 2013년에서 2014년 사이만 본다면, 우리는 태블릿이야말로 인텔이 뚫고 들어갈만한 플랫폼이 될 것이라 봅니다. 스마트폰과 다르게 태블릿은 전력 사용량이 좀 더 높아도 되거든요. 그래서 태블릿을 무대로 한다면 인텔의 고성능 프로세서는 다른 프로세서보다 더 큰 작용을 할 수 있습니다. 더 중요한 것은 아톰이 x86 프로세서라는 겁니다. 30년 동안 모든 PC에 맞춰 설계된 프로그램과 호환된다는 장점이 있지요(비록 태블릿에서 쓰기엔 맞지 않겠지만).

 

거기에 베이트레일-M을 가장 낙관적인 상황에서 바라본다면 코어 2 듀오 시절의 성능을 낼 정도는 됩니다. 이것은 베이트레일-M이 거의 90%의 일반적인 PC 사용 요구를 맞출 수 있다는 게 됩니다. 예전에 유행하던 넷북이 해낼 수 없던 일들을 할 수 있다는 겁니다. 이렇게 보면 제일 빠를 경우 2013년 말에, 10인치, 두께 9mm, 무게 600g, 배터리 사용 10시간, 성능은 5년 전 고급형 노트북에 해당하는 태블릿이 나오며, 거의 모든 윈도우 애플리케이션을 실행할 수 있을 겁니다. 그럼 ARM 진영에게 있어 별로 좋은 소식이 되진 않겠군요.

 

 

마지막 말

 

이 부분을 결론이라 말한다면 썩 정확한 표현이 아닙니다. 왜냐면 우리의 결론은 이미 앞에서 다 말했거든요. 마지막으로 우리가 말할 수 있는 건 앞으로 몇 년 동안 소비자들에게 줄 수 있는 건의입니다.

 

먼저 스마트폰입니다. 스마트폰 프로세서의 실제 성능은 앞으로 1~2년 동안 실질적인 진보가 있을 것이라 보기 매우 어렵습니다. 하지만 스마트폰이라는 물건 전체를 놓고 본다면, 프로세서는 소비자가 필요로 하는 유일한 것이 아닙니다. 스크린, 카메라, 설계, 재질, 심지어 소소한 기능 개선까지. 당신이 가지고 싶도록 개선할 수 있는 요소들입니다.

 

70.jpg

 

따라서 우리는 이렇게 제안합니다. 앞으로 핸드폰을 한 대 산다면, 기능 말고 다른 걸 보세요. 스마트폰이 무슨 CPU를 썼는지는 보지 마세요. 하지만 더 강한 성능을 원한다면, 잠시 업그레이드할 생각은 접어두세요. 2015년까지 말입니다.

 

사실 CPU 뿐만 아니라 스크린, 통신 등은 현재 스마트폰에서 사용자 체험과 기술의 극한에 도달했습니다. 앞으로 몇 년 안에 대격변이 일어날 가능성은 썩 크지 않습니다. 그러니까 당신이 아무리 하드웨어 매니아라서 최신을 추구한다고 해도 말입니다. 지난 5년 동안 쉬지않고 달려왔으니, 이제는 쉬어갈 때가 됐다는 걸 받아들이세요.

 

다른 부분에서, 태블릿은 앞으로 짧은 시간 안에 경쟁이 제일 치열한 분야가 될 것입니다. 왜냐하면 인텔 베이트레일이 들어오기 때문입니다. 윈도우 8.1과 아톰을 조합한 태블릿은 안드로이드 태블릿과 아이패드와 정면 경쟁할 능력을 갖고 있습니다. 그 때가 되면 선택의 폭은 매우 넓어질 것입니다. 여러 제조사가 내놓는 최신 제품을 보면서 자신이 원하는 것을 고르면 됩니다. 말하는 김에 보자면, ARM 칩이 곤경에 처했고 서피스 RT는 이미 시장에서 그 의미와 가치를 잃었습니다. 이건 마이크로소프트에게 안된 일이지요.

 

어느 제품이건 간에 지금부터 나오는 것들은 상당수가 벤치마크를 돌렸을 때만 높은 점수가 나올 것입니다. 제조사가 자사 제품이 얼마나 높은 성능을 갖췄는지 자랑을 하고 떠들어 대건, 이성적인 소비자는 그 숫자 뒤에 숨겨진 것을 파악하고 이성적인 선택을 해야 할 것입니다.

 

소스: http://www.evolife.cn/html/2013/72421_2.html

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.