모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2017.10.24 00:10

아이폰 X의 딥 러닝 코어, 뉴럴 엔진의 방향

낄낄 https://gigglehd.com/gg/1905675

조회 수 11878 댓글 12

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...87013.html

아이폰 X를 비롯한 모바일 신경망 프로세싱의 움직임

애플은 A11 SoC를 9월 12일에 발표한 아이폰 패밀리, 아이폰 X, 아이폰 8, 아이폰 8 플러스에 사용합니다. 신경망 프로세싱 코어 뉴럴 엔진(Neural Engine)은 아이폰 X의 얼굴 인식 기반 인증 기능인 페이스 ID에서 어떻게 쓰이는지 설명이 없으나, 아키텍처의 방향성은 추측이 가능합니다.

현재 컴퓨팅은 신경망의 가속으로 빠르게 진행되고 있습니다. 스마트폰 등의 모바일 디바이스에선 애플 뿐만 아니라 구글, 퀄컴, 하이실리콘, 삼성, 후지쯔 등 대부분의 회사들이 신경망 하드웨어 개발을 진행하고 있습니다.

모바일 SoC에 신경망 프로세서를 도입

신경망 하드웨어 가속은 CPU나 GPU 등의 기존 프로세서 아키텍처를 확장하는 방법, 신경망 전용 프로세서 코어를 탑재하는 방법, 이 두가지를 모두 쓰는 하이브리드까지 3가지 방법이 있습니다. 또 적용 범위로 따지면 학습에 최적화, 추론에 최적화, 두가지를 모두 지원하는 방법의 3가지가 있습니다. 시장 범위도 대형 컴퓨터, 모바일, 임베디드까지 다양합니다.

신경망 텐서 코어를 장착한 NVIDIA 볼타

볼타의 텐서 코어

딥 러닝에 쓰이는 신경망 전용 프로세싱 유닛은 아직까지 딱히 정해진 이름이 없습니다. CPU나 GPU같은 명확한 호칭이 없다는 소리죠. 애플은 이를 뉴럴 엔진(Neural Engine)이라 부르지만 다른 곳에서는 이렇게 부르기도 합니다.

· DLU (Deep Learning Unit)
· DLPU (Deep Learning Processing Unit)
· DLP (Deep Learning Processor)
· NPU (Neural Processing Unit)
· DNPU (Deep Neural Network Processing Unit)
· DNNE (Deep Neural Network Engine)
· TPU (Tensor Processing Unit)
· DLA (Deep Learning Accelerator)

지금은 호칭이 하나로 통일될 일이 없습니다. 그만큼 많은 아이디어가 나와 있지요. 여기에선 이들 프로세서의 이름을 NPUNeural Processing Unit)로 임의 표기합니다.

애플의 뉴럴 엔진은 그 자세한 내용이 알려져 있지 않습니다. 그러나 스마트폰 모바일 SoC에 NPU를 붙였다는 점에서 아키텍처의 방향성은 예측하기 쉽습니다. 사실 모바일 SoC가 어떤 방식으로던 신경망 처리 장치를 탑재하는 방향으로 나아가고 있으며, 애플의 움직임은 그 중 하나에 불과합니다. 그리고 모바일 SoC에 내장되는 NPU는 전력과 다이 영역에 한계가 있습니다.

추론에 최적화된 설계로 나아가는 모바일 NPU

모바일에서 NPU에 원하는 건 매우 명확합니다. 초 저전력, 작은 다이(내장 메모리 포함), 실시간 처리가 가능한 빠른 속도입니다. 낮은 전력 사용량을 위해 외부 메모리 액세스를 줄이고 내부 메모리를 많이 써야 합니다. 그래서 다이 영역에 내장 메모리를 넣는 게 중요합니다. 그리고 개별 유닛을 낮은 전력으로 구현하면 연산 유닛 수를 늘려 응답성을 높일 수 있습니다. 이 세가지 요소는 서로 밀접하게 얽혀 있습니다.

모바일과 임베디드에서 딥 러닝 신경망에 대한 요구. Deep Learning-Deep Neural Networks, Architectures and SoC Implementations(Hoi-Jun Yoo, KAIST, VLSI Symposium 2017)

그럼 애플의 뉴럴 엔진은 어떤 목적, 어떤 기능을 가진 코어라 할 수 있을까요? 이걸 정리해 보면 우선 첫번째는 신경망의 위상에 있습니다. 딥 러닝은 신경망 모델을 구축하는 학습 페이즈와, 학습의 결과로 인식을 수행하는 추론 페이즈가 있습니다. 모바일 디바이스에서 NPU는 추론에 특화한 방향으로 나아가고 있습니다. 전력 소비와 다이 영역, 메모리 대역폭의 제약 때문이죠.

학습과 추론의 2가지 페이즈

학습과 추론에는 전력과 다이 크기를 따져야 합니다. 모바일 디바이스의 전력과 비용 범위 안에서 정밀 인식 처리를 실현하려면 추론에 어느정도 최적화된 NPU 설계를 쓰지 않을 수 없습니다. 모바일에서는 딥 러닝과 추론을 모두 지원하는 범용 코어가 아닌 추론에 최적화한 설계가 대부분입니다. 애플의 뉴럴 엔진 역시 추론 프로세서라고 해야 합니다.

CNN 외에 신경망 지원

또 다른 중요한 요소는 다양한 신경망 구조에 대한 대응입니다. 구체적으로는 이미지 인식에 많이 쓰이는 Convolutional Neural Network (CNN) 뿐만 아니라, 음성이나 동작 같은 비주얼 데이터에 적합한 Recurrent Neural Network(RNN), 자연 언어 처리에 쓰이는 특수한 RNN인 Long / Short-Term Memory Network(LSTM)까지도 지원하는 유연성을 갖췄느냐가 중요합니다. 이들 네트워크 모델의 목록은 앞으로도 더 늘어날 가능성이 있습니다. 특정 네트워크 모델에 특화된 구조나 다양한 모델을 지원할 수 있는 유연성을 갖추는 게 핵심입니다.

문제는 여기에 있습니다. 특정 모델에 특화시키면 전력 효율과 영역 효율이 높은 NPU를 설계할 수 있습니다. 유연성을 갖추면 효율이 떨어지고 다이 영역도 커집니다. 이러면 신경망 연산 어레이 아키텍처에 영향을 줄 수 있습니다.

또 추론을 위한 NPU를 보면 용도에 따라 지원하는 네트워크 모델의 방향성이 달라지고 있습니다. 딥 러닝이 처음 나왔을 당시엔 이미지 인식 CNN이 성공하면서 하드웨어도 CNN에 특화시키는 방향이었습니다. CCTV와 드론에 탑재하는 AI 이미지를 대상으로 한 NPU는 지금도 CNN의 주요 용도입니다. 그러나 스마트폰에 탑재되는 NPU는 방향이 좀 다릅니다. 음성, 동작, 자연 언어까지 대상으로 삼기 때문입니다.

이러한 배경을 감안할 때 모바일 NPU의 모벨은 유연성이 있는 아키텍처 위주로 나아가는 듯 합니다. 실제 하드웨어에서 어떨지는 아직 명확하지 않지만 그렇게 예상 가능합니다. 무엇보다 애플의 첫 뉴럴 엔진이 그런 유연성을 갖췄을지는 모릅니다. 지곤의 흐름에선 CNN을 위한 프로세서라는 쪽에 가까웠기에 NPU 아키텍처 개발에 걸리는 시간을 감안하면 바뀔 수도 있습니다.

신경망의 정밀도

애플은 뉴럴 엔진의 성능이 600 billion operations per second, 추론용 NPU는 FLOPS (Floating Operations Per Second) 대신 OPS (Operations Per Second)를 단위로 사용합니다. 이것은 연산 데이터가 부동소수점이 아닌 정수인 경우가 많아서입니다.

부동소수점 연산 위주의 GPU라면 성능의 단위는 TFLOPS (Tera Floating Operations Per Second)가 됩니다. 그러나 정수 연산의 NPU라면 TOPS (Tera Operations Per Second)와 GOPS를 단위로 씁니다. 애플이 뉴럴 엔진의 성능을 이야기할 때 operations per second라는 단위를 쓴다는 건 이게 정수 연산 코어임을 암시합니다. 애플 뉴럴 엔진의 추론 성능을 일반적인 프로세서의 단위로 바꾸면 600 GOPS (Giga Operations Per Second)가 됩니다. 100 GOPS의 신경망 성능은 지금의 모바일 NPU에서 표준 범위에 속하나 앞으로는 TOPS 단위로 늘어날 것입니다.

딥 러닝에선 데이터의 수치 정밀도에 대한 개념이 빠르게 바뀌고 있습니다. 어느 정도 데이터 정확도를 떨어트려도 실제 추론 정밀도가 그리 떨어지지 않아서입니다. 딥 러닝에선 데이터 정확도를 32비트 부동소수점에서 16비트 부동소수점, 16비트 정수로 낮춰가는 추세입니다. 추론에선 학습보다 데이터 정밀도를 더 낮춰도 되기에 16비트 부동소수점/정수에서 8비트 정수, 4비트 정수, 더욱 극단적으로는 바이너리, 혼합 정밀도까지 나오고 있습니다.

신경망의 수치 정밀도

추론 단계에서는 데이터의 정확도를 상당 수준 떨어뜨려도 추론 정확도가 그만큼 떨어지진 않습니다. 그리고 데이터의 수치 정밀도, 연산 코어의 전력 소비, 다이 크기, 데이터 전송 대역폭, 외부 메모리 대역폭과도 밀접한 관련이 있습니다. 데이터 정확도를 낮출수록 전력과 공간 효율성은 높아집니다. 그만큼 연산 유닛 수를 늘려 추론 성능을 높일 수 있습니다. 따라서 추론의 정확성과 성능/전력/비용(PPA : Performance, Power, Area) 중에서 균형을 잡아야 합니다. 하지만 정밀도를 어디까지 낮춰야 좋을지 판별하기 어렵기에, 상황을 봐가면서 서서히 낮추고 있습니다.

모바일과 임베디드을 대상으로하는 추론 NPU에선 정수 연산을 쓰는 경우가 늘어나고 있습니다. 이것은 부동 소수점 연산 유닛이 정수 유닛보다 훨씬 더 많은 전력과 다이 영역을 차지해서입니다. 모바일 NPU에서 몇 백 GOPS와 몇 TOPS의 성능을 달성해 실시간 응답성을 높이려면 정수 계열의 데이터를 쓰는 게 알맞습니다. 다만 정확도를 정하는 건 아직 시행 착오의 단계입니다.

신경망의 데이터를 압축 정리
　

신경망의 데이터 타입과 수치 정밀도를 조절해 연산 유닛과 데이터 전송의 전력 소비를 낮출 수 있습니다. 모바일 NPU에서 전력 절약과 공간 절약의 기술은 그 외에도 여러가지 방법이 있습니다. 이런 기술은 2017년 6월에 개최된 반도체 학회인 2017 Symposia on VLSI Technology and Circuits에서 카이스트의 H.-J. Yoo가 설명했습니다.

모바일과 임베디드, 저전력/공간 절약의 관점에서 NPU에 대한 다양한 접근. Deep Learning-Deep Neural Networks, Architectures and SoC Implementations(Hoi- Jun Yoo, KAIST, VLSI Symposium 2017)

이러한 접근 방식 중에서도 데이터의 압축도가 높고 중요하게 여겨지는 건 추론의 가지치기(Pruning)입니다. 추론을 위해 학습된 신경망에서 중요도거 떨어지는 연결을 쳐내는 것. 이로서 신경망의 가중치 데이터 용량이 극적으로 줄어들게 됩니

사실 이런 정리는 인간의 뇌에서 실제로 이루어지는 현상이며, 유아일 때는 신경 세포의 모든 부분이 결합됐으나, 점차 성장하면서 쓰지 않는 시냅스 결합이 사라지고 간단한 네트워크로 변해갑니다. 아래는 VLSI Symposia에서 퀄컴이 설명한 그림인데, 사람의 뇌에서 이루어지는 현상을 신경망에 응용했다는 것입니다.

사람의 뇌 변화. Deep Learning for Mobile and Embedded Devices "(Mickey Aleksic, Qualcomm, VLSI Symposium 2017)

신경망 정리의 기본. Deep Learning-Deep Neural Networks, Architectures and SoC Implementations "(Hoi-Jun Yoo, KAIST, VLSI Symposium 2017)

신경망을 압축해서 정리

데이터 정밀도의 감소와 가지치기, 그 외 여러 방법을 더해서 학습된 신경망 데이터를 극적으로 압축하는 것이 가능합니다.모바일 NPU에선 이것이 매우 중요한데, 그러먼 신경망의 데이터를 온칩 메모리에 넣을 수 있기 때문입니다.

일반적으로 엄청난 용량인 웨이트 데이터를 몇십분의 일로 압축해 내장 메모리에 저장하면 효과가 매우 큽니다. 외부 메모리의 액세스를 대폭 줄일 수 있기 때문입니다. 소비 전력이 크게 줄어들어 모바일에 알맞는 전력 범위 안에서 높은 수준의 응답 추론이 가능합니다. 또 내장 메모리 아키텍처 자체를 신경망에 최적화하기도 쉬워집니다.

가지치기의 하드웨어 지원도 압축된 데이터를 메모리에서 그대로 처리하는 것과, 연산 과정에서의 대응 방법(예를 들면 0을생략한다던가) 등이 있습니다.

후지쯔가 발표한 컴퓨테이션의 밀도를 높이는 방법. Advanced Techniques for High-Speed Deep Learning on Large-scale Neural Networks in the Cloud '(Yasumoto Tomita, Fujitsu Laboratories LTD., VLSI Symposium 2017)

가지치기를 하드웨어적으로 지원하는 NVIDIA의 DLA. 자동차용 프로세서인 자비에르에 내장

지금은 아이폰 X에 내장된 뉴럴 엔진의 확실한 정보를 알 수 없습니다. 그러나 모바일 NPU의 개발 방향을 통해 그 내역을 짐작할 수 있습니다.

2017년 전반까지의 NPU에 대한 논문. NVIDIA DLA의 기반이 된 것으로 보이는 스탠포드 대학의 EIE. Deep Learning for Mobile and Embedded Devices"(Mickey Aleksic, Qualcomm, VLSI Symposium 2017)

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '12'

늘푸른해리 히후미 귀여워요 히후미 2017.10.24 06:43

데이터 정밀도를 많이 낮추어도 괜찮다니 신기하군요
int20h 메인: Intel i7-5960X@4.4GHz, DDR4 2666MHz 128GB RAM, GALAX GTX1080TI ... 2017.10.24 12:06

실제로 정밀도가 16비트 부동소점이여도 상관없다고 해요..
캐츄미 5700g, 5800x, 5950x 2017.10.24 07:54

모바일이면 음성인식에서 주로 쓰이게 될까요??
GODAMD 10850K+32G+RTX3080+4T+240Hz 2017.10.24 09:06

향후 발전이 있어보이네요
?
şandin 2017.10.24 09:28

앞으로의 10년은 여기에 달려있는거 같아요
제생각일뿐인데 향후 Cpu 건 ap건 거의 모든 soc가 dlpu 여기선 npu (약간 접근방식이 다른거지만)
가 보조유닛으로서 나아갈 방향이 광범위해서요
단순히 연산능력향상에서 부터 (굴착기라던지 굴착기라던지..)
구글에서 진행중인 제로베이스의 빅데이터를 필요치않는 빅데이터 처리장치로서 복잡다다한 케이스에
해결 유닛에 (이건 Npu 개념과 흡사한) 인텔에서 나가는 분야인 명령어셋 최종진화형으로서의 만능키역할까지
.. 지금도 약간 그런면이 있지만 지금의 프로그래밍과 10년후의 프로그래밍은 전혀 다른모습일거라 생각해요
Cli 빠이염
?
şandin 2017.10.24 09:31

여기서 채감될 가장 두드러진 부분은 npu 탑재 유닛과 비 npu탑재유닛간의 긱벤치 테스트 결과가 매우 다를거 란점정도가
백원이닷 돈까스 좋아요!! 2017.10.24 12:01

메모리 접근에도 신경망 유닛이 관여를 하는건가요?
'낮은 전력 사용량을 위해 외부 메모리 액세스를 줄이고 내부 메모리를 많이 써야 합니다.'
이 부분에서 외부메모리 접근을 최대한 줄이기 위해 내부 메모리의 힛 확률을 높이고자 한다는 느낌도 드네요.
?
나뭉이 2017.10.24 13:33

먼지는 잘모르겠지만 말하는게 사이버포뮬러 대사같군요 ㅎㅎ
AVG 멍멍이 2017.10.24 16:38

이게 그 진짜 인공지능으로의 발판이군요..
하루라도 빨리 발전되길 바랍니다
neon 2017.10.24 18:29

적당히 계산하고 boolean처리 하는 느낌인가..
?
양아 2017.10.25 03:41

자주쓰는 카톡이나 페이스북 같은 경우는 아이폰8보다 노트8이 더 빠른 걸 유투브에서 봤는데 점수차는 압도적이던데 왜 그런지 아시는분?
부녀자 2017.10.26 07:57

신경망 전용 프로세서가 있어도 사실상 애플에서 만든 앱에서만 그 기술이 활용 될 것 같아요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

삼성, CES 2020에서 소수의 사람들에게 새로운 것을 보여줌

(단순 중국어 번역문입니다) 오늘 아침 한국의 ET 뉴스는 삼성이 플렉시블 플렉시블 OLED 스크린이 장착 된 프로토 타입을 개발 하여 CES에 가져 왔다는 믿을만한 소식이 있다고 밝혔다 . 그러나 대부분의 전시 제품과 달리 삼성은 소수...

Date2020.01.08 소식 By라데온HD6950 Reply1 Views1641

Read More
HTC의 매출이 계속 줄어들면..?

#갈수록 줄어드는 HTC의 매출 그래프 HTC의 2019년 매출은 한화로 얼마인가? $333m = 약 3889억 2천 만 원. 2018, 2019년 매출이 매번 반토막 났는데... 2020년에 또 매출이 반토막 나면 어떻게 될까요? 　　　　　　　...

Date2020.01.08 일반 By깍지 Reply12 Views1685

Read More
OnLeaks, 4.7 인치 iPhone 9 (iPhone SE 2)의 렌더링 공개

연쇄 유출마로 유명한 OnLeaks가 4.7인치 아이폰9(아이폰SE2) 렌더링을 공개했습니다. 아이폰9는 아이폰8과 거의 동일한 외형이지만 아이폰8 대비 두께가 0.5mm 늘어났으며, 아이폰 11 프로처럼 무광 유리를 사용합니다.

Date2020.01.08 소식 By깍지 Reply12 Views1822

Read More
삼성, CES 2020 발표 슬라이드중 애플의 FaceID 아이콘을 사용

삼성은 애플에서 영감을 얻은 디자인을 사용하거나 카피한 사례가 과거 여러 차례 있었습니다. 지난 몇 년 동안 삼성이 애플의 디자인을 카피한 사례가 크게 줄었지만, 어제 CES 2020 발표중 삼성패스 슬라이드에서 애플의 Face ID...

Date2020.01.08 소식 By깍지 Reply10 Views2087

Read More
TCL의 폴더블 스마트폰

TCL의 폴더블 스마트폰입니다. 작년 2월의 MWC에서 프로토타입을 공개한데 이어 CES에서도 폴더블 스마트폰을 들고 나왔군요. 요새 폴더블이 화제니까 뭔가 나오기는 하는데, 갤폴드 말고 시장에 제대로 나온 애가 있던가..

Date2020.01.08 소식 By낄낄 Reply17 Views1207

Read More
화웨이 메이트패드 5G 버전의 스펙

화웨이 메이트패드 프로 5G 태블릿의 스펙입니다. 10.8인치와 12.8인치 스크린, 3D 얼굴 인식 잠금 해제, 120Hz LCD, 개선된 뒷면 카메라, 에어 제스처, 빨라진 M 펜슬, 그리고 기린 990 5G SoC.

Date2020.01.08 소식 By낄낄 Reply2 Views620

Read More
갤럭시 S20은 120Hz AMOLED 사용

삼성 갤럭시 S20 시리즈는 120Hz AMOLED 디스플레이를 사용합니다. 삼성 최초의 120Hz입니다. 원 UI 2.0 베타 버전에 이미 120Hz 옵션이 들어갔었지요. 다른 스펙은 스냅드래곤 865, LPDDR5 메모리, USB 3.0, 1억 화소 카메라, 고속 충전.

Date2020.01.08 소식 By낄낄 Reply5 Views1483

Read More
옴니비전 4800만 화소 폰카용 센서

옴니비전의 폰카용 센서인 OV48C입니다. 4800만 화소, 4개의 픽셀을 합쳐서 1200만 화소로도 사용 가능, 센서 크기 1/1.3인치, 4K/8K 동영상 녹화와 360fps 슬로우 모션이 가능합니다.

Date2020.01.08 소식 By낄낄 Reply1 Views561

Read More
소니 엑스페리아 5 플러스의 렌더링 이미지 유출

소니 엑스페리아 5 플러스의 렌더링 이미지가 유출됐습니다. 작년 9월에 엑스페리아 5, 이번에는 거기에 플러스를 붙였군요. 더 얇은 베젤, 6.6인치 OLED 스크린, 전면 스피커 2개, 두께 8.1mm(카툭튀 9.3mm), 우측에 지문 센서 내장 전...

Date2020.01.08 소식 By낄낄 Reply5 Views630

Read More
미디어텍 Dimensity 800 프로세서 출시

미디어텍이 Dimensity 800 프로세서를 공개했습니다. 올해 상반기에 이 프로세서를 탑재한 스마트폰이 나옵니다. 7nm 공정, 5G 네트워크, 2CC 캐리어 어그리게이션 지원, SA/NSA Sub-6GHz 네트워크, 2G부터 5G까지의 멀티 모드 지원. A76 ...

Date2020.01.08 소식 By낄낄 Reply4 Views539

Read More
저도 에어팟 프로 받았습니다.

극성 앱까인 제가 왔습니다. 과연 에어팟 프로는 얼마나 가혹한 평을 받을것인가... 정말 운좋게 X 싸다가 새로고침해서 얻은 귀한 에어팟 프로입니다. 184달러라 와 이거완전 아..무튼...혜자임.... 배송중에 긁힌건...

Date2020.01.07 일반 By슈베아츠 Reply33 Views1338

Read More
리얼미 X50 5G 스마트폰 정식 발표

리얼미 X50 5G 스마트폰이 정식으로 발표됐습니다. 8+128GB 2699위안, 6+256GB가 2999위안, 12+256GB가 3099위안입니다. 1월 14일에 출시. 6.57인치에 20:9 비율, 화면 점유율 90.4%에 120Hz 리프레시율의 화면, 스냅드래곤 765G, 52 5G ...

Date2020.01.07 소식 By낄낄 Reply0 Views424

Read More
델, AI 최적화 기술을 제공하는 노트북, 래티튜드 9510

델 래티튜드 9510 노트북입니다. 가격은 1799달러부터. AI 기반 최적화 기술인 델 옵티마이저를 내장, 자주 쓰는 애플리케이션의 시작/전환 속도 개선, 충전 패턴과 전력 사용 패턴을 감지해 배터리 수명 연장, 사용자가 가까이 오면 빠르...

Date2020.01.07 소식 By낄낄 Reply0 Views671

Read More
기가바이트, 옴론 스위치를 장착한 어로스 17 노트북의 최신 버전

기가바이트 어로스 17의 최신 모델입니다. 17.3인치 화면, 옴론의 LP 타입 기계식 스위치 장착, 키 스트로크 2.5mm, 내구성은 1500만번, RGB 퓨전 2.0. 풀 HD 해상도에 240Hz 리프레시율, 코어 i9 8코어, 지포스 RTX 그래픽카드, ESS 세이...

Date2020.01.07 소식 By낄낄 Reply1 Views525

Read More
No Image

adb device 연결이 안 됩니다.

중국산 듣보 태블릿의 DPI를 조절하기 위해 adb를 사용하려고 합니다. 우선 adb 드라이버를 설치했고, 첫 번째는 정상적으로 인식이 되었습니다. 그래서 adb shell wm density 560 && adb reboot 를 입력하고 이후 DPI가 정상...

Date2020.01.07 질문 By우즈 Reply2 Views444

Read More