Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다. 2016년 7월 이전의 글은 다음 링크를 참조하세요. 구 모바일 뉴스 / 구 모바일 포럼 / 구 뉴스 리포트 / 구 특집과 정보 / 구 스페셜 게시판 바로가기

소식, 참고
2018.05.27 01:24

Arm의 머신 러닝 전용 프로세서 Arm ML

profile
조회 수 1485 댓글 0
Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...23327.html

머신 러닝에 특화된 Arm ML 프로세서

 

1.jpg

 

Arm이 머신 러닝(ML) 전용 프로세서 IP를 정식으로 발표했습니다. Arm의 Arm ML 프로세서(Machine Learning Processor) 는 최근 여러 회사에서 속속들이 등장한 신경망 프로세서(NPU)처럼 신경망(Neural Network : NN)를 저전력 고성능으로 실행합니다. CPU 나 GPU, DSP의 확장이 아니라 처음부터 ML 처리 전용으로 설계된 전용 아키텍처입니다. Arm은 Arm ML를 올해 2월에 출시한다고 발표했는데 그 세부 내용이 드디어 공개됐습니다.

 

2.jpg

 

Arm ML은 다른 Arm IP 코어와 마찬가지로 확장 가능한 코어입니다. 16코어까지 확장할 수 있어 IoT(The Internet of Things), 자동차, 심지어 서버에도 사용 가능합니다.

 

3.jpg

 

IoT과 모바일에 맞춰 전력 효율은 7nm 공정에서 1W 당 3TOPS(trillion operations per second)로 매우 높습니다. 머신 러닝의 추론에 최적화된 아키텍처로 최대 구성에서 4.6TOPS(Trillion Operations Per Second)의 성능이 나옵니다.

 

모바일에 포함된 NPU(Neural Processing Unit)는 많지만 Arm ML은 몇 가지 두드러진 특징이 있습니다. 신경망은 CNN(Convolutional Neural Network)에 적합한 구조를 갖고 있으나 Recurrent Neural Network(RNN)나 Long/Short-Term Memory Network(LSTM) 등 다른 네트워크 모델에도 대응할 수있는 유연성을 가집니다. 따라서 CNN으로 이미지 인식을 하거나 LSTM과 RNN을 써서 음성 인식 처리에 사용하는 것이 가능하고, 앞으로 나올 새로운 NN도 지원합니다.

 

Arm ML은 전력 효율을 높이기 위해 데이터 정확도는 INT8(8비트 정수)만 지원하며 부동소수점 연산은 아예 지원하지 않습니다. 유연한 처리를 위해 곱셈(Multiply-Accumulate : MAC) 유닛 어레이와 MAC 확장 프로세서의 2개의 유닛을 갖춥니다. 추론의 전력 효율 향상에서 중요한 가지 치기(Pruning)는 하드웨어로 지원하며, 정리된 데이터를 압축해서 저장되는 SRAM이 포함됩니다. 또 여러 컴퓨팅 엔진의 구성으로 확장 가능한 제어용 동기화 유닛(Sync Unit)를 포함합니다.

 

한마디로 말하자면, Arm ML은 현재 나온 NPU 중에서는 최첨단 기능과 성능을 갖췄습니다. 예를 들어 가지 치기는 메모리 압축뿐만 아니라 컴퓨테이션의 압축도 지원합니다. 성능으로 따지면 아이폰 X/8에 내장된 NPU인 뉴럴 엔진은 600 GOPS(Giga Operations Per Second)인데 Arm ML의 최대 구성은 그 7배 이상입니다.

 

그러나 Arm ML은 올해 중반에 소프트 매크로인 RTL(Register Transfer Level)이 출시되며 Arm ML을 탑재한 칩의 등장은 2019년입니다. 지금은 대단한 성능이지만 2019년이 되면 평범한 수준이 될지도 모릅니다.

 

 

하드웨어 인식 MAC 컨볼루션 엔진

 

4.jpg

 

Arm ML 프로세서는 연산 코어인 컴퓨팅 엔진(Compute Engine)을 중심으로 구성됩니다. Arm ML은 최대 16개의 컴퓨팅 엔진으로 구성됩니다. 각 컴퓨팅 엔진은 128개의 8비트 곱셈 유닛(Multiply-Accumulate : MAC)를 갖춘 어레이, MAC 컨볼 루션 엔진(MAC convolution engine)과 16-way의 MAC 유닛을 갖춘 프로세서, 프로그래머블 레이어 엔진(Programmable layer engine : PLE)을 포함합니다.

 

5.jpg

 

6.jpg

 

컴퓨팅 엔진의 개요

 

Arm ML은 ML 프로세서 전체를 제어하는 ​​MCU 제어 장치가 각 컴퓨팅 엔진에 태스크를 파견합니다. 컴퓨팅 엔진끼리는 브로드 캐스트 네트워크로 연결되며, 동기화 장치가 컴퓨팅 엔진 사이의 동기화를 제어합니다. 호스트 인터페이스는 ACE-Lite에서 CPU와 I/O 일관성을 가집니다. 즉 Arm ML 코어가 CPU 코어의 캐시를 스누핑할 수 있으나 그 반대는 안 됩니다.

 

각각의 컴퓨팅 엔진은 데이터를 저장하는 용량을 조절 가능한 SRAM을 포함합니다. weight와 activation 데이터의 저장과 처리를 내부 SRAM에서 진행합니다. 컴퓨팅 엔진에서 기능 로딩 유닛이 SRAM에서 map을 읽고 웨이트 디코더에서 정리해 압축된 데이터를 불러와 디코딩을 진행합니다.

 

7.jpg

 

0 값의 데이터를 압축해 메모리 용량을 줄임

 

8.jpg

 

피처 맵과 웨이트의 압축으로 전력 절감

 

9.jpg

 

추론 프로세서 효율 향상의 핵심

 

10.jpg

 

데이터를 공유해 불필요한 메모리 읽기를 줄임 

 

데이터는 연산 어레이인 MAC 컨볼루션 엔진에 보내집니다. MAC 컨볼루션 엔진은 1D의 벡터 구성의 MAC 유닛이 배열됩니다. NN의 2D 매트릭스 연산이 1D 배열에 매핑되는 점은 볼타 외에 다른 GPU의 구현과 비슷합니다. NPU에 많은 2D 어레이 구성을 넣지 않은 건 가지치기의 하드웨어 지원 때문일지도 모릅니다.

 

MAC 어레이는 인풋과 아웃풋은 8비트지만 내부 정밀도는 그보다 확장됩니다. 8비트인 이유는 현재 NN 도구에서 추론 레퍼런스 용으로 지원하는 정밀도가 대부분 8비트라 그렇습니다. MAC 배열은 룩업 테이블을 사용해 정리된 부분의 연산을 건너 뛰고 빈 연산 슬롯을 채워 처리량을 올리는 구조입니다. 따라서 Arm ML의 ML 성능은 겉으로 표기한 성능 이상으로 높아집니다.

 

 

다용도 프로세서 PLE도 탑재
 

Arm ML 컴퓨팅 엔진은 MAC 배열과는 별도로 프로그램 레이어 엔진(Programmable layer engine : PLE)이라고 부르는 마이크로 컨트롤러를 포함합니다. PLE의 실체는 Arm의 MCU(마이크로 컨트롤러)를 기반으로 신경망을 위한 확장 엔진을 추가한 프로세서입니다. 벡터 명령과 NN위한 명령을 추가하고 16레인의 벡터 엔진을 갖춥니다. PLE는 MAC 배열에서 독립적 인 프로세서이며 전용 SRAM 워킹 메모리도 내장합니다.

 

11.jpg


컴퓨팅 엔진에 탑재 된 PLE

 

12.jpg

 

임베디드 프로세서를 확장한 PLE 아키텍처
 

PLE는 신경망에서 MAC 어레이에 적합하지 않은 모든 작업을 수행하는 장치입니다. NN 풀링과 활성화 제어, 가지치기 등의 압축 데이터 실행 제어를 PLED가 합니다. NPU는 이 부분의 전용 하드웨어입니다. Arm은 프로그래머블 프로세서를 넣어유연성을 갖췄습니다. 컴퓨팅 엔진을 제어하는 ​​마이크로 컨트롤러에 NN 연산 기능까지 넣은 것이 PLE이라고 볼 수 있습니다.

 

Arm ML의 전체 디자인을 보면 이미지 인식 CNN을 초기 목표로 삼아 개발한 듯 합니다. 하지만 PLE를 통해 다른 신경망 모델에도 유연하게 대응할 수 있습니다. 이것은 어떤 모델이 유행할지 예상하기 어려운 현재의 ML에서 중요한 기능입니다.다만 지금의 추론 NPU는 다른 신경망 모델에 유연하게 대응해나가고 있어 Arm ML이 등장할 무렵에는 다른 NPU도 비슷한 유연성을 갖출 확률이 높습니다.

 

 

Arm 머신 러닝 솔루션을 보조하는 OD 프로세서
 

Arm은 머신 러닝에서 Arm ML 프로세서의 도입에 맞춰 객체 인식 전용 프로세서인 Object Detection도 준비합니다. Arm은 OD 프로세서를 이미 출시 중이며, Hive와 Hikvision의 보안 카메라에 내장 코어로 도입된 바 있습니다. Arm은 Arm ML과 함께 OD 프로세서도 2세대로 강화해 Arm ML과 ​​조합할 수 있도록 합니다. 

 

13.jpg

 

실시간 처리의 OD 프로세서

 

14.jpg

 

Arm ML이나 GPU와 조합도 가능

 

OD 프로세서는 이미지와 동영상에서 사람의 얼굴이나 자동차, 도로 표지판 등을 확인합니다. 객체 탐지 ​​전문이라 실시간으로 정확한 감지가 가능합니다. 2세대 OD 프로세서는 풀 HD 60프레임 동영상에 나온 군중 속에서 실시간으로 얼굴 하나하나를 감지하는 처리가 가능합니다. 개체 크기는 50x60 픽셀까지, Arm ML과 ​​함께 개체 탐지를 맡아 NN 수준을 높일 수 있습니다.

 

 

ML을 위한 소프트웨어 스택도 정비


Arm은 머신 러닝에 대한 대응을 급격히 진행 중입니다. CPU에선 Cortex-A 시리즈에 머신 러닝을 지원하기 위한 dot product 명령을 추가했습니다. GPU에서도 이런 명령을 추가해 머신 러닝 성능을 대폭 향상시켰습니다. 이번에는 머신 러닝 전용 Arm ML을 내놓아, Arm은 머신 러닝에서 CPU, GPU, NPU의 세가지 솔루션을 나란히 갖췄습니다. 이들 솔루션은 성능과 전력 효율이 크게 다릅니다. 추론에서 효율이 가장 높은 건 Arm ML이지만 학습을 장치 쪽에서 수행한다면 CPU와 GPU가 적합합니다. 

 

Arm ML은 우선 스마트폰과 태블릿용 모바일 SoC에 구현될 것이라 보여집니다. CPU와 GPU 외에 제 3의 프로세서로서 Arm ML NPU 코어가 탭재되는 것입니다. 머신 러닝 워크로드의 전력 효율이 매우 높은 Arm ML 코어로 오프로드해 머신 러닝의 인식 처리가 쉬워집니다. 

 

또한 Arm ML은 차지하는 공간을 줄일 수도 있기에 IoT 칩에 넣을 수도 있습니다. Arm ML의 최대 구성이라면 자동차 탑재도 가능합니다. 서버 쪽의 추론에서는 높은 에너지 효율성이 필요합니다.

 

Arm은 머신 러닝을 위한 소프트웨어 스택도 내놓습니다. Arm의 머신 러닝 솔루션에 최적화한 라이브러리를 제공해 기존의프레임워크인 텐서플로우, Caffe/Caffe2, mxnet, 안드로이드 NNAPI에서 Arm이나 파트너의 머신 러닝 하드웨어에 액세스할 수 있습니다.

 

15.jpg

 

Arm의 머신 러닝 솔루션을 추상화하는 라이브러리를 제공

 

16.jpg

 

Arm의 이종 혼합 머신 러닝 솔루션을 지원하는 소프트웨어 스택

 

17.jpg

 

Arm의 종합 머신 러닝 솔루션

 

18.jpg

 

안드로이드의 NNAPI 지원

 

19.jpg

 

런타임에 최적화된 하드웨어를 선택 




  1. 라이젠+베가 56 조합 에이서 노트북

    에이서 Predator Helios 500 노트북 https://gigglehd.com/gg/2921466 여기에 인텔+NVIDIA 대신 라이젠 7 2700과 라데온 RX 베가 56을 조합한 모델도 있다고 합니다. 다만 이 조합의 가격은 모르겠네요. G-SYNC도 지원하진 않을테고.
    Date2018.05.29 소식, 참고 By낄낄 Reply9 Views617 file
    Read More
  2. ZMI의 안드로이드 4G 피처폰?

    보조배터리로 잘 알려진 ZMI가 핸드폰을 내놓을 것 같습니다. P2801이라는 이름의 물건이 중국 전파 인증 사이트에 나왔거든요. 듀얼 심, TD-LTE/LTE FDD/WCDMA/GSM, 운영체제는 안드로이드인데 일단 생긴 건 피처폰스럽습니다.
    Date2018.05.28 소식, 참고 By낄낄 Reply6 Views601 file
    Read More
  3. 2세대 올웨이즈 커넥티드 PC의 성능

    올웨이즈 커넥티드 PC를 구현한 스냅드래곤 기반의 PC 2세대가 나올 예정입니다. 좀 더 쉽게 말하면 스냅드래곤 835에 이어 스냅드래곤 845 기반 제품이 나올 예정. 긱벤치에 등록도 됐네요. 레노버 Europa 이건 스냅드래곤 835 기반 윈도...
    Date2018.05.28 소식, 참고 By낄낄 Reply5 Views753 file
    Read More
  4. Nanfu의 무선 충전 패드 겸 보조 배터리

    Nanfu의 무선 충전 패드입니다. 가격은 199위안. 10000mah 용량의 보조배터리 기능도 있습니다. 아이폰 X는 두번, 아이폰 8은 3번 완충 가능, 다른 무선 충전 스마트폰도 사용 가능하며 무선/유선 충전을 동시에 할 수 있습니다. 9중 보호...
    Date2018.05.28 소식, 참고 By낄낄 Reply2 Views402 file
    Read More
  5. 애플 맥북의 새로운 힌지 특허

    애플 맥북의 새로운 힌지 특허입니다. 서피스 북과 비슷한 구조처럼 보이네요.
    Date2018.05.28 소식, 참고 By낄낄 Reply6 Views878 file
    Read More
  6. 갤럭시 노트 9가 7월 29일에 발표?

    갤럭시 노트 9가 7월 29일에 발표된다는 소문입니다. 이건 긱벤치. 엑시노스 9810과 스냅드래곤 845가 있습니다. 아래는 갤럭시 노트 9의 정면 패널의 사진입니다. 노트 8에 비해 그리 큰 변화는 없는 듯 합니다. http://www.slashleaks....
    Date2018.05.28 소식, 참고 By낄낄 Reply4 Views649 file
    Read More
  7. 갤럭시 A9 스타라인 등장

    중국의 전파 인증 사이트에 갤럭시 A9 스타라인 SM-G8850이 등록됐습니다. 6.28인치에 18.5:9 비율 2220x1080 해상도 스크린, 상/하 배열의 2400만+1600만 화소 카메라, 2400만 화소 전면 카메라, 스냅드래곤 660, 3700mAh 배터리, 안드...
    Date2018.05.28 소식, 참고 By낄낄 Reply5 Views682 file
    Read More
  8. 샤오미 미 밴드 3가 나올 것

    샤오미가 미 8 발표회에 맞춰 미 밴드 3도 함께 발표할 것으로 보입니다. 더욱 둥글둥글한 디자인, 더 커진 OLED가 특징일 듯.
    Date2018.05.28 소식, 참고 By낄낄 Reply1 Views629 file
    Read More
  9. 레노버 Z5가 6월 5일에 발표

    레노버 Z5가 6월 5일에 발표됩니다. 45일 대기가 가능한 배터리 4TB 용량 95%의 화면 점유율 듀얼 카메라. 아래의 로고는 화웨이를 따라했군요.
    Date2018.05.28 소식, 참고 By낄낄 Reply5 Views410 file
    Read More
  10. No Image

    스마트폰 노치패널 제조비가 아닌거에 비해 20%정도 비싸다고 합니다

    패널 원가가 아닌 제조비만 따진 기사입니다 아이폰X에 들어가는 노치OLED는 29달러로 추정되며 S9에 들어가는 5.8인치의 OLED보다는 25%비싸다고 합니다 LCD패널도 비슷한 상황인게 노치 LCD패널은 제조비가 19달러이며 비슷한크기의 노...
    Date2018.05.28 소식, 참고 ByBlackbot Reply4 Views493
    Read More
  11. No Image

    버라이즌 기반의 픽셀/픽셀 XL의 부트로더 언락이 가능

    미국에선 버라이즌만이 구글 픽셀 시리즈를 판매합니다. 구글에서 직접 구매하는 것과 달리 부트로더 언락을 막아놔, 사용자의 수정을 불가능하게 합니다.   xda 포럼에서 이 부트로더 언락 제한을 우회하는 방법을 알아냈습니다.   1. 기...
    Date2018.05.28 소식, 참고 By실핀 Reply5 Views472
    Read More
  12. G6 보름간의 사용 후기

    최근 출시된 제품의 디스플레이 이슈때문에 대차게 까이고 있는(..) 회사에서 나온지 일년 조금 넘은 G6의 지극히 개인적인 사용후기를 몇자 적어봅니다.   먼저 구입목적은 게임용으로 사용할 예정이었고, 번호를 2개 사용하는지라 와이...
    Date2018.05.27 일반, 잡담 By두리 Reply20 Views1310 file
    Read More
  13. No Image

    외산폰은 영상통화 안되나요?

    외산폰은 영상통화 안되나요?   카메라나 마감 여러가지 부분에서 샤오미,화웨이,원플러스,HTC, 노키아,소니 등 외산폰도 괜잖게 나오던데..   우리나라는 너무 장벽이 크네요... 유플러스는 VoLTE문제로 사용이 어렵고   영상통화불가에 ...
    Date2018.05.27 질문, 토론 Byconix Reply12 Views866
    Read More
  14. Arm의 머신 러닝 전용 프로세서 Arm ML

    머신 러닝에 특화된 Arm ML 프로세서 Arm이 머신 러닝(ML) 전용 프로세서 IP를 정식으로 발표했습니다. Arm의 Arm ML 프로세서(Machine Learning Processor) 는 최근 여러 회사에서 속속들이 등장한 신경망 프로세서(NPU)처럼 신경망(Neur...
    Date2018.05.27 소식, 참고 By낄낄 Reply0 Views1485 file
    Read More
  15. 구글, 카비레이크-G 크롬북 준비중?

    크로미움 OS 코드에서 KBL-G, 즉 카비레이크-G라는 문구가 발견됐습니다. 따라서 구글이 카비레이크-G를 탑재한 크롬북을 내놓지 않을까 추측됩니다.
    Date2018.05.26 소식, 참고 By낄낄 Reply5 Views658 file
    Read More
목록
Board Pagination Prev 1 ... 7 8 9 10 11 12 13 14 15 16 ... 318 Next
/ 318

최근 코멘트 30개
칼토로스
03:14
까마귀
02:48
PLAYER001
02:40
白夜2ndT
02:30
파팟파파팟
02:10
Lynen
02:06
낄낄
01:56
그뉵미남좌식
01:51
칼토로스
01:51
VCSEL
01:27
설아
01:17
ExyKnox
01:06
babozone
01:03
청염
01:00
白夜2ndT
00:59
白夜2ndT
00:58
白夜2ndT
00:57
Recette
00:53
파팟파파팟
00:50
보리챠
00:49
네모난지구
00:48
방송
00:44
방송
00:40
AKG-3
00:32
Kovsky
00:28
Kylver
00:26
idiot
00:26
Kylver
00:26
idiot
00:23
슈베아츠
00:22

MSI 코리아
와사비망고
쓰리알시스템

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소