모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2018.03.09 04:04

arm, 딥 러닝에 맞춰 확장된 GPU, Mali-G52를 발표

조회 수 2382 댓글 2

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...10352.html

베이징에서 Mali의 새 시리즈를 발표

Mali 아키텍처를 대폭 확장
　

Arm이 머신 러닝을 본격적으로 시작합니다. Arm의 GPU, Mali 시리즈의 메인스트림 IP에 머신 러닝을 위한 명령어를 포함합니다. 구체적으로는 머신 러닝의 추론용으로 8-bit 정수(Int8) 특수 연산 명령을 더했습니다. 또 GPU의 마이크로 아키텍처도 크게 변경해, SIMT (Single Instruction, Multiple Thread)의 실행을 4스레드에서 8스레드로 확장했습니다.

Arm은 베이징에서 새로운 IP의 발표 이벤트를 개최해 GPU에 관련된 4종의 IP를 발표했습니다. 메인 스트림 전용 GPU 코어Mali-G52, 셋탑 박스와 디지털 TV 용 GPU 코어 Mali-G31, 메인스트림용 디스플레이 프로세서 Mali-D51, 메인스트림 전용 비디오 프로세서 Mali-V52입니다. GPU 코어는 Arm의 기존 GPU 아키텍처인 Bifrost를 기반으로 하나, G52는 큰 변경이 있었습니다.

새로운 Mali을 발표하는 Ian Smythe (Senior Director, Client Line of Business, Arm)

발표회를 시작하면서 Ian Smythe는 Arm의 Mali-GPU 코어 IP가 2017년에 12억 개 출시됐다고 설명했습니다. 스마트폰에선 50%를 차지했음을 강조했습니다. 디지털 TV에서의 점유율은 80%입니다. 실제로 메인스트림과 저가형의 스마트폰 SoC는 Mali-GPU 코어가 압도적이라 시장에서 존재감이 큽니다.

모바일 GPU의 선두주자인 Arm의 Mali 시리즈

다음 단계는 메인스트림 모바일 제품에 머신 러닝을 보급

AI 기능을 도입한 제품의 90%는 CPU 코어 IP로 Arm을 사용하기에, Arm의 솔루션이 보급될 여지도 큽니다.

다음 단계로 Arm의 목표는 포괄적인 머신 러닝 솔루션인 Arm Project Trillium이라고 설명했습니다. 모바일 시장은 머신 러닝 애플리케이션이 이끌어나가고 있다는 인식을 밝혔습니다. 그래서 모바일에서 머신 러닝을 촉진하기 위해 메인스트림 전용 GPU 코어의 머신 러닝 기능을 강화합니다.

이미지 인식이나 음성 인식 등을 스마트폰 같은 디바이스에서 보다 잘 처리한다면, 기존의 터치 패널에 내츄럴 사용자 인터페이스를 더한 멀티 입력이 가능해집니다. 객체 인식을 통해 고급 증강 현실 기능도 제공합니다. 이런 개선된 인터페이스를 디지털 TV에도 도입합니다. 이를 위해 저렴하게 머신 러닝 솔루션을 제공하는 것이 Arm의 Mali-G52입니다.

사용자 인터페이스의 몰입감을 늘리면서 메인스트림 그래픽에 요구하는 기능이 늘어나고 있습니다.

물체를 인식해 현실과 CG를 융합시켜 보다 정교한 증강 현실을 구현

디지털 TV에서도 사용자 인터페이스의 개혁을 필요로 하고 있습니다.

SIMT의 레인 수를 두배로, int8 명령을 강화

Arm는 비프로스트 아키텍처 기반의 고성능 GPU G71, G72. 메인스트림 GPU G51을 출시하고 있습니다. G52는 네번째 아키텍처로 가장 큰 차이점은 병렬 실행하는 레인 수가 늘고 딥 러닝을 위해 명령이 확장된 것이 큽니다.

기존의 비프로스트 아키텍처는 연산 클러스터 Execution Engine에 각각 4개의 32비트 연산 레인이 있었습니다. NVIDIA나 AMD가 이야기하는 코어가 Arm의 레인에 해당됩니다. 4레인 구성이기에 4개의 32비트 연산을 병렬로 수행할 수 있었습니다.

반면 새로운 G52 아키텍처는 32비트 연산 레인이 8개 있습니다. 8개의 32비트 연산을 병렬로 수행 가능합니다. 각 레인은 마스크 레지스터에 의해 프레디케이션 플로우 컨트롤이 가능한 SIMT입니다.

연산 레인을 두배로 늘리면서 G52의 Execution Engine 사이클 연산 성능은 최대 2배가 됐습니다. G52는 GPU의 최소 단위 인 GPU 코어에 2개나 3개의 Execution Engine을 탑재합니다.

또 GPU 코어는 최대 4코어까지 확장할 수 있습니다. 1개의 GPU 코어가 24레인, 최대 4개의 GPU 코어가 96 레인이 됩니다.메인스트림 GPU 코어로는 충분한 확장성입니다.

Execution Engine의 연산 레인을 4-8개로 늘리고 int8 명령을 확충

또한 Mali-G52는 8비트 정수의 Dot Product 명령이 추가됐습니. 원래 비프로스트 아키텍처는 32비트 연산 레인을 4개의 8비트 서브 레인으로 분할할 수 있습니다. 각 레인에 4개의 8비트 정수 연산을 SIMD (Single Instruction, Multiple Data)로 병렬 실행 가능합니다. 비프로스트는 지금까지 8-bit SIMD로 일반 연산을 지원했으나 G52에서 보다 효율적인 새 명령을 추가했습니다.

딥 러닝을 위한 8비트 정수 명령

G52의 새로운 명령어는 4-way 8-bit 정수(Int8)에 4-way 8-bit 정수의 곱셈이나 덧셈을 1사이클 안에 출력합니다. 이런 종류의 연산은 현재 신경망 기반의 머신 러닝에서 많이 사용합니다. 기존에는 여려 명령이 필요했던 처리지만 이를 1 명령, 1 사이클로 실행할 수 있게 되면서 G52에서는 신경망 성능이 크게 올랐습니다. NVIDIA도 비슷한 구현을 합니다.

신경망은 학습 단계에선 16-bit 부동소수점 (FP16)처럼 상대적으로 높은 정밀도가 필요하지만, 추론은 8-bit 정수를 현재 많이 씁니다. 지금의 GPU를 추론에 쓰려면 8-bit 정수의 지원이 관건입니다. G52는 Int8를 각 레인당 4웨이 연산이 가능하며, 레인 수도 Execution Engine에 8개씩 들어갑니다. Execution Engine는 32개의 병렬 Int8 연산이 가능하다. GPU 코어 전체에서는 384개의 병렬 Int8 연산이 됩니다. 학습에서 가장 많이 쓰는 FP16은 2-way SIMD를 지원합니다.

연산 레인은 기존의 2배인 8레인. int8의 4-way SIMD에서 연산이 가능

Mali-G52의 블럭 다이어그램

이러한 아키텍처 확장을 통해 Mali-G52는 이전 세대인 G51에 비해 3.6배의 머신 러닝 성과를 달성합니다. 반면 Execution Engine 자체의 다이 영역 확장은 22% 정도이며, GPU 코어 전체 영역의 확장은 11%라고 합니다. GPU 코어 설계 자체의 개선도 있어, G52은 G51에 비해 제조 공정이 같아도 성능 밀도는 30% 향상, 전력 효율은 15% 증가합니다.

다이 영역 대비 성능이 30% 상승

머신 러닝에서 성능 향상 폭이 큰 G52

Mali-G52은 기존에 G51를 쓰던 메인스트림 스마트폰의 모바일 SoC에 맞춰, 제조 비용과 소비 전력을 크게 늘리지 않으면서도 SoC에 통합할 수 있는 코어입니다. 여기에선 16nm 급을 가정했으나 소프트 매크로를 통해 어떤 공정이건 쓸 수 있습니다.

코어 영역 억제에 초점을 맞춘 Mali-G31

Arm은 메인스트림 전용 Mali-G52에서 아키텍처를 확장했습니다. 이에 비해 셋탑 박스와 디지털 TV용 Mali-G31는 아키텍처를 기본의 비프로스트로 유지하고, 코어 크기와 전력 사용량을 억제하는 데 초점을 맞췄습니다.

GPU 코어는 G51 세대와 같아 Execution Engine에 4개의 연산 레인. GPU 코어는 1개나 2개의 Execution Engine으로 구성됩니다. FP32 유닛은 4개나 8개로 아주 작습니다. G51과 비교하면 GPU의 총 면적은 20% 적습니다. 그러나 설계를 조정해 성능 밀도는 20% 올랐습니다.

Mali-G31의 가장 큰 특징은 최하위 GPU지만 최신 API를 지원한다는 점입니다. OpenGL ES 3.2과 벌칸을 지원해 메인스트림 GPU와 소프트웨어 호환성이 유지됩니다.

Mali-G31

Mali-G31 아키텍처
　

Mali-G31은 저전력 Cortex-A55 계열 CPU 코어로 구성된 저가형 모바일 SoC에 쓰입니다. 반면 Mali-G52는 성능이 더 높은 CPU 클러스터와의 조합을 상정하고 있습니다. Arm CPU 코어는 새로운 클러스터 아키텍처 DynamIQ에 의해 CPU 코어의 조합 자유도가 증가했습니다. 싱글 스레드 성능이 높은 Cortex-A75 1개, 저전력 Cortex-A55를 7개 쓰는 조합도 가능해졌습니다. 이런 신형 메인스트림 CPU 클러스터와 Mali-G52은 어울립니다.

Mali-G52과 G31의 시스템 구성

DynamIQ로 가능해진 새로운 CPU 클러스터 구성

삭제 요청

TAG •

Prev 샤오미 스냅드래곤 82x 기기에 오레오 업데이트 샤오미 스냅드래곤 82x 기기에 오레오 업데이트 2018.03.09by Moria 안드로이드 P 개발자 프리뷰 버전 공개 Next

안드로이드 P 개발자 프리뷰 버전 공개 2018.03.09by 낄낄

목록 스크랩

위로 아래로 댓글로 가기

Comments '2'

白夜2ndT 원래 암드빠의 길은 외롭고 힘든거에요! 0ㅅ0)-3 / Twitter @2ndTurning 2018.03.09 20:22

딥러닝에 맞춰졌다 = 채굴하기 좋다...라는 생각이 든건 피해망상일까요.
?
xacdo 2018.03.15 11:50

int8 연산이라니 용도가 많지는 않겠네요

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

국내 스마트폰/통신요금은 언제가 지나야 싸질지-아이폰8 기준 영국/한국 기준 비교

예전보다는 나아졌습니다만 여전히 국내 통신요금 그리고 단말기 값은 아주 비쌉니다. 물론 공기계값/언락폰 의 값은 거의 비슷해 졌습니다만, 여전히 국내의 통신비는 비쌉니다. 그것도 많이 비쌉니다. 이게 얼마나 비싼건지 한번 제대...

Date2018.03.11 분석 By필립 Reply16 Views2438

Read More
갤럭시 S9+ 분해 사진

갤럭시 S9+의 분해 사진입니다. 6.2인치 AMOLED, 2960x1440 해상도, 570ppi, 노치 없음 퀄컴 스냅드래곤 845나 삼성 엑시노스 9810 1200만 화소 후면 카메라, OIS, f/1.5와 f/2.4의 이중 조리개, 1200만 화소 OIS 보조 카메라, 800만 화...

Date2018.03.11 분석 By낄낄 Reply4 Views10289

Read More
No Image

월드워런티가 지원되는 노트북 제조사는 어디가 있을까요?

필요로 하는 사람이 미국에 자주 왔다갔다해서... 델이나 HP를 알아봤는데, 둘 다 월드워런티가 아닌 모양이더라구요 ㅠㅠ 혹시 지원되는 제조사가 있을까요?

Date2018.03.10 질문 By도개주 Reply13 Views2530

Read More
카비레이크-Y를 탑재한 GPD WIN 2

GPD WIN 2 2009년 이후로 한동안 신제품이 없었던 UMPC 시장, 2016년에 GPD가 GPD WIN을 출시하면서 상황이 달라졌습니다. 닌텐도 3DS와 거의 같은 크기에 x86 SoC인 아톰 x7-85750을 탑재하고, 게임 플레이가 가능한 게임 패드를 넣으면...

Date2018.03.10 테스트 By낄낄 Reply20 Views4349

Read More
No Image

스마트폰 보험은 1달뒤엔 가입할 방법이 없는걸까요

방금 떨어트리고 액정이 와장창되니 후회막심하네요 수리비가 기본 37만원에 쓰던 액정 반납하면 20만정도 하더군요 개통 3개월찬데 이제와서지만 이후 파손에 대비하고싶은데 가입이 가능한걸까요 흑흑 통신사는 skt입니다

Date2018.03.10 질문 ByMazenda Reply5 Views1426

Read More
No Image

Windows CE 등 포터블 기기에 대한 질문...

전에 컴퓨터 게시판에 올드 컴퓨터에 대해서 질문했던 사람입니다. 200LX도 좋지만 빌어먹을 시리얼 포트와 PCMCIA 카드를 제 2017년형 LG노트북에 연결할 수 없다는 점과 구형 메모리카드는 구하기 힘들 거라는 생각, 만약 구했다 하더...

Date2018.03.10 질문 By올드컴매니아 Reply1 Views666

Read More
Microsoft,갤럭시 S9 시리즈 마이크로소프트 에디션 예약판매

북미 마이크로소프트 스토어에서 갤럭시 S9시리즈 마이크로소프트 에디션 프리오더를 개시하였습니다 사양은 북미판 갤럭시 S9시리즈와 동일,마이크로소프트 런처를 비롯한 마이크로소프트의 앱들이 프리오더되었습니다 가격은 S9 719.99...

Date2018.03.09 소식 ByElsanna Reply6 Views1674

Read More
No Image

샤오미 스냅드래곤 82x 기기에 오레오 업데이트

넵 제목 그대로입니다. 늦긴 해도 오레오 업데이트가 곧 된다고 합니다. 이미 된 기기도 있고요. 이번 대상기기는 Mi5 계열, Mi Mix, Mi note 2 등 2016년 플래그쉽 라인업입니다. 사실 MIUI라는 OS이름이 그렇듯 샤오미 기기는 자체U...

Date2018.03.09 소식 ByMoria Reply7 Views911

Read More
arm, 딥 러닝에 맞춰 확장된 GPU, Mali-G52를 발표

베이징에서 Mali의 새 시리즈를 발표 Mali 아키텍처를 대폭 확장 　 Arm이 머신 러닝을 본격적으로 시작합니다. Arm의 GPU, Mali 시리즈의 메인스트림 IP에 머신 러닝을 위한 명령어를 포함합니다. 구체적으로는 머신 러닝의 추론용으로 ...

Date2018.03.09 소식 By낄낄 Reply2 Views2382

Read More
안드로이드 P 개발자 프리뷰 버전 공개

구글이 안드로이드 P의 개발자 프리뷰 버전을 배포합니다. 안드로이드 에뮬레이터나 픽셀, 픽셀 XL, 픽셀 2, 픽셀 2 XL용 이미지를 제공합니다. Wi-Fi Round-Trip-Time (RTT). IEEE 802.11mc를 지원해 GPS를 쓰지 못하는 실내에서 정확한...

Date2018.03.09 소식 By낄낄 Reply5 Views1174

Read More
안드로이드 P의 배포 로드맵

구글이 안드로이드 P의 배포 로드맵을 발표했습니다. 5월 상순에 개발자 프리뷰 2가 나오고 6월에 프리뷰 3가 나옵니다. 정식 발표는 3분기.

Date2018.03.08 소식 By낄낄 Reply1 Views721

Read More
스냅드래곤 855, 5G 모뎀을 내장

ARM의 모회사인 소프트뱅크가 2017회계년도 3분기의 실적을 발표했습니다. 그리고 여기에서 스냅드래곤 855의 존재가 드러났습니다. 스냅드래곤 855는 제품명 뒤에 퓨전이 붙습니다. 2016년에 발표한 스냅드래곤 X50 모뎀과 함께 제공되...

Date2018.03.08 소식 By낄낄 Reply2 Views1196

Read More
애플의 새 아이패드 프로가 6월 발표

6월 WWDC에 맞춰 애플의 신형 아이패드 프로가 나올거란 소문입니다. 이미 개발은 다 끝났고, 양산에 들어갔다네요. 처음에 준비하는 물량은 600~800만대. 새 아이패드 프로는 디자인이 크게 바뀌어 풀비전 디스플레이를 사용합니다. 여...

Date2018.03.08 소식 By낄낄 Reply15 Views2602

Read More
No Image

안드로이드 P, 넥서스 5X/6P 지원 안함

구글이 최근 2년 동안 내놓은 스마트폰, 픽셀, 픽셀 XL, 픽셀 2, 픽셀 2 XL만 안드로이드 P를 지원합니다. 그보다 전에 나온 넥서스 5X, 넥서스 6P, 픽셀 C, 넥서스 플레이어는 안드로이드 P로 업그레이드를 지원하지 않는다고 합니다. 3...

Date2018.03.08 소식 By낄낄 Reply5 Views845

Read More
화웨이 P20의 공식 이미지가 대거 유출

화웨이 P20, P20 라이트, P20 프로의 공식 이미지가 대거 유출됐습니다.

Date2018.03.08 소식 By낄낄 Reply1 Views524

Read More