Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...11755.html

8-bit 정수까지의 SIMD를 지원하는 Arm의 GPU 코어 아키텍처


Arm GPU는 기존의 미드가르드(Midgard)까지 4-way SIMD 아키텍처였습니다. 미드가르드는 128-bit 폭의 연산 유닛이 아래처럼 구성됩니다.

 

· 부동소수점 연산 
8 x FP16 
4 x FP32 
2 x FP64 


· 정수 연산 
16 x Int8 
8 x Int16 
4 x Int32 
2 x Int64

 

따라서 부동 소수점 연과 정수 연산 모두 연산 비트 폭을 분할할 수 있었습니다. 전통적인 GPU의 SIMD 유닛에 64bit 지원을 추가한 형태입니다. 반면 비프로스트는 SIMT 방식을 쓰면서 연산 코어를 기본 32-bit 폭의 레인으로 분할했습니다. FP32의 레인은 현재의 PC용 GPU의 기본 스타일과 같습니다.

 

1_o.jpg


Arm GPU의 ALU 변화. 맨 위가 기존의 미드가르드가 썼던 128-bit SIMD. 가운데는 비프로스트의 4x32-bit의 SIMT. 아래는새로 나온 Mali-T604의 8x32-bit SIMT 


2_o.jpg

 

Mali-G71의 실행 레인 아키텍처


그러나 Arm는 SIMT로 전환하면서 다른 GPU 제조사와는 다른 접근 방식을 채택했습니다. SIMT 아키텍처는 일반적으로 FP32 / Int32 전용 연산 유닛을 구성하지만, Arm는 SIMD도 32 bit 레인에서 상속했습니다. 이것은 신경망-뉴럴- 작업이 늘어난 지금, 적합한 아키텍처 선택이기도 합니다.

 

Arm 비프로스트의 32비트 연산 파이프는 FP32(32-bit) 단정밀도 부동소수점 연산과 int32(32-bit 정수 연산)를 실행할 수 있을뿐만 아니라, FP16(16-bit 부동 소수점)와 int16(16 -bit 정수)는 각각 2-way를, int8(8-bit 정수)는 4-way 실행이 가능합니다. 기본 4레인은 아래와 같은 구성이 낭ㅗㅂ니다. 

 

· 부동 소수점 연산 
4 x 2 x FP16 
4 x 1 x FP32 


· 정수 연산 
4 x 4 x Int8 
4 x 2 x Int16 
4 x 1 x Int32

 

사실 32-bit 외에는 부동 소수점 16-bit 연산과 정수 8-bit 연산을 지원하며, Int16는 FP16로 변환해 실행한다고 합니다. 32-bit 이하의 정밀도는 SIMD로 실행합니다. 비프로스트는 각 레인 당 2 x FP16, 4 x Int8, 2 x Int16로 Packed 처리합니다.

 

 

Mali-G52에서 Int8의 도트 프로덕트를 지원
 

Mali-G52에서 확정된 비프로스트 아키텍처는 각각의 Execution Engines 실행 레인이 4~8배가 됐습니다. 따라서 연산의 병렬 처리가 높아졌습니다. Int8는 Execution Engines에서 1사이클마다 32개 요소의 데이터 처리가 가능해졌습니다.

 

· 부동소수점 연산 
8 x 2 x FP16 
8 x 1 x FP32 


· 정수 연산  
8 x 4 x Int8 
8 x 2 x Int16 
8 x 1 x Int32

 

이외에 Mali-G52는 Int8(8-bit 정수)에서 dot product를 지원합니다. Anand Patel(Director of Product Management, Client Business Line, Arm)는 "Mali-G52의 Int8는 내부에서 1사이클마다 4개의 곱셈과 3개의 덧셈이 가능하다"고 설명합니다. 곱셈은 4개인데 덧셈이 3개라면 좀 이해하기 힘들지만 아래 그림을 참조하세요

 

3_o.jpg

 

8레인 Mali-G52

 

4_o.jpg

 

Mali-G52의 내부 개념

 

5.jpg

 

Anand Patel(Director of Product Management, Client Business Line, Arm)

 

Mali-G52의 Int8 연산에서는 32-bit 스칼라 레지스터를 8-bit씩 분할해 4개의 Int8 데이터를 저장합니다. 우선 2개 레지스터의 Int8 데이터를 서로 곱하고 그 결과를 순서대로 더합니다. 그럼 아래 그림대로 곱센 4번, 덧셈 3번에 4개의 Int8 곱셈 결과를 모두 더한 값을 낼 수 있습니다. 덧셈 결과는 Int32(32-bit 정수) 형식이라 곱센 데이터가 손실되지 않습니다. 이 부분의 구현은 NVIDIA와 비슷합니다. 연산은 3번이지만 실제로는 4개 구성 요소를 대상으로 곱셈과 덧셈이니 8 오퍼레이션으로 치는 경우가 많습니다.

 

 

신경망 프로세서와 경쟁
 

Int8은 딥 러닝의 추론에 사용합니다. 신경망 학습에는 FP16 (16-bit 부동 소수점)처럼 상대적으로 높은 비트 정밀도가 필요합니다. 그러나 디바이스에서 인식하는 단계에선 데이터 정확도를 떨어트려도 인식 정확도는 그만큼 떨어지지 않아, 8비트 정수를 쓰는 경우가 많습니다. 현재 GPU는 추론용으로 8-bit 정수 (Int8)의 지원이 중요합니다.

 

Mali-G52의 경우에는 어느 정도 추론이 가능 할까. Mali-G52는 GPU IP에 최대 4 개의 쉐이더 코어를 탑재 할 수있다. 또한 각 쉐이더 코어는 최대 3 개의 Execution Engines을 탑재 할 수있다. 그리고 각 Execution Engines는 8 개의 실행 레인을 갖추고있다. 16nm 공정의 경우, 동작 주파수는 최대 850MHz로되어있다.

 

6.jpg


Mali-G52의 최대 구성 

 

7.jpg

 

딥 러닝의 학습과 추론 단계

 

최대 구성에선 Int8의 추론 성능은 최고 652GOPS(Giga Operations Per Second)가 나옵니다. 아이폰 X의 A11 바이오닉에 내장된 신경망 프로세서 Neural Engine의 성능은 600 billion operations per second라고 합니다. 

 

추론용 NPU는 FLOPS (Floating Operations Per Second : 부동 소수점 연산/초) 대신 OPS (Operations Per Second : 작업/초)를 성능 단위로 씁니다. 이것은 연산하는 데이터 타입이 부동 소수점(Floating Point)이 아닌 정수(integer)가 주류이기 때문입니다. 애플 프로세서는 600GOPS라고 해도 될 겁니다. 기본적인 처리라면 Mali-G52로 신경망 기능을 통합한 스마트폰에 맞설 수 있게 됩니다.

 

8.jpg

 

머신 러닝 성능이 비약적으로 오른 Mali-G52


성능을 보면 Mali-G52의 메시지는 매우 명확합니다. 신경망 전용 프로세서 코어의 IP를 사지 않아도 Arm 메인스트림 GPU로 같은 수준의 처리를 할 수 있다는 것입니다. Arm도 신경망 프로세서를 내놓고 있으니 Mali-G52는 어디까지나 여러 선택중 하나가 될 겁니다.

 

 

신경망에 특화한 NPU
 

그럼 신경망 전용 프로세서(NPU)와 비교해서 Mali-G52같은 저전력 GPU의 신경망 처리 성능은 어떨까요. 다이 크기에선 Mali-G52과 같은 솔루션이 더 유리합니다. NPU가 별도의 다이를 차지하는 한편 GPU 코어에 추가하는 신경망 처리 부분은 그리 많은 양이 아니기 때문입니다. 추가 IP를 개발하거나 구입할 필요가 없지만 제조 비용은 저렴합니다.

 

하지만 전력 소비라면 이야기가 달라집니다. 현재 전용 NPU를 사용했을 때의 가장 큰 장점은 거기에 있습니다. 먼저 추론을 위한 NPU에 들어가는 연산 유닛은 원래 정수 유닛 뿐이라 전력 소비량이 적습니다. GPU에서 정수 유닛만 사용한다 해도, 아이들 상태의 부동 소수점 연산 유닛에서 누설 전류가 발생합니다. 즉 정수 연산 유닛만 사용하는 NPU가 압도적으로 유리합니다.

 

데이터 정밀도로 따지면 추론은 8-bit 이하의 정수도 지원하며, 다양한 형태를 바꿔가며 데이터 정확성을 확보하는 NPU 아키텍처도 나오고 있습니다. 반드시 8-bit가 필요하진 않습니다. 또 더욱 공격적으로 전력을 낮추기 위해 다양한 기술이 있습니다.

 

온 칩 메모리를 활용해 메모리 액세스 전력을 줄이는 방법이 있습니다. 신경망은 방대한 용량의 데이터 어레이에 액세스해야 합니다. 데이터를 압축해 칩의 내장 메모리에 저장하면 전력 절감 효과가 큽니다. 동작 시 외부 메모리에 대한 액세스를 크게 줄일 수 있기 때문입니다. 소비 전력을 대폭 낮춰 모바일의 전력 소비 범위에서 높은 응답 추론이 가능합니다.

 

데이터 압축 방식 중에서도 압축도가 높고 중요한 건 추론의 Pruning입니다. 추론을 위해 학습된 신경망에서 중요도가 낮은 연결은 줄이고 여기의 데이터를 삭제합니다. 하드웨어적으로는 압축된 데이터를 메모리에서 처리하는 방법과 연산 시 생략하는 구조가 필요합니다.

 

9.jpg

 

Pruning의 개념도 

 

정밀도가 낮은 정수 연산의 특수 아키텍처를 갖춘 NPU에 비해, GPU의 의한 신경망 프로세싱은 소비 전력에서는 불리합니다. 따라서 제조 비용보다 배터리 구동 시간이 중요한 경우엔 Mali-GPU로 신경망 처리를 하자는 건 아닌 듯 합니다.

 

GPU에 NPU 같은 신경망 특화 기능을 통합할 수도 있습니다. 그러나 지금 단계에서 이를 수행하면 GPU가 커지니 아직 실현 단계는 아닙니다. 물론 앞으로 GPU가 그쪽으로 방향을 틀 가능성도 있으나, 아직 GPU는 그래픽 작업이 위주입니다.

 

이런 상황을 감안하면 Mali-G52의 딥 러닝 프로세싱은 NPU를 탑재하기엔 가격이 부담되나, 신경망 사용자 인터페이스의 개혁에 맞춰가고 싶다는 수요에 맞춘 솔루션입니다. 그런 의미에서 메인스트림 GPU인 Mali-G5x 계통에서 구현한다는 의미가 있습니다.

 

 

타일링에 최적화 된 GPU 아키텍처


Mali-G52의 확장된 비프로스트 아키텍처는 실행 레인 폭을 높여 PC용 GPU와 많이 비슷해졌습니다. 하지만 PC 용 GPU와는 다른 점도 많습니다. 특히 타일 메모리의 존재와 ROP (Rendering Output Pipeline)가 GPU 코어에 포함된 것을 꼽을 수 있습니다.

 

픽셀의 블렌딩이나 Z 테스트같은 최종 처리를 수행하는 ROP는 일반적인 GPU 아키텍처에서 메모리 컨트롤러 쪽에 배치됩니다. 반면 SoC에 통합을 전제로 한 Arm의 GPU에선 ROP가 GPU 연산 유닛 배열과 가까운 쪽에 들어갑니다. 그리고 ROP는 GPU 코어 사이에서 공유하지 않고, 각 GPU 코어마다 ROP가 1세트씩 포함됩니다.

 

10.jpg


Mali-G52의 쉐이더 코어 블럭 다이어그램 

 

Arm가 이러한 아키텍처를 채택한 이유는 GPU 코어 단위의 확장성이 중요하기 때문입니다. 고객사가 자유롭게 GPU 구성을 설계할 수 있도록 만들려면, GPU의 연산과 ROP는 일정 비율로 하고 GPU 코어에 ROP까지 통합하는 것이 번거롭지 않습니다.

 

또 다른 이유는 Arm의 GPU가 타일링 아키텍처라는 데 있습니다. ROP의 액세스는 기본적으로 온칩 메모리 뿐이며 메모리 인터페이스와 직접 연결할 필요가 없습니다. 비프로스트 아키텍처는 GPU 코어마다 타일 메모리를 갖고 있어 ROP는 거기에 픽셀을 저장합니다.

 

11.jpg

 

비프로스트에서 지오메트리 데이터를 단계적으로 불러오는 타일링 방식을 채용


Mali-G52의 스펙에서 ROP 픽셀 레이트는 최대 구성(4 GPU 코어)이 6.8 Gpixels/sec입니다. 동적 클럭이 850Mhz라면 1 클럭마다 8픽셀을 출력한다는 계산이 됩니다. 따라서 GPU 코어의 ROP 출력은 2픽셀/클럭입니다. 덧붙여서 같은 비프로스트 아키텍처라 해도 고성능 코어 Mali-G7 계열에선 ROP 출력이 GPU 코어 1개에 1픽셀/클럭이 됩니다.

 

G52의 코어에서 ROP가 많은 이유는, GPU 코어 수가 적어도 일정한 해상도를 구현해야 하는 메인스트림 GPU라는 데 있다고 보입니다. G72는 32코어까지 지원하며 실제 G7x 계열에서는 코어 수가 많은 경우가 많습니다. 그러면 GPU 코어마다 ROP가 1픽셀씩 출력해도, GPU 코어와 연동된 ROP 수는 많습니다.

 

해상도가 너무 크게까지 올라가진 않으니 균형이 나쁘진 않습니다. Mali-G7x의 연산 대비 픽셀 출력을 보면 연산의 비율이 높습니다. 그러나 고성능 GPU에서 실행하기 위해선 쉐이더 프로그램의 코드가 복잡해지니 그런 점에서도 균형이 나쁘진 않습니다. 

 

G52의 스펙은 픽셀과 텍스쳐 처리 능력이 6.8Gpixels/sec입니다. 따라서 텍스처 유닛 필터링 처리도 2픽셀/클럭으로 추츧됩니다. 


TAG •

  • ?
    RuBisCO 2018.03.16 10:14
    드디어 코어 구성비를 고쳐서 ROP 병목으로 실성능이 나락으로 떨어지는 문제를 고칠 모양이군요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 안드로이드 웨어, 웨어 OS by 구글로 이름 변경

    구글은 스마트워치와 웨어러블 디바이스용 OS인 안드로이드 웨어의 이름을 웨어 OS by 구글(Wear OS by Google)로 바꾼다고 발표했습니다. 안드로이드 웨어는 50개 이상의 웨어러블 디바이스에서 사용 중이며, 2017년에 안드로이드 웨어 ...
    Date2018.03.16 소식 By낄낄 Reply0 Views507 file
    Read More
  2. No Image

    갤럭시 S9+를 만져보고 있습니다

    사진 좀 찍는다고 갤럭시 S9+가 잠깐 집에 와 있습니다. 거 되게 밋밋하게 생겼네 하고 원래 쓰던 갤럭시 S7을 보니, 뭔가 핸드폰의 시조새처럼 생긴게 놓여 있군요. 역시 사람이란 참 간사합니다. 한번에 S9는 못 사겠고, S8 중고 장터를...
    Date2018.03.16 일반 By낄낄 Reply15 Views1119
    Read More
  3. SMACH Z 베가 8 그래픽으로 제공하는 인상적인 720p 게이밍

    킥스타터 프로젝트로 시작된 것이 드디어 x86 휴대용 게임기로 구현되었습니다.   라이젠 임베디드 V1605B를 탑재한 SMACH Z     이 손으로 잡고 쓰는 콘솔은 4코어 8스레드의 라이젠 프로세서를 탑재했습니다. 512개의 스트림 프로세서를...
    Date2018.03.16 소식 By루니오스 Reply12 Views1264 file
    Read More
  4. 신경망 프로세서에 대항하는 Arm의 Mali GPU

    8-bit 정수까지의 SIMD를 지원하는 Arm의 GPU 코어 아키텍처 Arm GPU는 기존의 미드가르드(Midgard)까지 4-way SIMD 아키텍처였습니다. 미드가르드는 128-bit 폭의 연산 유닛이 아래처럼 구성됩니다. · 부동소수점 연산 8 x FP16 4...
    Date2018.03.16 분석 By낄낄 Reply1 Views1869 file
    Read More
  5. GPU 성능 2배가 목표. arm의 2세대 Bifrost 아키텍처

    앞으로의 Arm GPU 아키텍처 Arm은 지난주에 새로운 IP를 발표했습니다. 이번에 공개된 것은 메인스트림 전용 GPU 코어 Mali-G52, 보급형 GPU 코어 Mali-G31입니다. Arm의 GPU 코어는 Mali-G7 시스템이 고성능 모바일, Mali-G5 시스템이 메...
    Date2018.03.16 분석 By낄낄 Reply4 Views2624 file
    Read More
  6. vivo X21, 스냅 660에 안드로이드 8.1

    중국 vivo의 X21 스마트폰이 안투투 벤치마크에 등록됐습니다. 2280x1080 해상도, 스냅드래곤 660, 6GB 램, 128GB 스토리지, 안드로이드 8.1, 해서 총점 143707점.
    Date2018.03.15 소식 By낄낄 Reply1 Views551 file
    Read More
  7. 샤오미 미7, 무선 충전 지원

    샤오미의 무선 충전기인 ES8의 설명서에 보면 샤오미 미7과 샤오미 미 믹스 2S의 무선 충전을 지원한다는 문구가 있습니다. 샤오미 미 7은 6인치 풀비전 스크린을 삼성에서 받아오고, 스냅드래곤 845, 6/8GB 램, 듀얼 카메라를 탑재한다고...
    Date2018.03.15 소식 By낄낄 Reply0 Views948 file
    Read More
  8. 2017년 중국 짝퉁 스마트폰 통계

    안투투 벤치마크에서 집계한 중국의 2017년 짝퉁 스마트폰 통계입니다. 삼성 36.23% 아이폰 7.72% 샤오미 4.75% 오포 4.46% 화웨이 3.4% 기타 43.44% 삼성이 중국에서 점유율은 줄었으나 짝퉁은 가장 많이 나오는군요. 이건 안투투 벤치마...
    Date2018.03.15 소식 By낄낄 Reply0 Views650 file
    Read More
  9. 삼성 고속 무선 충전 패드 2018

    삼성 고속 무선 충전 패드의 2018년 모델입니다. 이걸로 5세대 모델이라고 하네요. 가격은 69.99달러로 4세대의 89.99달러보다 쌉니다. 공식 가격 기준이긴 하지만. 갤럭시 S9 시리즈와 함께 출시, 충전 자체는 크게 달라지지 않았다고 합...
    Date2018.03.15 소식 By낄낄 Reply1 Views1025 file
    Read More
  10. 스냅드래곤 845를 장착한 갤럭시S9의 게임성능

    https://www.bilibili.com/video/av20763805/     중국쪽에서 스냅드래곤 845를 탑재한 갤럭시S9의 벤치마크 영상이 올라왔네요 비리비리로 봤는데, 유튜브에도 올라와 있네요.   슬링샷 맨하탄 게임비교(펜타스톰, NBA2K18, 붕괴3) AP성...
    Date2018.03.15 소식 By하루살이 Reply15 Views3606 file
    Read More
  11. 화웨이 노바 3e의 실물 유출

    화웨이 노바 3e의 실물 사진이 유출됐습니다. 노치가 들어간 풀비전 디스플레이, 통신 신호와 WiFi는 왼쪽으로 가고 오른쪽에는 배터리와 시계가 있네요. 기린 659 프로세서, 4GB 램, 64GB 스토리지, 2280x1080 해상도, 안드로이드 8.0 기...
    Date2018.03.14 소식 By낄낄 Reply5 Views878 file
    Read More
  12. No Image

    미디어텍 P60, Oppo, 메이란, 샤오미가 사용

    미디어텍의 중급형 프로세서인 P60이 3월 말에 나오는 Oppo R15, 3월 21일에 나오는 메이란 E3에 탑재됩니다. 그리고 샤오미도 P60을 사용한 스마트폰을 준비중인데 아직 확실한 정보는 없습니다. 미디어텍 P60은 빅 리틀 아키텍처, A73 4...
    Date2018.03.14 소식 By낄낄 Reply2 Views519
    Read More
  13. 아마존 보조배터리 26만대 리콜

    아마존이 26만개의 아마존 베이직 보조배터리를 리콜한다고 발표했습니다. 화재나 연기 등의 위험이 있어서라네요. 2014년 12월!2017년 7월에 판매된 제품이 대상이며, 용량은 2000~16100mAh까지 6가지가 있습니다.
    Date2018.03.14 소식 By낄낄 Reply2 Views1185 file
    Read More
  14. 핏빗 Versa 스마트워치

    핏빗이 보급형 스마트워치인 Versa를 출시합니다. 가격은 199달러부터. NFC 모델은 229달러. 사각형 모양이지만 테두리는 둥글둥글하고 크기도 작습니다. 직물 재질의 시계줄을 사용, 50m 방수. 컬러 스크린, 밝기 1000nit, 심박 센서를 ...
    Date2018.03.14 소식 By낄낄 Reply1 Views667 file
    Read More
  15. 애플, 3월 말에 에어파워 무선 충전 패드를 출시할 것

    애플이 3월 말에 에어파워라는 이름의 무선 충전 패드를 출시할 에정이며, 대만의 부품 공급 업체들이 공급 물량을 더 늘려나가고 있다는 소문입니다. 아이폰, 애플 워치, 에어팟을 모두 충전 가능한 무선 충전 패드로 최대 29W의 출력을 ...
    Date2018.03.14 소식 By낄낄 Reply6 Views613 file
    Read More
목록
Board Pagination Prev 1 ... 998 999 1000 1001 1002 1003 1004 1005 1006 1007 ... 1276 Next
/ 1276

최근 코멘트 30개
까르르
17:48
까르르
17:43
책읽는달팽
17:43
툴라
17:33
PAIMON
17:30
유입입니다
17:29
Argenté
17:29
M16
17:24
Iwish
17:21
애플마티니
17:14
TundraMC
17:13
바람돌이
16:53
벨드록
16:49
PLAYER001
16:48
아이들링
16:47
린네
16:43
조마루감자탕
16:26
uss0504
16:20
냥뇽녕냥
16:14
뚜찌`zXie
16:13
냥뇽녕냥
16:09
냥뇽녕냥
16:02
냥뇽녕냥
15:58
마초코
15:57
neon
15:56
난젊어요
15:55
영원의여행자
15:53
하아암
15:53
오꾸리
15:42
책읽는달팽
15:33

한미마이크로닉스
더함
MSI 코리아
AMD

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소