Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...11755.html

8-bit 정수까지의 SIMD를 지원하는 Arm의 GPU 코어 아키텍처


Arm GPU는 기존의 미드가르드(Midgard)까지 4-way SIMD 아키텍처였습니다. 미드가르드는 128-bit 폭의 연산 유닛이 아래처럼 구성됩니다.

 

· 부동소수점 연산 
8 x FP16 
4 x FP32 
2 x FP64 


· 정수 연산 
16 x Int8 
8 x Int16 
4 x Int32 
2 x Int64

 

따라서 부동 소수점 연과 정수 연산 모두 연산 비트 폭을 분할할 수 있었습니다. 전통적인 GPU의 SIMD 유닛에 64bit 지원을 추가한 형태입니다. 반면 비프로스트는 SIMT 방식을 쓰면서 연산 코어를 기본 32-bit 폭의 레인으로 분할했습니다. FP32의 레인은 현재의 PC용 GPU의 기본 스타일과 같습니다.

 

1_o.jpg


Arm GPU의 ALU 변화. 맨 위가 기존의 미드가르드가 썼던 128-bit SIMD. 가운데는 비프로스트의 4x32-bit의 SIMT. 아래는새로 나온 Mali-T604의 8x32-bit SIMT 


2_o.jpg

 

Mali-G71의 실행 레인 아키텍처


그러나 Arm는 SIMT로 전환하면서 다른 GPU 제조사와는 다른 접근 방식을 채택했습니다. SIMT 아키텍처는 일반적으로 FP32 / Int32 전용 연산 유닛을 구성하지만, Arm는 SIMD도 32 bit 레인에서 상속했습니다. 이것은 신경망-뉴럴- 작업이 늘어난 지금, 적합한 아키텍처 선택이기도 합니다.

 

Arm 비프로스트의 32비트 연산 파이프는 FP32(32-bit) 단정밀도 부동소수점 연산과 int32(32-bit 정수 연산)를 실행할 수 있을뿐만 아니라, FP16(16-bit 부동 소수점)와 int16(16 -bit 정수)는 각각 2-way를, int8(8-bit 정수)는 4-way 실행이 가능합니다. 기본 4레인은 아래와 같은 구성이 낭ㅗㅂ니다. 

 

· 부동 소수점 연산 
4 x 2 x FP16 
4 x 1 x FP32 


· 정수 연산 
4 x 4 x Int8 
4 x 2 x Int16 
4 x 1 x Int32

 

사실 32-bit 외에는 부동 소수점 16-bit 연산과 정수 8-bit 연산을 지원하며, Int16는 FP16로 변환해 실행한다고 합니다. 32-bit 이하의 정밀도는 SIMD로 실행합니다. 비프로스트는 각 레인 당 2 x FP16, 4 x Int8, 2 x Int16로 Packed 처리합니다.

 

 

Mali-G52에서 Int8의 도트 프로덕트를 지원
 

Mali-G52에서 확정된 비프로스트 아키텍처는 각각의 Execution Engines 실행 레인이 4~8배가 됐습니다. 따라서 연산의 병렬 처리가 높아졌습니다. Int8는 Execution Engines에서 1사이클마다 32개 요소의 데이터 처리가 가능해졌습니다.

 

· 부동소수점 연산 
8 x 2 x FP16 
8 x 1 x FP32 


· 정수 연산  
8 x 4 x Int8 
8 x 2 x Int16 
8 x 1 x Int32

 

이외에 Mali-G52는 Int8(8-bit 정수)에서 dot product를 지원합니다. Anand Patel(Director of Product Management, Client Business Line, Arm)는 "Mali-G52의 Int8는 내부에서 1사이클마다 4개의 곱셈과 3개의 덧셈이 가능하다"고 설명합니다. 곱셈은 4개인데 덧셈이 3개라면 좀 이해하기 힘들지만 아래 그림을 참조하세요

 

3_o.jpg

 

8레인 Mali-G52

 

4_o.jpg

 

Mali-G52의 내부 개념

 

5.jpg

 

Anand Patel(Director of Product Management, Client Business Line, Arm)

 

Mali-G52의 Int8 연산에서는 32-bit 스칼라 레지스터를 8-bit씩 분할해 4개의 Int8 데이터를 저장합니다. 우선 2개 레지스터의 Int8 데이터를 서로 곱하고 그 결과를 순서대로 더합니다. 그럼 아래 그림대로 곱센 4번, 덧셈 3번에 4개의 Int8 곱셈 결과를 모두 더한 값을 낼 수 있습니다. 덧셈 결과는 Int32(32-bit 정수) 형식이라 곱센 데이터가 손실되지 않습니다. 이 부분의 구현은 NVIDIA와 비슷합니다. 연산은 3번이지만 실제로는 4개 구성 요소를 대상으로 곱셈과 덧셈이니 8 오퍼레이션으로 치는 경우가 많습니다.

 

 

신경망 프로세서와 경쟁
 

Int8은 딥 러닝의 추론에 사용합니다. 신경망 학습에는 FP16 (16-bit 부동 소수점)처럼 상대적으로 높은 비트 정밀도가 필요합니다. 그러나 디바이스에서 인식하는 단계에선 데이터 정확도를 떨어트려도 인식 정확도는 그만큼 떨어지지 않아, 8비트 정수를 쓰는 경우가 많습니다. 현재 GPU는 추론용으로 8-bit 정수 (Int8)의 지원이 중요합니다.

 

Mali-G52의 경우에는 어느 정도 추론이 가능 할까. Mali-G52는 GPU IP에 최대 4 개의 쉐이더 코어를 탑재 할 수있다. 또한 각 쉐이더 코어는 최대 3 개의 Execution Engines을 탑재 할 수있다. 그리고 각 Execution Engines는 8 개의 실행 레인을 갖추고있다. 16nm 공정의 경우, 동작 주파수는 최대 850MHz로되어있다.

 

6.jpg


Mali-G52의 최대 구성 

 

7.jpg

 

딥 러닝의 학습과 추론 단계

 

최대 구성에선 Int8의 추론 성능은 최고 652GOPS(Giga Operations Per Second)가 나옵니다. 아이폰 X의 A11 바이오닉에 내장된 신경망 프로세서 Neural Engine의 성능은 600 billion operations per second라고 합니다. 

 

추론용 NPU는 FLOPS (Floating Operations Per Second : 부동 소수점 연산/초) 대신 OPS (Operations Per Second : 작업/초)를 성능 단위로 씁니다. 이것은 연산하는 데이터 타입이 부동 소수점(Floating Point)이 아닌 정수(integer)가 주류이기 때문입니다. 애플 프로세서는 600GOPS라고 해도 될 겁니다. 기본적인 처리라면 Mali-G52로 신경망 기능을 통합한 스마트폰에 맞설 수 있게 됩니다.

 

8.jpg

 

머신 러닝 성능이 비약적으로 오른 Mali-G52


성능을 보면 Mali-G52의 메시지는 매우 명확합니다. 신경망 전용 프로세서 코어의 IP를 사지 않아도 Arm 메인스트림 GPU로 같은 수준의 처리를 할 수 있다는 것입니다. Arm도 신경망 프로세서를 내놓고 있으니 Mali-G52는 어디까지나 여러 선택중 하나가 될 겁니다.

 

 

신경망에 특화한 NPU
 

그럼 신경망 전용 프로세서(NPU)와 비교해서 Mali-G52같은 저전력 GPU의 신경망 처리 성능은 어떨까요. 다이 크기에선 Mali-G52과 같은 솔루션이 더 유리합니다. NPU가 별도의 다이를 차지하는 한편 GPU 코어에 추가하는 신경망 처리 부분은 그리 많은 양이 아니기 때문입니다. 추가 IP를 개발하거나 구입할 필요가 없지만 제조 비용은 저렴합니다.

 

하지만 전력 소비라면 이야기가 달라집니다. 현재 전용 NPU를 사용했을 때의 가장 큰 장점은 거기에 있습니다. 먼저 추론을 위한 NPU에 들어가는 연산 유닛은 원래 정수 유닛 뿐이라 전력 소비량이 적습니다. GPU에서 정수 유닛만 사용한다 해도, 아이들 상태의 부동 소수점 연산 유닛에서 누설 전류가 발생합니다. 즉 정수 연산 유닛만 사용하는 NPU가 압도적으로 유리합니다.

 

데이터 정밀도로 따지면 추론은 8-bit 이하의 정수도 지원하며, 다양한 형태를 바꿔가며 데이터 정확성을 확보하는 NPU 아키텍처도 나오고 있습니다. 반드시 8-bit가 필요하진 않습니다. 또 더욱 공격적으로 전력을 낮추기 위해 다양한 기술이 있습니다.

 

온 칩 메모리를 활용해 메모리 액세스 전력을 줄이는 방법이 있습니다. 신경망은 방대한 용량의 데이터 어레이에 액세스해야 합니다. 데이터를 압축해 칩의 내장 메모리에 저장하면 전력 절감 효과가 큽니다. 동작 시 외부 메모리에 대한 액세스를 크게 줄일 수 있기 때문입니다. 소비 전력을 대폭 낮춰 모바일의 전력 소비 범위에서 높은 응답 추론이 가능합니다.

 

데이터 압축 방식 중에서도 압축도가 높고 중요한 건 추론의 Pruning입니다. 추론을 위해 학습된 신경망에서 중요도가 낮은 연결은 줄이고 여기의 데이터를 삭제합니다. 하드웨어적으로는 압축된 데이터를 메모리에서 처리하는 방법과 연산 시 생략하는 구조가 필요합니다.

 

9.jpg

 

Pruning의 개념도 

 

정밀도가 낮은 정수 연산의 특수 아키텍처를 갖춘 NPU에 비해, GPU의 의한 신경망 프로세싱은 소비 전력에서는 불리합니다. 따라서 제조 비용보다 배터리 구동 시간이 중요한 경우엔 Mali-GPU로 신경망 처리를 하자는 건 아닌 듯 합니다.

 

GPU에 NPU 같은 신경망 특화 기능을 통합할 수도 있습니다. 그러나 지금 단계에서 이를 수행하면 GPU가 커지니 아직 실현 단계는 아닙니다. 물론 앞으로 GPU가 그쪽으로 방향을 틀 가능성도 있으나, 아직 GPU는 그래픽 작업이 위주입니다.

 

이런 상황을 감안하면 Mali-G52의 딥 러닝 프로세싱은 NPU를 탑재하기엔 가격이 부담되나, 신경망 사용자 인터페이스의 개혁에 맞춰가고 싶다는 수요에 맞춘 솔루션입니다. 그런 의미에서 메인스트림 GPU인 Mali-G5x 계통에서 구현한다는 의미가 있습니다.

 

 

타일링에 최적화 된 GPU 아키텍처


Mali-G52의 확장된 비프로스트 아키텍처는 실행 레인 폭을 높여 PC용 GPU와 많이 비슷해졌습니다. 하지만 PC 용 GPU와는 다른 점도 많습니다. 특히 타일 메모리의 존재와 ROP (Rendering Output Pipeline)가 GPU 코어에 포함된 것을 꼽을 수 있습니다.

 

픽셀의 블렌딩이나 Z 테스트같은 최종 처리를 수행하는 ROP는 일반적인 GPU 아키텍처에서 메모리 컨트롤러 쪽에 배치됩니다. 반면 SoC에 통합을 전제로 한 Arm의 GPU에선 ROP가 GPU 연산 유닛 배열과 가까운 쪽에 들어갑니다. 그리고 ROP는 GPU 코어 사이에서 공유하지 않고, 각 GPU 코어마다 ROP가 1세트씩 포함됩니다.

 

10.jpg


Mali-G52의 쉐이더 코어 블럭 다이어그램 

 

Arm가 이러한 아키텍처를 채택한 이유는 GPU 코어 단위의 확장성이 중요하기 때문입니다. 고객사가 자유롭게 GPU 구성을 설계할 수 있도록 만들려면, GPU의 연산과 ROP는 일정 비율로 하고 GPU 코어에 ROP까지 통합하는 것이 번거롭지 않습니다.

 

또 다른 이유는 Arm의 GPU가 타일링 아키텍처라는 데 있습니다. ROP의 액세스는 기본적으로 온칩 메모리 뿐이며 메모리 인터페이스와 직접 연결할 필요가 없습니다. 비프로스트 아키텍처는 GPU 코어마다 타일 메모리를 갖고 있어 ROP는 거기에 픽셀을 저장합니다.

 

11.jpg

 

비프로스트에서 지오메트리 데이터를 단계적으로 불러오는 타일링 방식을 채용


Mali-G52의 스펙에서 ROP 픽셀 레이트는 최대 구성(4 GPU 코어)이 6.8 Gpixels/sec입니다. 동적 클럭이 850Mhz라면 1 클럭마다 8픽셀을 출력한다는 계산이 됩니다. 따라서 GPU 코어의 ROP 출력은 2픽셀/클럭입니다. 덧붙여서 같은 비프로스트 아키텍처라 해도 고성능 코어 Mali-G7 계열에선 ROP 출력이 GPU 코어 1개에 1픽셀/클럭이 됩니다.

 

G52의 코어에서 ROP가 많은 이유는, GPU 코어 수가 적어도 일정한 해상도를 구현해야 하는 메인스트림 GPU라는 데 있다고 보입니다. G72는 32코어까지 지원하며 실제 G7x 계열에서는 코어 수가 많은 경우가 많습니다. 그러면 GPU 코어마다 ROP가 1픽셀씩 출력해도, GPU 코어와 연동된 ROP 수는 많습니다.

 

해상도가 너무 크게까지 올라가진 않으니 균형이 나쁘진 않습니다. Mali-G7x의 연산 대비 픽셀 출력을 보면 연산의 비율이 높습니다. 그러나 고성능 GPU에서 실행하기 위해선 쉐이더 프로그램의 코드가 복잡해지니 그런 점에서도 균형이 나쁘진 않습니다. 

 

G52의 스펙은 픽셀과 텍스쳐 처리 능력이 6.8Gpixels/sec입니다. 따라서 텍스처 유닛 필터링 처리도 2픽셀/클럭으로 추츧됩니다. 


TAG •

  • ?
    RuBisCO 2018.03.16 10:14
    드디어 코어 구성비를 고쳐서 ROP 병목으로 실성능이 나락으로 떨어지는 문제를 고칠 모양이군요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    안드로이드 15 베타 버전 배포 개시

    안드로이드 15 베타 1 버전의 배포가 시작됐습니다. 픽셀 6, 6 프로, 6a 이상 제품과 픽셀 폴드, 픽셀 태블릿에서 지원합니다. 앱 내 카메라 컨트롤 기능 강화, HDR 헤드룸 컨트롤, CTA-2075 라우드니스 표준 지원, 새로운 노출 모드인 &#...
    Date2024.04.14 소식 By낄낄 Reply2 Views945
    Read More
  2. No Image

    디멘시티 9400, 300억 개의 트랜지스터?

    디멘시티 9400의 트랜지스터 수는 300억 개 이상으로, 디멘시티 9300의 227억 개보다 32% 가량 많다고 합니다. 다이 크기는 150제곱mm인데 지포스 GT 1030이 74제곱mm, 지포스 GTX 1650이 200제곱mm입니다. 보급형 데스크탑 GPU 수준이군...
    Date2024.04.14 소식 By낄낄 Reply3 Views923
    Read More
  3. 화웨이, 코어 울트라 탑재 노트북 출시

    화웨이 메이트북 X 프로에 인텔의 최신 프로세서인 코어 울트라, 메테오레이크가 탑재됐습니다. 화웨이가 미국의 블랙리스트에 올라갔는데 코어 울트라는 성능 제한에 안 걸리나 봅니다? 스펙은 코어 울트라 9 185H나 코어 울트라 7 155Hz...
    Date2024.04.14 소식 By낄낄 Reply0 Views801 file
    Read More
  4. 짧게 써보는 아이패드 11인치용 스마트 키보드 폴리오

      <흑북프로 14인치, 아이패드 프로 11인치>   항상 노트북으로 강의 자료 띄우고 Pages로 간단하게 강의 정리를 하는데, 묵직함 + 더 작은 기기 콤보로 한달 전 쯤 질렀습니다.   로지텍 Key-to-go 같은 선택지도 있지만, 따로 키보드 ...
    Date2024.04.13 일반 By쿠민 Reply4 Views766 file
    Read More
  5. 라이카, Leitz phone 3 발표

                            라이카가 Leitz phone 3를 발표했습니다.   스펙은  - 6.6인치 WUXGA+ IGZO OLED 패널 - 47.2MP 1인치 CMOS 센서 + f1.9 조리개, 35mm 환산 19mm의 메인 카메라 - 12.6MP 센서 + f2.3 조리개의 전면 카메라 - 스...
    Date2024.04.12 소식 Bytitle: 삼성MUGEN Reply18 Views1310 file
    Read More
  6. No Image

    삼성전자, 'S20' 시리즈 소프트웨어 지원 1년 연장

    삼성전자가 최근 갤럭시S20, 갤럭시S20+, 갤럭시S20 울트라에 대한 지원 기간을 1년 더 연장했다고 해외 매체 샘모바일이 10일(현지시간) 보도했다.   갤럭시S20 시리즈는 2020년 안드로이드 10 버전을 탑재하고 출시됐다. 당시 삼성은 3...
    Date2024.04.12 소식 Bytitle: 가난한카토메구미 Reply15 Views1313
    Read More
  7. No Image

    갤럭시 Z 폴드 6, 카메라 하드웨어는 변화 없이 유지?

    갤럭시 Z 폴드 6의 카메라는 폴드 5의 하드웨어를 그대로 유지한다고 합니다. 센서나 렌즈 구성은 그대로 쓰고 소프트웨어적인 부분만 바뀔 수도 있습니다.
    Date2024.04.11 소식 By낄낄 Reply16 Views1122
    Read More
  8. 샤오미 레드미 패드 프로, 중국에서 출시

    샤오미 레드미 패드 프로가 중국에서 출시됐습니다. 12.1인치 2.5K 120Hz 스크린, 600니트 밝기, 5ms 응답 속도, 스냅드래곤 7s Gen2, 10000mAh 배터리. 6/128GB 1499위안, 8/128GB 1599위안, 8/256GB 1799위안.
    Date2024.04.11 소식 By낄낄 Reply3 Views1085 file
    Read More
  9. No Image

    아이폰 16 플러스, 7가지 색상으로 출시?

    아이폰 16 플러스는 기존의 파란색, 분홍색, 노란색, 녹색, 검은색에 추가로 하얀색과 보라색이 추가될 거라고 합니다. 아이폰 16 시리즈의 다른 모델에도 해당되는지는 모릅니다.
    Date2024.04.11 소식 By낄낄 Reply1 Views524
    Read More
  10. No Image

    애플, 애플워치10부터 새로운 LTPO OLED 적용 계획...LGD 납품 유력

    애플이 하반기 출시할 애플워치 신제품에 새로운 LTPO 방식 OLED 기술을 적용한다. 이제껏 애플워치용 LTPO OLED에선 일부 스위칭 TFT에만 옥사이드를 적용했는데, 신제품부터는 구동 TFT에도 옥사이드를 사용할 예정이다. 새로운 LTPO OL...
    Date2024.04.11 소식 By낄낄 Reply1 Views710
    Read More
  11. 레드미 터보 3 발표

    샤오미가 레드미 터보 3 시리즈 스마트폰을 발표했습니다. 해외에선 포코 F6으로 나올 거라고 합니다. 2712x1220 120Hz 6.7인치 AMOLED, 12비트 컬러, HDR10+, 2400니트 밝기, 언더 디스플레이 지문 센서, 펀치 홀 2천만 화소 전면 카메라...
    Date2024.04.11 소식 By낄낄 Reply1 Views722 file
    Read More
  12. No Image

    마이크로소프트, 스냅드래곤 X 엘리트 기반 서피스를 5월 20일에 발표?

    마이크로소프트는 빌드 컨퍼런스가 열리기 하루 전인 5월 20일에 스냅드래곤 X 엘리트가 탑재된 서피스를 발표할 거라고 합니다. CPU 성능, AI 가속 등의 다양한 부분에서 애플 M3를 넘어서는 데모를 시연할 거라고 합니다.
    Date2024.04.11 소식 By낄낄 Reply3 Views656
    Read More
  13. No Image

    폴드폰의 유튜브 화면회전 루틴소개

    갤폴드3을 쓰고 있습니다.   안쪽 화면이 태블릿 비율? ppi? 라서 유튜브 실행하면 아이콘이 두줄로 보이고  영상 전체화면 할때 가로로 풀로 차지 않아 불편합니다.   기존에는 유튜브 실행할때만 자동 화면회전 루틴을 만들어서 사용중...
    Date2024.04.10 일반 Bytitle: 오타쿠아라 Reply5 Views563
    Read More
  14. No Image

    그냥 질린 건지 쌈@뽕한 폰이 없는 건지

    스마트폰 처음 나오던 시기에는 발전이 굉장히 빨라서 새로운 기기를 만지는 설렘이 있었는데 이제는 뭘 쓰든 그냥 도구로 느껴지기만 하네요ㅎㅎ   만족하며 쓰는 건 플립이지만 이제 폴더블도 단조롭게 느껴지기 시작해서 그나마 요즘 ...
    Date2024.04.10 일반 By폴짝쥐 Reply12 Views781
    Read More
  15. 픽셀 8a의 실물 사진 유출

    픽셀 8a의 실물 사진이 유출됐습니다. 베젤은 얇지 않고 6.1인치 디스플레이, 텐서 G3, 안드로이드 14가 들어가며 다음달의 구글 I/O 2024에서 발표됩니다.
    Date2024.04.10 소식 By낄낄 Reply0 Views501 file
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 1276 Next
/ 1276

최근 코멘트 30개

MSI 코리아
AMD
한미마이크로닉스
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소