Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...11755.html

8-bit 정수까지의 SIMD를 지원하는 Arm의 GPU 코어 아키텍처


Arm GPU는 기존의 미드가르드(Midgard)까지 4-way SIMD 아키텍처였습니다. 미드가르드는 128-bit 폭의 연산 유닛이 아래처럼 구성됩니다.

 

· 부동소수점 연산 
8 x FP16 
4 x FP32 
2 x FP64 


· 정수 연산 
16 x Int8 
8 x Int16 
4 x Int32 
2 x Int64

 

따라서 부동 소수점 연과 정수 연산 모두 연산 비트 폭을 분할할 수 있었습니다. 전통적인 GPU의 SIMD 유닛에 64bit 지원을 추가한 형태입니다. 반면 비프로스트는 SIMT 방식을 쓰면서 연산 코어를 기본 32-bit 폭의 레인으로 분할했습니다. FP32의 레인은 현재의 PC용 GPU의 기본 스타일과 같습니다.

 

1_o.jpg


Arm GPU의 ALU 변화. 맨 위가 기존의 미드가르드가 썼던 128-bit SIMD. 가운데는 비프로스트의 4x32-bit의 SIMT. 아래는새로 나온 Mali-T604의 8x32-bit SIMT 


2_o.jpg

 

Mali-G71의 실행 레인 아키텍처


그러나 Arm는 SIMT로 전환하면서 다른 GPU 제조사와는 다른 접근 방식을 채택했습니다. SIMT 아키텍처는 일반적으로 FP32 / Int32 전용 연산 유닛을 구성하지만, Arm는 SIMD도 32 bit 레인에서 상속했습니다. 이것은 신경망-뉴럴- 작업이 늘어난 지금, 적합한 아키텍처 선택이기도 합니다.

 

Arm 비프로스트의 32비트 연산 파이프는 FP32(32-bit) 단정밀도 부동소수점 연산과 int32(32-bit 정수 연산)를 실행할 수 있을뿐만 아니라, FP16(16-bit 부동 소수점)와 int16(16 -bit 정수)는 각각 2-way를, int8(8-bit 정수)는 4-way 실행이 가능합니다. 기본 4레인은 아래와 같은 구성이 낭ㅗㅂ니다. 

 

· 부동 소수점 연산 
4 x 2 x FP16 
4 x 1 x FP32 


· 정수 연산 
4 x 4 x Int8 
4 x 2 x Int16 
4 x 1 x Int32

 

사실 32-bit 외에는 부동 소수점 16-bit 연산과 정수 8-bit 연산을 지원하며, Int16는 FP16로 변환해 실행한다고 합니다. 32-bit 이하의 정밀도는 SIMD로 실행합니다. 비프로스트는 각 레인 당 2 x FP16, 4 x Int8, 2 x Int16로 Packed 처리합니다.

 

 

Mali-G52에서 Int8의 도트 프로덕트를 지원
 

Mali-G52에서 확정된 비프로스트 아키텍처는 각각의 Execution Engines 실행 레인이 4~8배가 됐습니다. 따라서 연산의 병렬 처리가 높아졌습니다. Int8는 Execution Engines에서 1사이클마다 32개 요소의 데이터 처리가 가능해졌습니다.

 

· 부동소수점 연산 
8 x 2 x FP16 
8 x 1 x FP32 


· 정수 연산  
8 x 4 x Int8 
8 x 2 x Int16 
8 x 1 x Int32

 

이외에 Mali-G52는 Int8(8-bit 정수)에서 dot product를 지원합니다. Anand Patel(Director of Product Management, Client Business Line, Arm)는 "Mali-G52의 Int8는 내부에서 1사이클마다 4개의 곱셈과 3개의 덧셈이 가능하다"고 설명합니다. 곱셈은 4개인데 덧셈이 3개라면 좀 이해하기 힘들지만 아래 그림을 참조하세요

 

3_o.jpg

 

8레인 Mali-G52

 

4_o.jpg

 

Mali-G52의 내부 개념

 

5.jpg

 

Anand Patel(Director of Product Management, Client Business Line, Arm)

 

Mali-G52의 Int8 연산에서는 32-bit 스칼라 레지스터를 8-bit씩 분할해 4개의 Int8 데이터를 저장합니다. 우선 2개 레지스터의 Int8 데이터를 서로 곱하고 그 결과를 순서대로 더합니다. 그럼 아래 그림대로 곱센 4번, 덧셈 3번에 4개의 Int8 곱셈 결과를 모두 더한 값을 낼 수 있습니다. 덧셈 결과는 Int32(32-bit 정수) 형식이라 곱센 데이터가 손실되지 않습니다. 이 부분의 구현은 NVIDIA와 비슷합니다. 연산은 3번이지만 실제로는 4개 구성 요소를 대상으로 곱셈과 덧셈이니 8 오퍼레이션으로 치는 경우가 많습니다.

 

 

신경망 프로세서와 경쟁
 

Int8은 딥 러닝의 추론에 사용합니다. 신경망 학습에는 FP16 (16-bit 부동 소수점)처럼 상대적으로 높은 비트 정밀도가 필요합니다. 그러나 디바이스에서 인식하는 단계에선 데이터 정확도를 떨어트려도 인식 정확도는 그만큼 떨어지지 않아, 8비트 정수를 쓰는 경우가 많습니다. 현재 GPU는 추론용으로 8-bit 정수 (Int8)의 지원이 중요합니다.

 

Mali-G52의 경우에는 어느 정도 추론이 가능 할까. Mali-G52는 GPU IP에 최대 4 개의 쉐이더 코어를 탑재 할 수있다. 또한 각 쉐이더 코어는 최대 3 개의 Execution Engines을 탑재 할 수있다. 그리고 각 Execution Engines는 8 개의 실행 레인을 갖추고있다. 16nm 공정의 경우, 동작 주파수는 최대 850MHz로되어있다.

 

6.jpg


Mali-G52의 최대 구성 

 

7.jpg

 

딥 러닝의 학습과 추론 단계

 

최대 구성에선 Int8의 추론 성능은 최고 652GOPS(Giga Operations Per Second)가 나옵니다. 아이폰 X의 A11 바이오닉에 내장된 신경망 프로세서 Neural Engine의 성능은 600 billion operations per second라고 합니다. 

 

추론용 NPU는 FLOPS (Floating Operations Per Second : 부동 소수점 연산/초) 대신 OPS (Operations Per Second : 작업/초)를 성능 단위로 씁니다. 이것은 연산하는 데이터 타입이 부동 소수점(Floating Point)이 아닌 정수(integer)가 주류이기 때문입니다. 애플 프로세서는 600GOPS라고 해도 될 겁니다. 기본적인 처리라면 Mali-G52로 신경망 기능을 통합한 스마트폰에 맞설 수 있게 됩니다.

 

8.jpg

 

머신 러닝 성능이 비약적으로 오른 Mali-G52


성능을 보면 Mali-G52의 메시지는 매우 명확합니다. 신경망 전용 프로세서 코어의 IP를 사지 않아도 Arm 메인스트림 GPU로 같은 수준의 처리를 할 수 있다는 것입니다. Arm도 신경망 프로세서를 내놓고 있으니 Mali-G52는 어디까지나 여러 선택중 하나가 될 겁니다.

 

 

신경망에 특화한 NPU
 

그럼 신경망 전용 프로세서(NPU)와 비교해서 Mali-G52같은 저전력 GPU의 신경망 처리 성능은 어떨까요. 다이 크기에선 Mali-G52과 같은 솔루션이 더 유리합니다. NPU가 별도의 다이를 차지하는 한편 GPU 코어에 추가하는 신경망 처리 부분은 그리 많은 양이 아니기 때문입니다. 추가 IP를 개발하거나 구입할 필요가 없지만 제조 비용은 저렴합니다.

 

하지만 전력 소비라면 이야기가 달라집니다. 현재 전용 NPU를 사용했을 때의 가장 큰 장점은 거기에 있습니다. 먼저 추론을 위한 NPU에 들어가는 연산 유닛은 원래 정수 유닛 뿐이라 전력 소비량이 적습니다. GPU에서 정수 유닛만 사용한다 해도, 아이들 상태의 부동 소수점 연산 유닛에서 누설 전류가 발생합니다. 즉 정수 연산 유닛만 사용하는 NPU가 압도적으로 유리합니다.

 

데이터 정밀도로 따지면 추론은 8-bit 이하의 정수도 지원하며, 다양한 형태를 바꿔가며 데이터 정확성을 확보하는 NPU 아키텍처도 나오고 있습니다. 반드시 8-bit가 필요하진 않습니다. 또 더욱 공격적으로 전력을 낮추기 위해 다양한 기술이 있습니다.

 

온 칩 메모리를 활용해 메모리 액세스 전력을 줄이는 방법이 있습니다. 신경망은 방대한 용량의 데이터 어레이에 액세스해야 합니다. 데이터를 압축해 칩의 내장 메모리에 저장하면 전력 절감 효과가 큽니다. 동작 시 외부 메모리에 대한 액세스를 크게 줄일 수 있기 때문입니다. 소비 전력을 대폭 낮춰 모바일의 전력 소비 범위에서 높은 응답 추론이 가능합니다.

 

데이터 압축 방식 중에서도 압축도가 높고 중요한 건 추론의 Pruning입니다. 추론을 위해 학습된 신경망에서 중요도가 낮은 연결은 줄이고 여기의 데이터를 삭제합니다. 하드웨어적으로는 압축된 데이터를 메모리에서 처리하는 방법과 연산 시 생략하는 구조가 필요합니다.

 

9.jpg

 

Pruning의 개념도 

 

정밀도가 낮은 정수 연산의 특수 아키텍처를 갖춘 NPU에 비해, GPU의 의한 신경망 프로세싱은 소비 전력에서는 불리합니다. 따라서 제조 비용보다 배터리 구동 시간이 중요한 경우엔 Mali-GPU로 신경망 처리를 하자는 건 아닌 듯 합니다.

 

GPU에 NPU 같은 신경망 특화 기능을 통합할 수도 있습니다. 그러나 지금 단계에서 이를 수행하면 GPU가 커지니 아직 실현 단계는 아닙니다. 물론 앞으로 GPU가 그쪽으로 방향을 틀 가능성도 있으나, 아직 GPU는 그래픽 작업이 위주입니다.

 

이런 상황을 감안하면 Mali-G52의 딥 러닝 프로세싱은 NPU를 탑재하기엔 가격이 부담되나, 신경망 사용자 인터페이스의 개혁에 맞춰가고 싶다는 수요에 맞춘 솔루션입니다. 그런 의미에서 메인스트림 GPU인 Mali-G5x 계통에서 구현한다는 의미가 있습니다.

 

 

타일링에 최적화 된 GPU 아키텍처


Mali-G52의 확장된 비프로스트 아키텍처는 실행 레인 폭을 높여 PC용 GPU와 많이 비슷해졌습니다. 하지만 PC 용 GPU와는 다른 점도 많습니다. 특히 타일 메모리의 존재와 ROP (Rendering Output Pipeline)가 GPU 코어에 포함된 것을 꼽을 수 있습니다.

 

픽셀의 블렌딩이나 Z 테스트같은 최종 처리를 수행하는 ROP는 일반적인 GPU 아키텍처에서 메모리 컨트롤러 쪽에 배치됩니다. 반면 SoC에 통합을 전제로 한 Arm의 GPU에선 ROP가 GPU 연산 유닛 배열과 가까운 쪽에 들어갑니다. 그리고 ROP는 GPU 코어 사이에서 공유하지 않고, 각 GPU 코어마다 ROP가 1세트씩 포함됩니다.

 

10.jpg


Mali-G52의 쉐이더 코어 블럭 다이어그램 

 

Arm가 이러한 아키텍처를 채택한 이유는 GPU 코어 단위의 확장성이 중요하기 때문입니다. 고객사가 자유롭게 GPU 구성을 설계할 수 있도록 만들려면, GPU의 연산과 ROP는 일정 비율로 하고 GPU 코어에 ROP까지 통합하는 것이 번거롭지 않습니다.

 

또 다른 이유는 Arm의 GPU가 타일링 아키텍처라는 데 있습니다. ROP의 액세스는 기본적으로 온칩 메모리 뿐이며 메모리 인터페이스와 직접 연결할 필요가 없습니다. 비프로스트 아키텍처는 GPU 코어마다 타일 메모리를 갖고 있어 ROP는 거기에 픽셀을 저장합니다.

 

11.jpg

 

비프로스트에서 지오메트리 데이터를 단계적으로 불러오는 타일링 방식을 채용


Mali-G52의 스펙에서 ROP 픽셀 레이트는 최대 구성(4 GPU 코어)이 6.8 Gpixels/sec입니다. 동적 클럭이 850Mhz라면 1 클럭마다 8픽셀을 출력한다는 계산이 됩니다. 따라서 GPU 코어의 ROP 출력은 2픽셀/클럭입니다. 덧붙여서 같은 비프로스트 아키텍처라 해도 고성능 코어 Mali-G7 계열에선 ROP 출력이 GPU 코어 1개에 1픽셀/클럭이 됩니다.

 

G52의 코어에서 ROP가 많은 이유는, GPU 코어 수가 적어도 일정한 해상도를 구현해야 하는 메인스트림 GPU라는 데 있다고 보입니다. G72는 32코어까지 지원하며 실제 G7x 계열에서는 코어 수가 많은 경우가 많습니다. 그러면 GPU 코어마다 ROP가 1픽셀씩 출력해도, GPU 코어와 연동된 ROP 수는 많습니다.

 

해상도가 너무 크게까지 올라가진 않으니 균형이 나쁘진 않습니다. Mali-G7x의 연산 대비 픽셀 출력을 보면 연산의 비율이 높습니다. 그러나 고성능 GPU에서 실행하기 위해선 쉐이더 프로그램의 코드가 복잡해지니 그런 점에서도 균형이 나쁘진 않습니다. 

 

G52의 스펙은 픽셀과 텍스쳐 처리 능력이 6.8Gpixels/sec입니다. 따라서 텍스처 유닛 필터링 처리도 2픽셀/클럭으로 추츧됩니다. 


TAG •

  • ?
    RuBisCO 2018.03.16 10:14
    드디어 코어 구성비를 고쳐서 ROP 병목으로 실성능이 나락으로 떨어지는 문제를 고칠 모양이군요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 아너 매직 6 얼티밋 에디션의 후면 디자인 공개

    아너 매직 6 얼티밋 에디션의 티저 이미지입니다. 후면 카메라 부분 디자인을 공개했는데... 좋게 말하면 남들이 안하는 시도를 하니 진취적이라 할 수 있겠군요.
    Date2024.03.14 소식 By낄낄 Reply1 Views400 file
    Read More
  2. No Image

    애플 신제품/시장 관련 소식 모음

    새로운 아이패드가 3월 말이나 4월에 나올 거라고 합니다. 아이패드 프로나 아이패드 에어(12.9인치)일 가능성이 있습니다. 또 매직 키보드와 업그레이드된 애플 펜슬도 포함됩니다. https://www.bloomberg.com/news/newsletters/2024-03-...
    Date2024.03.14 소식 By낄낄 Reply0 Views708
    Read More
  3. No Image

    샤오미 스마트 밴드 9가 2가지 모델로 출시?

    중국 인증 사이트에 샤오미 스마트 밴드 9로 보이는 제품 2개가 등록됐습니다. 각각 NFC 지원 모델과 일반 모델로 추측됩니다.
    Date2024.03.14 소식 By낄낄 Reply1 Views346 file
    Read More
  4. No Image

    삼성, 사각형 갤럭시 워치를 출시?

    삼성이 사각형 디자인의 갤럭시 워치를 출시할 거라는 소문이 있습니다. 이게 올해 7월에 나올 갤럭시 워치 7 시리즈를 가리키는 것인지, 아니면 다른 모델 이야기인지는 아직 알 수 있습니다. 갤럭시 워치 FE, 혹은 갤럭시 워치 2024라는...
    Date2024.03.14 소식 By낄낄 Reply2 Views515
    Read More
  5. 퀄컴 스냅드래곤 X 엘리트와 코어 울트라 7 155H의 성능 비교

    퀄컴 스냅드래곤 X 엘리트가 탑재된 퀄컴 레퍼런스 노트북과 코어 울트라 7 155H가 탑재된 노트북의 성능 비교입니다. 비주얼 스튜디오 코드 컴파일에서는 스냅드래곤이 37초만에, 코어 울트라가 54초에 작업을 끝냈습니다. 3D마크는 두 ...
    Date2024.03.13 소식 By낄낄 Reply9 Views1285 file
    Read More
  6. No Image

    LPDDR6 표준 확정 임박.

    올 3분기 스마트폰과 정보기술(IT)기기에 쓰이는 저전력 램 메모리(LPDDR)의 최신 표준이 확정된다. 'LPDDR6'로, 기존 세대에서 5년만의 업데이트다. LPDDR6는 데이터 처리 성능 향상에 초점을 맞춰 규격이 제정될 전망된다. 스마...
    Date2024.03.13 소식 By낄낄 Reply0 Views815
    Read More
  7. 삼성 갤럭시 A55와 A35가 해외에서 발표

    삼성 갤럭시 A55와 A35가 해외에서 발표됐습니다. 공통 스펙은 6.6인치 2340x1080 120Hz 슈퍼 AMOLED 디스플레이 탑재, 25W 충전, 5000mAh 배터리, 고리라 글래스 빅투스+, 삼성 녹스 볼트 보안, 4년 OS 업데이트와 5년 보안 패치 제공. ...
    Date2024.03.12 소식 By낄낄 Reply11 Views1446 file
    Read More
  8. 스냅드래곤 8s Gen3, 3월 18일 발표

    퀄컴이 중국에서 스냅드래곤 8s Gen3를 3월 18일에 발표합니다. 지금까지 나온 소문에 의하면 Cortex-X4 3.01GHz 1코어, Cortex-A720 2.61GHz 4코어, Cortex-A520 1.83GHz 3코어로 구성되며 Adrneo 735 GPU가 있습니다. 스냅드래곤 8 Gen3...
    Date2024.03.12 소식 By낄낄 Reply2 Views1085 file
    Read More
  9. No Image

    삼성 갤럭시 북 4 엣지, 스냅드래곤 X 엘리트, 가격은 비쌈

    삼성 갤럭시 북 4 엣지의 소문입니다. 퀄컴 스냅드래곤 X 엘리트 프로세서 탑재(12코어 CPU), 윈도우 11, 14인치 디스플레이, 16GB 램과 512GB SSD(업그레이드 불가) 긴 수명의 배터리와 5G 모뎀까지 기대할 수 있으나 고급형 모델의 경우...
    Date2024.03.12 소식 By낄낄 Reply4 Views871
    Read More
  10. 접이식 컨트롤러가 뒷면에 달린 2in1 태블릿 디자인

    컴팔이 접이식 컨트롤러가 뒷면에 달린 2in1 태블릿 디자인을 만들었습니다. 컨트롤러 부분이 접혀 있을 때는 밖으로 튀어나오지 않고, 이걸 밀기만 하면 밖으로 나옵니다. 여기에는 초음파 센서가 있어 터치 조작이 가능합니다. 아직까지...
    Date2024.03.10 소식 By낄낄 Reply6 Views1778 file
    Read More
  11. No Image

    M1, M2 맥북 에어를 2TB로 업그레이드하는 영상

    M1, M2 맥북 에어를 2TB로 업그레이드하는 영상입니다. 일반인은 아니고 사설 수리 센터에서 저런 작업을 하네요. 납땜이야 뭐 당연하고, 맥의 복원 기능을 사용해 SSD를 프로그래밍하기에 늘어난 용량을 정상 인식합니다.
    Date2024.03.10 소식 By낄낄 Reply10 Views1682
    Read More
  12. M3 맥북에어 기본형에도 다시 듀얼 낸드 사용.

      오늘 자정즈음이군요.    낄대인께서 M3 에어의 방열 성능에 대해서 글을 써주셨습니다.   같은 유튜버가 리뷰한 결과에 따르면 M3 기본형에도 다시 듀얼 낸드를 사용했습니다.       차례대로 블랙매직 디스크 스피드 테스트의 쓰기, ...
    Date2024.03.10 소식 By한그 Reply6 Views1479 file
    Read More
  13. M3 맥북 에어, 팬이 없어 온도가 114도까지 올라감

    15인치 M3 맥북 에어는 기존과 똑같이 팬리스 방열판이 탑재됩니다. 그래서 지속적인 부하에서는 똑같은 M3 프로세서를 쓴 맥북 프로 14인치보다 성능이 낮습니다. 테스트 중에는 CPU 온도가 114도, GPU 온도는 102.9도까지 올라갔으며, ...
    Date2024.03.10 소식 By낄낄 Reply32 Views2928 file
    Read More
  14. No Image

    갤럭시 S에 디멘시티 9000을 쓰려 했지만 공급 때문에 불발

    삼성은 갤럭시 S 시리즈에 디멘시티 9000을 넣기 위해 미디어텍과 접촉했으나, 디멘시티 9000의 물량 대부분을 중국 제조사가 받아가고 있기에 결국 불발로 끝났다고 합니다. 디멘시티 9000 시리즈는 천만대 정도 생산되며, 갤럭시 S 시리...
    Date2024.03.10 소식 By낄낄 Reply2 Views1232
    Read More
  15. 아이폰 16 프로의 CAD 렌더링 이미지

    아이폰 16 프로의 CAD 렌더링 이미지입니다. 아이폰 15 프로와 비슷하게 생겼으나 버튼 디자인은 바뀌었습니다. 작업 버튼은 볼륨 버튼과 비슷하게 길어졌고 좀 더 넓어졌습니다. 새로 추가된 캡쳐 버튼은 mmWave 안테나가 있던 쪽에 추가...
    Date2024.03.09 소식 By낄낄 Reply0 Views608 file
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 1269 Next
/ 1269

최근 코멘트 30개

더함
AMD
MSI 코리아
한미마이크로닉스

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소