Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...11755.html

8-bit 정수까지의 SIMD를 지원하는 Arm의 GPU 코어 아키텍처


Arm GPU는 기존의 미드가르드(Midgard)까지 4-way SIMD 아키텍처였습니다. 미드가르드는 128-bit 폭의 연산 유닛이 아래처럼 구성됩니다.

 

· 부동소수점 연산 
8 x FP16 
4 x FP32 
2 x FP64 


· 정수 연산 
16 x Int8 
8 x Int16 
4 x Int32 
2 x Int64

 

따라서 부동 소수점 연과 정수 연산 모두 연산 비트 폭을 분할할 수 있었습니다. 전통적인 GPU의 SIMD 유닛에 64bit 지원을 추가한 형태입니다. 반면 비프로스트는 SIMT 방식을 쓰면서 연산 코어를 기본 32-bit 폭의 레인으로 분할했습니다. FP32의 레인은 현재의 PC용 GPU의 기본 스타일과 같습니다.

 

1_o.jpg


Arm GPU의 ALU 변화. 맨 위가 기존의 미드가르드가 썼던 128-bit SIMD. 가운데는 비프로스트의 4x32-bit의 SIMT. 아래는새로 나온 Mali-T604의 8x32-bit SIMT 


2_o.jpg

 

Mali-G71의 실행 레인 아키텍처


그러나 Arm는 SIMT로 전환하면서 다른 GPU 제조사와는 다른 접근 방식을 채택했습니다. SIMT 아키텍처는 일반적으로 FP32 / Int32 전용 연산 유닛을 구성하지만, Arm는 SIMD도 32 bit 레인에서 상속했습니다. 이것은 신경망-뉴럴- 작업이 늘어난 지금, 적합한 아키텍처 선택이기도 합니다.

 

Arm 비프로스트의 32비트 연산 파이프는 FP32(32-bit) 단정밀도 부동소수점 연산과 int32(32-bit 정수 연산)를 실행할 수 있을뿐만 아니라, FP16(16-bit 부동 소수점)와 int16(16 -bit 정수)는 각각 2-way를, int8(8-bit 정수)는 4-way 실행이 가능합니다. 기본 4레인은 아래와 같은 구성이 낭ㅗㅂ니다. 

 

· 부동 소수점 연산 
4 x 2 x FP16 
4 x 1 x FP32 


· 정수 연산 
4 x 4 x Int8 
4 x 2 x Int16 
4 x 1 x Int32

 

사실 32-bit 외에는 부동 소수점 16-bit 연산과 정수 8-bit 연산을 지원하며, Int16는 FP16로 변환해 실행한다고 합니다. 32-bit 이하의 정밀도는 SIMD로 실행합니다. 비프로스트는 각 레인 당 2 x FP16, 4 x Int8, 2 x Int16로 Packed 처리합니다.

 

 

Mali-G52에서 Int8의 도트 프로덕트를 지원
 

Mali-G52에서 확정된 비프로스트 아키텍처는 각각의 Execution Engines 실행 레인이 4~8배가 됐습니다. 따라서 연산의 병렬 처리가 높아졌습니다. Int8는 Execution Engines에서 1사이클마다 32개 요소의 데이터 처리가 가능해졌습니다.

 

· 부동소수점 연산 
8 x 2 x FP16 
8 x 1 x FP32 


· 정수 연산  
8 x 4 x Int8 
8 x 2 x Int16 
8 x 1 x Int32

 

이외에 Mali-G52는 Int8(8-bit 정수)에서 dot product를 지원합니다. Anand Patel(Director of Product Management, Client Business Line, Arm)는 "Mali-G52의 Int8는 내부에서 1사이클마다 4개의 곱셈과 3개의 덧셈이 가능하다"고 설명합니다. 곱셈은 4개인데 덧셈이 3개라면 좀 이해하기 힘들지만 아래 그림을 참조하세요

 

3_o.jpg

 

8레인 Mali-G52

 

4_o.jpg

 

Mali-G52의 내부 개념

 

5.jpg

 

Anand Patel(Director of Product Management, Client Business Line, Arm)

 

Mali-G52의 Int8 연산에서는 32-bit 스칼라 레지스터를 8-bit씩 분할해 4개의 Int8 데이터를 저장합니다. 우선 2개 레지스터의 Int8 데이터를 서로 곱하고 그 결과를 순서대로 더합니다. 그럼 아래 그림대로 곱센 4번, 덧셈 3번에 4개의 Int8 곱셈 결과를 모두 더한 값을 낼 수 있습니다. 덧셈 결과는 Int32(32-bit 정수) 형식이라 곱센 데이터가 손실되지 않습니다. 이 부분의 구현은 NVIDIA와 비슷합니다. 연산은 3번이지만 실제로는 4개 구성 요소를 대상으로 곱셈과 덧셈이니 8 오퍼레이션으로 치는 경우가 많습니다.

 

 

신경망 프로세서와 경쟁
 

Int8은 딥 러닝의 추론에 사용합니다. 신경망 학습에는 FP16 (16-bit 부동 소수점)처럼 상대적으로 높은 비트 정밀도가 필요합니다. 그러나 디바이스에서 인식하는 단계에선 데이터 정확도를 떨어트려도 인식 정확도는 그만큼 떨어지지 않아, 8비트 정수를 쓰는 경우가 많습니다. 현재 GPU는 추론용으로 8-bit 정수 (Int8)의 지원이 중요합니다.

 

Mali-G52의 경우에는 어느 정도 추론이 가능 할까. Mali-G52는 GPU IP에 최대 4 개의 쉐이더 코어를 탑재 할 수있다. 또한 각 쉐이더 코어는 최대 3 개의 Execution Engines을 탑재 할 수있다. 그리고 각 Execution Engines는 8 개의 실행 레인을 갖추고있다. 16nm 공정의 경우, 동작 주파수는 최대 850MHz로되어있다.

 

6.jpg


Mali-G52의 최대 구성 

 

7.jpg

 

딥 러닝의 학습과 추론 단계

 

최대 구성에선 Int8의 추론 성능은 최고 652GOPS(Giga Operations Per Second)가 나옵니다. 아이폰 X의 A11 바이오닉에 내장된 신경망 프로세서 Neural Engine의 성능은 600 billion operations per second라고 합니다. 

 

추론용 NPU는 FLOPS (Floating Operations Per Second : 부동 소수점 연산/초) 대신 OPS (Operations Per Second : 작업/초)를 성능 단위로 씁니다. 이것은 연산하는 데이터 타입이 부동 소수점(Floating Point)이 아닌 정수(integer)가 주류이기 때문입니다. 애플 프로세서는 600GOPS라고 해도 될 겁니다. 기본적인 처리라면 Mali-G52로 신경망 기능을 통합한 스마트폰에 맞설 수 있게 됩니다.

 

8.jpg

 

머신 러닝 성능이 비약적으로 오른 Mali-G52


성능을 보면 Mali-G52의 메시지는 매우 명확합니다. 신경망 전용 프로세서 코어의 IP를 사지 않아도 Arm 메인스트림 GPU로 같은 수준의 처리를 할 수 있다는 것입니다. Arm도 신경망 프로세서를 내놓고 있으니 Mali-G52는 어디까지나 여러 선택중 하나가 될 겁니다.

 

 

신경망에 특화한 NPU
 

그럼 신경망 전용 프로세서(NPU)와 비교해서 Mali-G52같은 저전력 GPU의 신경망 처리 성능은 어떨까요. 다이 크기에선 Mali-G52과 같은 솔루션이 더 유리합니다. NPU가 별도의 다이를 차지하는 한편 GPU 코어에 추가하는 신경망 처리 부분은 그리 많은 양이 아니기 때문입니다. 추가 IP를 개발하거나 구입할 필요가 없지만 제조 비용은 저렴합니다.

 

하지만 전력 소비라면 이야기가 달라집니다. 현재 전용 NPU를 사용했을 때의 가장 큰 장점은 거기에 있습니다. 먼저 추론을 위한 NPU에 들어가는 연산 유닛은 원래 정수 유닛 뿐이라 전력 소비량이 적습니다. GPU에서 정수 유닛만 사용한다 해도, 아이들 상태의 부동 소수점 연산 유닛에서 누설 전류가 발생합니다. 즉 정수 연산 유닛만 사용하는 NPU가 압도적으로 유리합니다.

 

데이터 정밀도로 따지면 추론은 8-bit 이하의 정수도 지원하며, 다양한 형태를 바꿔가며 데이터 정확성을 확보하는 NPU 아키텍처도 나오고 있습니다. 반드시 8-bit가 필요하진 않습니다. 또 더욱 공격적으로 전력을 낮추기 위해 다양한 기술이 있습니다.

 

온 칩 메모리를 활용해 메모리 액세스 전력을 줄이는 방법이 있습니다. 신경망은 방대한 용량의 데이터 어레이에 액세스해야 합니다. 데이터를 압축해 칩의 내장 메모리에 저장하면 전력 절감 효과가 큽니다. 동작 시 외부 메모리에 대한 액세스를 크게 줄일 수 있기 때문입니다. 소비 전력을 대폭 낮춰 모바일의 전력 소비 범위에서 높은 응답 추론이 가능합니다.

 

데이터 압축 방식 중에서도 압축도가 높고 중요한 건 추론의 Pruning입니다. 추론을 위해 학습된 신경망에서 중요도가 낮은 연결은 줄이고 여기의 데이터를 삭제합니다. 하드웨어적으로는 압축된 데이터를 메모리에서 처리하는 방법과 연산 시 생략하는 구조가 필요합니다.

 

9.jpg

 

Pruning의 개념도 

 

정밀도가 낮은 정수 연산의 특수 아키텍처를 갖춘 NPU에 비해, GPU의 의한 신경망 프로세싱은 소비 전력에서는 불리합니다. 따라서 제조 비용보다 배터리 구동 시간이 중요한 경우엔 Mali-GPU로 신경망 처리를 하자는 건 아닌 듯 합니다.

 

GPU에 NPU 같은 신경망 특화 기능을 통합할 수도 있습니다. 그러나 지금 단계에서 이를 수행하면 GPU가 커지니 아직 실현 단계는 아닙니다. 물론 앞으로 GPU가 그쪽으로 방향을 틀 가능성도 있으나, 아직 GPU는 그래픽 작업이 위주입니다.

 

이런 상황을 감안하면 Mali-G52의 딥 러닝 프로세싱은 NPU를 탑재하기엔 가격이 부담되나, 신경망 사용자 인터페이스의 개혁에 맞춰가고 싶다는 수요에 맞춘 솔루션입니다. 그런 의미에서 메인스트림 GPU인 Mali-G5x 계통에서 구현한다는 의미가 있습니다.

 

 

타일링에 최적화 된 GPU 아키텍처


Mali-G52의 확장된 비프로스트 아키텍처는 실행 레인 폭을 높여 PC용 GPU와 많이 비슷해졌습니다. 하지만 PC 용 GPU와는 다른 점도 많습니다. 특히 타일 메모리의 존재와 ROP (Rendering Output Pipeline)가 GPU 코어에 포함된 것을 꼽을 수 있습니다.

 

픽셀의 블렌딩이나 Z 테스트같은 최종 처리를 수행하는 ROP는 일반적인 GPU 아키텍처에서 메모리 컨트롤러 쪽에 배치됩니다. 반면 SoC에 통합을 전제로 한 Arm의 GPU에선 ROP가 GPU 연산 유닛 배열과 가까운 쪽에 들어갑니다. 그리고 ROP는 GPU 코어 사이에서 공유하지 않고, 각 GPU 코어마다 ROP가 1세트씩 포함됩니다.

 

10.jpg


Mali-G52의 쉐이더 코어 블럭 다이어그램 

 

Arm가 이러한 아키텍처를 채택한 이유는 GPU 코어 단위의 확장성이 중요하기 때문입니다. 고객사가 자유롭게 GPU 구성을 설계할 수 있도록 만들려면, GPU의 연산과 ROP는 일정 비율로 하고 GPU 코어에 ROP까지 통합하는 것이 번거롭지 않습니다.

 

또 다른 이유는 Arm의 GPU가 타일링 아키텍처라는 데 있습니다. ROP의 액세스는 기본적으로 온칩 메모리 뿐이며 메모리 인터페이스와 직접 연결할 필요가 없습니다. 비프로스트 아키텍처는 GPU 코어마다 타일 메모리를 갖고 있어 ROP는 거기에 픽셀을 저장합니다.

 

11.jpg

 

비프로스트에서 지오메트리 데이터를 단계적으로 불러오는 타일링 방식을 채용


Mali-G52의 스펙에서 ROP 픽셀 레이트는 최대 구성(4 GPU 코어)이 6.8 Gpixels/sec입니다. 동적 클럭이 850Mhz라면 1 클럭마다 8픽셀을 출력한다는 계산이 됩니다. 따라서 GPU 코어의 ROP 출력은 2픽셀/클럭입니다. 덧붙여서 같은 비프로스트 아키텍처라 해도 고성능 코어 Mali-G7 계열에선 ROP 출력이 GPU 코어 1개에 1픽셀/클럭이 됩니다.

 

G52의 코어에서 ROP가 많은 이유는, GPU 코어 수가 적어도 일정한 해상도를 구현해야 하는 메인스트림 GPU라는 데 있다고 보입니다. G72는 32코어까지 지원하며 실제 G7x 계열에서는 코어 수가 많은 경우가 많습니다. 그러면 GPU 코어마다 ROP가 1픽셀씩 출력해도, GPU 코어와 연동된 ROP 수는 많습니다.

 

해상도가 너무 크게까지 올라가진 않으니 균형이 나쁘진 않습니다. Mali-G7x의 연산 대비 픽셀 출력을 보면 연산의 비율이 높습니다. 그러나 고성능 GPU에서 실행하기 위해선 쉐이더 프로그램의 코드가 복잡해지니 그런 점에서도 균형이 나쁘진 않습니다. 

 

G52의 스펙은 픽셀과 텍스쳐 처리 능력이 6.8Gpixels/sec입니다. 따라서 텍스처 유닛 필터링 처리도 2픽셀/클럭으로 추츧됩니다. 


TAG •

  • ?
    RuBisCO 2018.03.16 10:14
    드디어 코어 구성비를 고쳐서 ROP 병목으로 실성능이 나락으로 떨어지는 문제를 고칠 모양이군요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    혹시 다들 지메일 푸시 알림 잘 오시나요?

    애플 진영은 아무 문제 없는데 유독 안드 기기에서 지메일 앱이 말썽을 부리고 있네요.   여러 커뮤니티를 통해 질문도 올려보고 영어로도 검색해봤는데 저만 그런것도 아니더군요. 픽셀부터 소니, 삼성까지 두루두루 문제가 발생된다고 ...
    Date2024.04.19 질문 By록키베어 Reply11 Views657
    Read More
  2. No Image

    Y700 2세대 RSA에서 내수롬 모델명이 뭘까요??

    안녕하세요.   혹시 Y700 2세대 RSA에서 내수롬 모델명을 알수 있을 까요?? 원래 내수롬쓰다가 글로벌롬 나왔다고하여 제대로 확인못하고 내수롬 761버전에서 시도했다 벽돌될뻔한거 일본롬 022버전으로 강제 이주했는데 영 별로라 내수롬...
    Date2024.04.19 질문 By카일 Reply3 Views955
    Read More
  3. 화웨이 Pura 70 시리즈 스마트폰 발표

    화웨이가 Pura 70 시리즈 스마트폰을 발표했습니다. 우선 Pura 70입니다. 가격은 12/256GB 5499위안, 1TB는 6999위안까지, 색상은 4가지. 길이 157.6mm, 6.6인치 2760x1256 해상도, 120Hz 적응형 주사율, LTPO OLED 패널, 쿤룬 글래스 강...
    Date2024.04.19 소식 By낄낄 Reply7 Views1981 file
    Read More
  4. 5월 17일에 엑스페리아 신형 발표

    소니가 5월 17일에 엑스페리아 스페셜 이벤트를 개최합니다. 소니는 작년 5월 11일에 엑스페리아 1V와 10V를 발표했으며, 최근에는 1 VI의 소문이 계속 나오고 있습니다.
    Date2024.04.19 소식 By낄낄 Reply3 Views689 file
    Read More
  5. 스냅드래곤 X가 탑재된 레노버 요가 슬림 7 14 2024

    스냅드래곤 X가 탑재된 레노버 요가 슬림 7 14 2024입니다. 스냅드래곤 X를 쓴 비레퍼 모델은 이번이 처음입니다. 정식 출시는 아니고 유출된 이미지입니다.
    Date2024.04.18 소식 By낄낄 Reply8 Views1441 file
    Read More
  6. 갤럭시 M55 유럽 출시, 45W 유선 충전 지원

    갤럭시 M55 5G가 브라질에 이어 유럽 시장에도 출시됐습니다. 2022년에 출시된 스냅드래곤 7 Gen1 프로세서를 사용하기에 성능은 그리 높지 않지만, 갤럭시 S24보다도 빠른 45W 유선 충전을 지원합니다. 무선 충전은 없습니다. 6.7인치 10...
    Date2024.04.18 소식 By낄낄 Reply19 Views2050 file
    Read More
  7. No Image

    유럽서 '인앱결제' 꼬리내린 애플…한국선 '산더미 서류'로 반박

    방통위, 시정조치 관련 전체회의 일정 못 잡아 3개월 넘도록 사업자가 제출한 서류 검토 중 애플, 기한 연장하면서까지 방대한 서류 제출 유럽에선 외부 결제 개방·수수료 폐지…한국서만 반발 시정조치안이 통보된 직후 애...
    Date2024.04.17 소식 By낄낄 Reply16 Views1766
    Read More
  8. 모토 엣지 50 울트라 발표. 스냅드래곤 8s Gen 3, 6400만 화소 3배 줌

    모토 엣지 50 울트라 스마트폰입니다. 포레스트 그레이와 피치 퍼즈 색상의 비건 레더 외에도 나무같은 느낌을 주는 노르딕 우드 색상이 있습니다. 가격은 1000유로부터. 스냅드래곤 8s Gen3, 12/16GB LPDDR5X 메모리, 512GB/1TB UFS 4.0 ...
    Date2024.04.17 소식 By낄낄 Reply5 Views808 file
    Read More
  9. No Image

    아이폰 16 프로, 기본 용량이 256GB로 증가?

    아이폰 16 프로의 기본 모델 용량이 256GB가 될 거라고 합니다. 아이폰 15 프로는 128GB입니다. 용량은 늘어나지만 가격에는 변화가 없을 거라는 말도 있네요. 솔직히 지금 쓰기에는 128GB는 너무 작죠.
    Date2024.04.17 소식 By낄낄 Reply7 Views748
    Read More
  10. No Image

    삼성, 갤럭시 AI 대상기기 확대 S22, 플립4, 갤탭S8

    삼성전자는 5월부터 갤럭시S22시리즈 Z플립4 폴드4 갤탭S8 대상으로 갤럭시 AI지원하는 One UI 6.1 소프트웨어 업데이트를 진행합니다   이번업데이트로 실시간통역 채팅어시스트 서클투서치 노트 어시스트 생성형편집등 갤럭시 AI 기능 ...
    Date2024.04.17 소식 Bytitle: 명사수툴라 Reply3 Views989
    Read More
  11. 블랙샤크 링. 두께 2.2mm, 180일 배터리

    블랙샤크의 스마트 링인 블랙샤크 링입니다. 두께 2.2mm, 180일 배터리(충전 케이스 사용 시), 링 표면에 스마트 터치, 심박/혈중 산소/체온 모니터링 기능이 있습니다.
    Date2024.04.16 소식 By낄낄 Reply6 Views1315 file
    Read More
  12. 픽셀 8a, 네가지 색상으로 출시

    구글 픽셀 8a가 4가지 색상으로 출시될 거라고 합니다. 5월 14일에 나옵니다.
    Date2024.04.15 소식 By낄낄 Reply5 Views850 file
    Read More
  13. 소니 엑스페리아 1 VI의 렌더링 유출

    소니 엑스페리아 1 VI의 렌더링이 유출됐습니다. 디자인은 기존 제품과 비슷하지만 길이는 줄어들고 폭은 늘어났습니다. 165x71x8.3mm에서 161.9x74.5x8.4mm가 됩니다. 또 4K 해상도를 쓰지 않으며 카메라는 변하지 않을 거라는 소문이 있...
    Date2024.04.15 소식 By낄낄 Reply7 Views1066 file
    Read More
  14. 애플 워치, 물에 빠진 걸 감지하는 기능 추가?

    애플이 디지털 풀 어시스턴트라는 감지 기능 특허를 냈습니다. 팔다리가 불규칙하게 움직이고, 심박이 빠르게 뛰고, 혈중 산소 농도에 문제가 있는 등 위험하다고 판단하면 주변 사람들에게 비상 신호를 보내는 것입니다. 어떤 움직임이 ...
    Date2024.04.15 소식 By낄낄 Reply6 Views731 file
    Read More
  15. No Image

    안드로이드 15 베타 버전 배포 개시

    안드로이드 15 베타 1 버전의 배포가 시작됐습니다. 픽셀 6, 6 프로, 6a 이상 제품과 픽셀 폴드, 픽셀 태블릿에서 지원합니다. 앱 내 카메라 컨트롤 기능 강화, HDR 헤드룸 컨트롤, CTA-2075 라우드니스 표준 지원, 새로운 노출 모드인 &#...
    Date2024.04.14 소식 By낄낄 Reply2 Views937
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 1276 Next
/ 1276

한미마이크로닉스
AMD
MSI 코리아
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소