Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
조회 수 2189 댓글 11
Extra Form
참고/링크 https://github.com/krrishnarraj/clpeak

https://play.google.com/store/apps/details?id=kr.clpeak&hl=en_US&gl=US

 

https://gigglehd.com/gg/mobile/10922227 이 글을 보다보니 적절한 벤치가 하나 있어서 소개해드립니다. 

 

clpeak은 오픈소스 OpenCL GPU 벤치 입니다. OpenCL은 NVIDIA의 CUDA와 함께 시장을 양분하는 GPGPU라이브러리로, GPU를 사용한 연산(AI등)이나 수치 해석같은 부분은 모두 OpenCL(또는 CUDA)를 사용하고 있습니다. 

 

GPU의 이론적 (float32 - single precision의 경우) FLOPS(float operation per sec)계산을 할 때, "GPU클럭 * ALU(연산유닛)수 * 2 " 를 하는데, 말 그대로 GPU내의 연산유닛 하나당 1 클럭에 1번의 덧셈과 곱셈을 진행할 수 있기 때문입니다. 

 

clpeak은 이 정의 그대로 MAD (Multiply-ADd 또는 MAC, FMA >> Y = aX + b)연산을 통해서 GPU에서 GPGPU연산이 얼마나 이론치에 근접하는지 보여줍니다.

(https://github.com/krrishnarraj/clpeak/blob/0777205be1d5681d5a76d46ec94588544e8462a5/src/kernels/compute_sp_kernels.cl#L21)

 

물론 모든 벤치가 그렇듯 정확하지는 않은데... 

 

Nvidia Tesla V100의 경우 이론치는 아래와 같지만 

image.png

 

실 벤치로 측정되는 성능은 이론치를 약간 넘습니다. 

image.png

 

 

개인 테스트 서버의 GTX1060도 

 

이론치 보다 

image.png

 

실측이 좀 더 잘 나오는 편 입니다. (이유는 불명....;;)

image.png

 

 

 

또한 안드로이드 버전도 지원하기에... 이를 통해 모바일 GPU와 PC/서버급 GPU의 실성능은 대충 비교해 볼 수 있는데... 

 

image.png

 

 

 

아무래도 모바일 AP의 특성상 호스트(CPU) 메모리를 공유하는 환경이, 별도의 GDDR을 사용하는 일반 그래픽 카드 대비 대역폭에서 열세인 부분은 어쩔 수 없어보입니다. 이 부분이 이론치 대비 실측치가 떨어지는 가장 큰 원인이지만,  그래도 LPDDR4x니 LPDDR5같은 차세대 램을 먼저 적용하는 모바일 특성상 점점 그 갭을 매꿀 수 있겠지요. 

 

제가 올해 모델 (E2100, SD888)을 측정해보지는 않았지만 1TFLOPS는 무난해 보이니 장족의 발전을 한 것이 아닌가 합니다. 1969년 (아폴로 11호 발사년도) 가장 빨랐던 슈퍼컴퓨터인 CDC6600이 3MFLOPS 성능이니....반 백년 기술발전의 결정체인 스마트폰은 그 당시 슈퍼컴 보다 최소 34만배 빠른 손에 들고 다닐 수 있는 컴퓨터가 되었습니다. ㄷㄷㄷ

 

 

 

p.s floatN 에서 N은 vector instruction이라서 AVX 같은 SIMD와 동일합니다.(한 번에 n개 입력을 처리) 아무래도 I/O상 이점이 있지만, 코드를 짜 보면 실활용에서 넓은 SIMD폭을 충분히 활용하기는 힘든 편이더군요. 

 

p.s AI, 그 중 현재 DNN(Deep Neural Network)에서 가장 모바일에 많이 사용되는 CNN(Convolutional Neural Network)의 경우 Convolution연산이 MAD로 치환 가능하기에 코드를 잘 짜면 거의 이론상 최대 성능에 근접합니다. 

 

p.s 현재 안드로이드의 경우 DNN모델을 적용하는 가장 쉬운 방법은 구글의 TensorFlow 모델을 TFLite형태로 변환해서 코드에 활용할 수 있습니다. 이 경우 런타임을 CPU/GPU선택 가능하며 GPU(또는 NPU)의 경우 구글이 제공하는 통일된 인터페이스인 NNAPI와 각각의 AP제조사(퀄컴 등)이 제공하는 커스텀 런타임이 있고, 대부분의 경우 커스텀 런타임쪽 성능이 더 높습니다. (스냅드래곤의 hexagon, Hisilicon의 DaVinci 등...)

 

p.s 여러 AP제조사에서 NPU(Neural Processing Unit)이라는 이름으로 DNN연산기를 제공하고 있습니다. 대부분 서드파티 개발자에게는 TFLite로 작성된 DNN모델을 AP제조사가 제공하는 라이브러리에 넣으면 자체 런타임에서 각 연산을 분석하여 NPU에서 동작 가능한것은 NPU에서, 그렇지 않은 연산(layer)은 GPU에서 동작하여 최종 결과물을 출력합니다. NPU의 경우 ASIC과 같이 사전에 gate로 정의된 연산만 가능하기에 거의 필연적이지요. 

 

p.s NPU제조사들이 십수 TOPS라고 광고하는 NPU들이 FLOPS단위가 아닌것은 ASIC의 특성상 gate의 갯수가 실리콘 면적에 직결되고, 면적 == 단가인 상황에서 이미 float연산이 가능한 GPU가 있기에.... NPU에서는 float32가 아닌 int8 또는 bfloat16같은 상대적으로 낮은 정밀도의 연산만을 지원합니다. 그렇기에 FLOPS라고 광고하지 않고 TOPS라고 하는것.... 

 

p.s 그렇기에 필연적으로 float32로 학습된 모델을 더 낮은 정밀도로 바꾸어주는 'Quantization'이 강제됩니다. 이 분야도 꽤나 핫했는데.... 학습 후 Quantization은 모델에 따라서 편차가 커서 현재는 학습 시점에 혼합 정밀도를 사용해서 학습하는 방법에 대한 논문이 나오고 있습니다. (모바일용이 아닌 대책없이 커지는 모델의 크기를 VRAM이 감당할 수 없어서의 차선책에 가깝습니다.)

 

p.s 앞선 모든 방법은 AI모델을 활용하는 방법 (forward 방향)에 대한 설명입니다. 제가 아는 선에서는 현재 모바일에서 GPU나 NPU를 활용하여 서비스 타임에 추가적인 학습을 진행하는 방법은 사용하지 않습니다. 이는 당연하다면 당연한 것이, 학습 == backward (backpropagation) 시에는 역방향의 그레디언트 (편미분값)을 활용하여 학습을 진행하게 되는데.... forward시 몇 배에 달하는 연산량과 backward시 NPU를 활용할 수 없기 때문입니다. (NPU는 낮은정밀도 + forward만 지원)


TAG •

  • ?
    NPU 2021.09.22 08:39
    잘 읽었습니다.
    디멘시티나 엑시노스 NPU는 정수연산에 거의 몰빵한 반면
    A칩 NPU는 정수연산은 안되고 F16, F32연산에 몰빵한 것 같더군요 ㅎㅎ
  • profile
    ForGoTTen      결제중.... 2021.09.22 11:11
    iOS쪽은 제가 직접 코딩을 해보지는 않았지만, 문서상 보면 float16으로 처리하는 것 같더군요.

    이쪽의 리더격인 NVIDIA(그리고 인수되서 그런가 ARM은) bfloat16같은 낮은 비트수에도 정밀도를 올린 자료형을 지원하는게 유행(?) 입니다.
  • ?
    NPU 2021.09.22 14:05
    오엥 fp16이나 fp32모델 둘다 속도가 같길래 그런줄 알았는데
    제가 CPU에서 돌아간걸 착각했나 보네요 ㅋㅋ
  • profile
    title: AI360ghz      case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2021.09.22 12:52
    IOS에서는 FP16 사용을 무조건적으로 권장하고 있어서, FP32도 16으로 변환해야 오류가 안뜹니다...ㅠ
    16 기반으로 혼합정밀도 사용하는 여러 연산이 있는데, 대충 다 뛰어넘고, 16모델 기준으로 제출할 때 어지간해서 안뜨는 오류들이 32로 연산해야한다면 뿜뿜...
  • ?
    NPU 2021.09.22 14:06
    ㅎㅎ 그렇군요
  • ?
    RuBisCO 2021.09.22 09:39
    이론치보다 더 잘나오는 이유는 이론치가 베이스 클럭 기준인데 실측치는 부스트 클럭으로 나와서 그럴겁니다.
  • profile
    ForGoTTen      결제중.... 2021.09.22 10:27
    아...그런 당연한것을 깜빡햤군요...;;
  • profile
    류오동      컴알못입니다. 2021.09.22 14:27
    어어어어....'표기 부스트'랑 '실 부스트'를 잘못 쓰신 거겠죠? ㄷㄷ....
  • ?
    RuBisCO 2021.09.22 19:27
    아아 실수했군요
  • ?
    steve 2021.09.22 15:27
    스냅 888로 돌려봤습니다
    Global memory bandwidth (GBPS)
    float : 34.10
    float2 : 35.72
    float4 : 36.91
    float8 : 37.73
    float16 : 36.34

    Single-precision compute (GFLOPS)
    float : 1027.14
    float2 : 1149.45
    float4 : 1057.69
    float8 : 1211.81
    float16 : 1221.64
  • profile
    ForGoTTen      결제중.... 2021.09.22 15:47
    이론치가 1.6T정도 되니까... 75%정도군요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 궁금해서 아이폰12 와일드라이프 테스트 돌려봤습니다

      참고로 iOS 14.3 입니다 14.4에서 복원한건데 14.4에서도 한번 돌려볼걸 그랬네요..        벤치마크 시 평균 전력소모는 6.3W가 나옵니다.  아이폰의 배터리 용량을 생각하면 약 100분 가량 구동이 가능합니다.        저전력 모드에...
    Date2021.01.22 테스트 ByNPU Reply6 Views1882 file
    Read More
  2. S21 3대 테스트

    ※ 다른 사이트로 사진 일부 혹은 글 전체 퍼가지 마세요. 링크를 거세요.   S21 3대를 가져왔습니다.   요즘 발열이슈가 핫하더라고요? 그래서 사용설정하기 전에 벤치마크부터 돌려봤습니다. 아 그전에...   이부분 유격은 기기 종특인가...
    Date2021.01.22 테스트 ByMoria Reply18 Views6387 file
    Read More
  3. Alldocube iPlay40 벤치돌려봤습니다.

    저번 iPlay40 사용기에서 벤치마크에서 이상한 점수를 보여주거나 벤치마크가 정상적으로 구동이 되지 않았는데, 오늘 글로벌 펌웨어가 올라와서 설치 후 벤치마크를 다시 돌려봤습니다.   우선 긱벤치입니다.       타 기기와의 비교는 ...
    Date2021.01.20 테스트 By모래맛사탕 Reply4 Views1605 file
    Read More
  4. Exynos 2100 Geekbench Test (feat. S21U)

    ToGo서비스로 S21U를 빌려왔습니다. 빌려왔으니 당연히 벤치를 해봐야죠. 비교군은 (제가 가지고 있는)비슷한 폼펙터인 블랙샤크2(SD855) 입니다.    블랙샤크가 말이 많았지만 MIUI기반으로 업데이트 되고서는 정상(?)이 되서 SD855중에...
    Date2021.01.18 테스트 ByForGoTTen Reply10 Views2355 file
    Read More
  5. No Image

    S21U 투고받아서 지금까지 게임 돌려본 바로는.

    Pubg(원활 극한):뭐 얘기할필요 없음 이거 안돌아가는 플래그십은 최근기준 손에 꼽을 정도   콜옵(풀옵):배틀로얄할때 프레임 떨어지는거 느낄수 있음. 물론 얘도 하옵이면 당연히 무리는 없음.   메카시티(120hz):해본겜들중 유일하게 1...
    Date2021.01.18 테스트 By나랏미 Reply4 Views1425
    Read More
  6. 스마트폰 5종 와일드 라이프 26회 벤치

    아까 어떤분께서 S21울트라가 오래돌리면 점수가 떡락한다길레... 갑자기 궁금해져서 제가 가지고 있는 다른 스마트폰 4개까지 합쳐서 돌려봤습니다.   와일드라이프를 총 26회 연속 구동했으며, 모두 케이스를 벗기고 밝기는 자동밝기입...
    Date2021.01.17 테스트 Bytitle: 흑우슈베아츠 Reply29 Views6199 file
    Read More
  7. 갤럭시 S21 대충 만져보기

    아직 S21이 정식으로 출시되진 않았으나, 미리체험 서비스를 이용해서 3일동안 사용할 수 있는 기회를 얻었습니다.   체험 서비스에 준비된 대부분의 수량은 S21 Ultra 모델이었으나, 저는 S21이 타깃이었으므로 S21을 골랐어요.   색상은...
    Date2021.01.17 테스트 ByMoria Reply22 Views3669 file
    Read More
  8. 고장난 Galaxy S II를 합쳐 LineageOS 18(Android 11) 설치

    처음으로 테스트 분류로 글을 작성하네요. 신나서 작업하느라 사진이 많이 없고 설명이 빈약합니다. 많이 부족한 글이지만 좋게 봐 주시면 감사하겠습니다.   참고/링크 글 보자마자 커뮤니티 게시판에 메인보드 구입 글을 올리고, 감사하...
    Date2020.12.28 테스트 By임시닉네임 Reply22 Views5477 file
    Read More
  9. M1 맥에서 31개 게임 테스트

        로제타와 그래픽 성능을 대강 가늠하는 척도가 될 것 같습니다.    크로스오버라는 소프트웨어를 사용해 윈도우 게임인 위쳐3도 실행이 됩니다.               
    Date2020.12.16 테스트 ByNPU Reply6 Views3624 file
    Read More
  10. DELL XPS 9500(인텔 10세대) 언더볼팅하기

    이 글은 본인 섭취 칼로리 양을 못 줄이는 인간이 자기 노트북 섭취 칼로리를 줄여버리는 내용을 담고 있습니다.     어제쯤 언더볼팅 관련해서 글을 하나 올린 적이 있지요. 플런더볼트와 하드웨어 형식의 접근 방법인 볼트필리저에 대한...
    Date2020.12.10 테스트 By달가락 Reply4 Views4434 file
    Read More
  11. 이쯤에서 다시보는 윈도우 ARM 진영의 성능

        압축테스트에선 작년 출시된 8cx가 카비레이크 i7과 비비는 수준입니다.  심지어 8cx는 스마트폰에 들어가는 스냅 855와 같은 코어 구성입니다. (빅4+리틀4) 실사 후기를 보면 네이티브에선 빠릿하다고 하고요   코텍스 X1의 경우 성...
    Date2020.11.28 테스트 ByNPU Reply14 Views2783 file
    Read More
  12. M1 맥북프로 vs 16인치 맥북프로 성능, 전력소모 비교 (스압)

        M1 맥북프로와 16인치 맥북프로 기본형 (i7-9750H / 5300M) 비교 영상이 있어 결과를 올려봅니다.        1. 웹브라우저 성능 테스트      자바스크립트 처리 성능 비교이기에 싱글코어 성능이 높은 M1이 약 70% 정도 높은 점수를 냅...
    Date2020.11.28 테스트 ByNPU Reply50 Views17116 file
    Read More
  13. No Image

    M1 맥북 vs 인텔 맥북 게이밍 성능 비교

    https://youtu.be/ahReEQ-c7y8     영상 시작시점에 나오는건 ARM으로 빌드된 유니티 기술 데모 입니다. M1맥북 프로에서 로제타를 거치지 않고 실행되는 모습입니다.       로제타를 거쳐서 돌아가는 섀도우 오브 툼레이더, 토탈워 사가...
    Date2020.11.20 테스트 ByNPU Reply15 Views4233
    Read More
  14. 간단한 애플 ProRaw 테스트

      iOS 14.3 부터 들어간 RAW 촬영 기능입니다.  폰카로 RAW를 찍어서 편집할 일이 없겠지만 재미로 보시라고 올려봅니다.      참고로 나이트 모드도 지원하지만 끄고 촬영했습니다. (근데 나이트모드까지 적용되면 RAW라고 부르기도...) ...
    Date2020.11.18 테스트 ByNPU Reply14 Views1440 file
    Read More
  15. M1 맥북에어 파이널 컷 벤치마크 등장

              인텔 맥북에어는 쿼드코어 i7 모델 기준이라고 합니다.    또한 뒷판을 만져도 따뜻할뿐 뜨겁지 않았다고 하네요.              캐논 EOS R5로 촬영한 hevc 4K 10bit 422 30fps 영상을 타임라인에서 재생한 결과입니다.    이 ...
    Date2020.11.18 테스트 ByNPU Reply3 Views2181 file
    Read More
  16. M1 맥북에어 CPU 전력소모 측정 결과 등장

      맥북에어에서 시네벤치 R23 멀티 테스트를 1시간동안 6번 구동한 벤치가 나왔습니다.              첫번째 루프에서 10W로 전력소모가 제한되는것이 확인되었고 2.65Ghz로 동작함을 확인할 수 있었습니다.   이때 점수는 7401점이 나왔...
    Date2020.11.18 테스트 ByNPU Reply22 Views6785 file
    Read More
  17. 팬리스 맥북에어의 시네벤치 30분 루프 테스트 결과가 나왔습니다.

            팬리스 M1 맥북에어는 시네벤치 30분 루프 테스트에서 프로 모델에 비해 15% 낮은 6600점이 나왔으며, 싱글쓰레드 테스트에선 쓰로틀링이 없었습니다.   테스트를 진행한 Dave2D는 점수를 도저히 믿을수가 없어서 30분이나 루프 ...
    Date2020.11.17 테스트 ByNPU Reply5 Views1622 file
    Read More
  18. 아이폰12 QEMU 7zip 벤치마크 점수

      qemu 5.1 버전 에뮬레이터에서 돌아간 데비안10 ARM64 입니다.     
    Date2020.11.16 테스트 ByNPU Reply7 Views696 file
    Read More
  19. 딥퓨전 적용 전/후 비교

      딥 퓨전은 셔터를 누르기 직전 다양한 노출시간을 가진 9 프레임을 버퍼에 담아두고 있다가. 셔터를 눌렀을때 이들 프레임을 뉴럴엔진을 통해 엮어 품질을 향상시키는 기술입니다.   또한 자동으로 적용되기 때문에 사용자는 촬영중에 ...
    Date2020.11.12 테스트 ByNPU Reply20 Views5001 file
    Read More
  20. A14X 칩셋의 전력소모량을 대충 추정해 볼 수 있겠네요.

            아이폰 12의 평균 소비전력 입니다. (AP뿐만이 아닌 전체 소비전력입니다)      리그 오브 레전드 와일드 리프트 : 2.1W   PUBG :  2.6W   원신 :  4.3W     화면과 사운드에서 1W 정도 소모한다고 가정하면 A14칩 전력소모는 게...
    Date2020.11.06 테스트 ByNPU Reply9 Views1733 file
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 15 Next
/ 15

최근 코멘트 30개
Neons
02:20
까마귀
02:06
Neons
01:46
메이드아리스
01:41
메이드아리스
01:36
Loliconite
01:29
Loliconite
01:27
Neons
01:23
Loliconite
01:21
낄낄
01:11
Loliconite
01:10
카토메구미
00:59
낄낄
00:55
이유제
00:51
연금술사
00:48
노예MS호
00:47
연금술사
00:39
아스트랄로피테쿠스
00:36
Lynen
00:29
아이들링
00:20
스와마망
00:16
Kylver
00:15
포인트 팡팡!
00:14
슬렌네터
00:14
연금술사
00:14
이게뭘까
00:08
급식단
00:07
급식단
00:06
아스트랄로피테쿠스
00:04
가네샤
00:03

한미마이크로닉스
MSI 코리아
AMD
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소