Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
조회 수 2197 댓글 11
Extra Form
참고/링크 https://github.com/krrishnarraj/clpeak

https://play.google.com/store/apps/details?id=kr.clpeak&hl=en_US&gl=US

 

https://gigglehd.com/gg/mobile/10922227 이 글을 보다보니 적절한 벤치가 하나 있어서 소개해드립니다. 

 

clpeak은 오픈소스 OpenCL GPU 벤치 입니다. OpenCL은 NVIDIA의 CUDA와 함께 시장을 양분하는 GPGPU라이브러리로, GPU를 사용한 연산(AI등)이나 수치 해석같은 부분은 모두 OpenCL(또는 CUDA)를 사용하고 있습니다. 

 

GPU의 이론적 (float32 - single precision의 경우) FLOPS(float operation per sec)계산을 할 때, "GPU클럭 * ALU(연산유닛)수 * 2 " 를 하는데, 말 그대로 GPU내의 연산유닛 하나당 1 클럭에 1번의 덧셈과 곱셈을 진행할 수 있기 때문입니다. 

 

clpeak은 이 정의 그대로 MAD (Multiply-ADd 또는 MAC, FMA >> Y = aX + b)연산을 통해서 GPU에서 GPGPU연산이 얼마나 이론치에 근접하는지 보여줍니다.

(https://github.com/krrishnarraj/clpeak/blob/0777205be1d5681d5a76d46ec94588544e8462a5/src/kernels/compute_sp_kernels.cl#L21)

 

물론 모든 벤치가 그렇듯 정확하지는 않은데... 

 

Nvidia Tesla V100의 경우 이론치는 아래와 같지만 

image.png

 

실 벤치로 측정되는 성능은 이론치를 약간 넘습니다. 

image.png

 

 

개인 테스트 서버의 GTX1060도 

 

이론치 보다 

image.png

 

실측이 좀 더 잘 나오는 편 입니다. (이유는 불명....;;)

image.png

 

 

 

또한 안드로이드 버전도 지원하기에... 이를 통해 모바일 GPU와 PC/서버급 GPU의 실성능은 대충 비교해 볼 수 있는데... 

 

image.png

 

 

 

아무래도 모바일 AP의 특성상 호스트(CPU) 메모리를 공유하는 환경이, 별도의 GDDR을 사용하는 일반 그래픽 카드 대비 대역폭에서 열세인 부분은 어쩔 수 없어보입니다. 이 부분이 이론치 대비 실측치가 떨어지는 가장 큰 원인이지만,  그래도 LPDDR4x니 LPDDR5같은 차세대 램을 먼저 적용하는 모바일 특성상 점점 그 갭을 매꿀 수 있겠지요. 

 

제가 올해 모델 (E2100, SD888)을 측정해보지는 않았지만 1TFLOPS는 무난해 보이니 장족의 발전을 한 것이 아닌가 합니다. 1969년 (아폴로 11호 발사년도) 가장 빨랐던 슈퍼컴퓨터인 CDC6600이 3MFLOPS 성능이니....반 백년 기술발전의 결정체인 스마트폰은 그 당시 슈퍼컴 보다 최소 34만배 빠른 손에 들고 다닐 수 있는 컴퓨터가 되었습니다. ㄷㄷㄷ

 

 

 

p.s floatN 에서 N은 vector instruction이라서 AVX 같은 SIMD와 동일합니다.(한 번에 n개 입력을 처리) 아무래도 I/O상 이점이 있지만, 코드를 짜 보면 실활용에서 넓은 SIMD폭을 충분히 활용하기는 힘든 편이더군요. 

 

p.s AI, 그 중 현재 DNN(Deep Neural Network)에서 가장 모바일에 많이 사용되는 CNN(Convolutional Neural Network)의 경우 Convolution연산이 MAD로 치환 가능하기에 코드를 잘 짜면 거의 이론상 최대 성능에 근접합니다. 

 

p.s 현재 안드로이드의 경우 DNN모델을 적용하는 가장 쉬운 방법은 구글의 TensorFlow 모델을 TFLite형태로 변환해서 코드에 활용할 수 있습니다. 이 경우 런타임을 CPU/GPU선택 가능하며 GPU(또는 NPU)의 경우 구글이 제공하는 통일된 인터페이스인 NNAPI와 각각의 AP제조사(퀄컴 등)이 제공하는 커스텀 런타임이 있고, 대부분의 경우 커스텀 런타임쪽 성능이 더 높습니다. (스냅드래곤의 hexagon, Hisilicon의 DaVinci 등...)

 

p.s 여러 AP제조사에서 NPU(Neural Processing Unit)이라는 이름으로 DNN연산기를 제공하고 있습니다. 대부분 서드파티 개발자에게는 TFLite로 작성된 DNN모델을 AP제조사가 제공하는 라이브러리에 넣으면 자체 런타임에서 각 연산을 분석하여 NPU에서 동작 가능한것은 NPU에서, 그렇지 않은 연산(layer)은 GPU에서 동작하여 최종 결과물을 출력합니다. NPU의 경우 ASIC과 같이 사전에 gate로 정의된 연산만 가능하기에 거의 필연적이지요. 

 

p.s NPU제조사들이 십수 TOPS라고 광고하는 NPU들이 FLOPS단위가 아닌것은 ASIC의 특성상 gate의 갯수가 실리콘 면적에 직결되고, 면적 == 단가인 상황에서 이미 float연산이 가능한 GPU가 있기에.... NPU에서는 float32가 아닌 int8 또는 bfloat16같은 상대적으로 낮은 정밀도의 연산만을 지원합니다. 그렇기에 FLOPS라고 광고하지 않고 TOPS라고 하는것.... 

 

p.s 그렇기에 필연적으로 float32로 학습된 모델을 더 낮은 정밀도로 바꾸어주는 'Quantization'이 강제됩니다. 이 분야도 꽤나 핫했는데.... 학습 후 Quantization은 모델에 따라서 편차가 커서 현재는 학습 시점에 혼합 정밀도를 사용해서 학습하는 방법에 대한 논문이 나오고 있습니다. (모바일용이 아닌 대책없이 커지는 모델의 크기를 VRAM이 감당할 수 없어서의 차선책에 가깝습니다.)

 

p.s 앞선 모든 방법은 AI모델을 활용하는 방법 (forward 방향)에 대한 설명입니다. 제가 아는 선에서는 현재 모바일에서 GPU나 NPU를 활용하여 서비스 타임에 추가적인 학습을 진행하는 방법은 사용하지 않습니다. 이는 당연하다면 당연한 것이, 학습 == backward (backpropagation) 시에는 역방향의 그레디언트 (편미분값)을 활용하여 학습을 진행하게 되는데.... forward시 몇 배에 달하는 연산량과 backward시 NPU를 활용할 수 없기 때문입니다. (NPU는 낮은정밀도 + forward만 지원)


TAG •

  • ?
    NPU 2021.09.22 08:39
    잘 읽었습니다.
    디멘시티나 엑시노스 NPU는 정수연산에 거의 몰빵한 반면
    A칩 NPU는 정수연산은 안되고 F16, F32연산에 몰빵한 것 같더군요 ㅎㅎ
  • profile
    ForGoTTen      결제중.... 2021.09.22 11:11
    iOS쪽은 제가 직접 코딩을 해보지는 않았지만, 문서상 보면 float16으로 처리하는 것 같더군요.

    이쪽의 리더격인 NVIDIA(그리고 인수되서 그런가 ARM은) bfloat16같은 낮은 비트수에도 정밀도를 올린 자료형을 지원하는게 유행(?) 입니다.
  • ?
    NPU 2021.09.22 14:05
    오엥 fp16이나 fp32모델 둘다 속도가 같길래 그런줄 알았는데
    제가 CPU에서 돌아간걸 착각했나 보네요 ㅋㅋ
  • profile
    360ghz      case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2021.09.22 12:52
    IOS에서는 FP16 사용을 무조건적으로 권장하고 있어서, FP32도 16으로 변환해야 오류가 안뜹니다...ㅠ
    16 기반으로 혼합정밀도 사용하는 여러 연산이 있는데, 대충 다 뛰어넘고, 16모델 기준으로 제출할 때 어지간해서 안뜨는 오류들이 32로 연산해야한다면 뿜뿜...
  • ?
    NPU 2021.09.22 14:06
    ㅎㅎ 그렇군요
  • ?
    RuBisCO 2021.09.22 09:39
    이론치보다 더 잘나오는 이유는 이론치가 베이스 클럭 기준인데 실측치는 부스트 클럭으로 나와서 그럴겁니다.
  • profile
    ForGoTTen      결제중.... 2021.09.22 10:27
    아...그런 당연한것을 깜빡햤군요...;;
  • profile
    류오동      컴알못입니다. 2021.09.22 14:27
    어어어어....'표기 부스트'랑 '실 부스트'를 잘못 쓰신 거겠죠? ㄷㄷ....
  • ?
    RuBisCO 2021.09.22 19:27
    아아 실수했군요
  • ?
    steve 2021.09.22 15:27
    스냅 888로 돌려봤습니다
    Global memory bandwidth (GBPS)
    float : 34.10
    float2 : 35.72
    float4 : 36.91
    float8 : 37.73
    float16 : 36.34

    Single-precision compute (GFLOPS)
    float : 1027.14
    float2 : 1149.45
    float4 : 1057.69
    float8 : 1211.81
    float16 : 1221.64
  • profile
    ForGoTTen      결제중.... 2021.09.22 15:47
    이론치가 1.6T정도 되니까... 75%정도군요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. MSI 타이탄 18 HX 게이밍 노트북 발표

    MSI 타이탄 18 HX 게이밍 노트북입니다. 세계 최초 18인치 4K 120hz 미니 LED 디스플레이를 사용합니다. 그리고 그냥 4K가 아니라 3840x2400의 16:10 비율입니다. HDR 모드에서 1000니트의 밝기, 베사 디스플레이HDR 1000 인증, 100% DCI...
    Date2023.12.22 소식 By낄낄 Reply0 Views617 file
    Read More
  2. 드디어 갤럭시S 하단 베젤이 균등해지네요

    s23까지는 하단 베젤이 다른 면에 비해서 약간 넓었는데 갤럭시s24에서부터 사면 베젤 넓이가 완전히 동일하게 되었네요. (유출된 렌더링이 맞다면)   액정 하단 부분에 컨트롤러가 위치하여 구조적으로 하단 베젤이 넓어질 수밖에 없는 ...
    Date2023.12.21 일반 By오모리100 Reply6 Views1946 file
    Read More
  3. 갤럭시 S24 시리즈 사양 유출

      언팩이 심심하겠어요. 거의 오피셜...?
    Date2023.12.21 소식 Bytitle: 명사수M16 Reply16 Views2259 file
    Read More
  4. No Image

    아이폰 16 프로에 테트라 프리즘 망원 탑재, 비전 프로는 2월 출시

    iOS 18 코드에 A18이 탑재된 4개의 새 아이폰 모델이 등록됐습니다. 아이폰 16, 아이폰 16 플러스, 아이폰 16 프로, 아이폰 16 프로 맥스일 듯 합니다. https://www.macrumors.com/2023/12/20/ios-18-code-four-new-iphone-models/ 아이폰...
    Date2023.12.21 소식 By낄낄 Reply2 Views770
    Read More
  5. No Image

    삼성, 자가 수리 프로그램의 장치/지역 확대

    삼성이 자가 수리 프로그램에 갤럭시 S23 FE, 갤럭시 Z 플립 5, 갤럭시 Z 폴드 5, 갤럭시 A05s, 갤럭시 탭 S9 시리즈, 갤럭시 탭 A9 시리즈, 갤럭시 북 프로/프로 360, 갤럭시 북 2 프로/프로 360을 추가했습니다. 또 유럽의 30개국으로 ...
    Date2023.12.21 소식 By낄낄 Reply0 Views401
    Read More
  6. s24 렌더링과 언팩 초대장 유출

    이미 아실분들은 아실텐데 아직 여기에 소식이 없는것 같아 적어봅니다   초대장 한국시 기준 1월 18일 새벽 03시   종합샷   오닉스 블랙       코발트 바이올렛       마블 그레이       앰버 옐로우       아직 삼닷 전용 컬러는 안 나...
    Date2023.12.21 소식 By911 Reply6 Views960 file
    Read More
  7. No Image

    '제4이통' 후보 3파전…세종텔레콤·스테이지파이브·마이모바일

    세종텔레콤, 스테이지엑스, 마이모바일 컨소시엄이 제4 이동통신 사업자 자리를 두고 최종 경쟁에 나선다. 세종텔레콤: 알뜰폰 사업자 스테이지엑스: 어쨌건 카카오 계열 미래모바일: 서류조차 못냈다가 재시도(이번이 3트) 가슴이 웅장해...
    Date2023.12.21 소식 By낄낄 Reply6 Views634
    Read More
  8. 하다하다

      추워서 영혼(USIM)이 가출하여 정신줄(네트워크)을 놓쳐버리는 현상도 나오네요.   퇴근길에 무진장 춥다고, 예토전생시킨 외장배터리 겸 손전등 겸 손난로를 쥐고가는데 갑자기, SIM카드 인식 불량.   작년까지 잘쓰던 USIM이고, 지난...
    Date2023.12.20 일반 Bytitle: 가난한AKG-3 Reply15 Views1268 file
    Read More
  9. No Image

    Beeper, 애플의 접속 차단을 해결했지만 대신 맥이 필요

    Beeper에서 아이메세지를 보내려면 실물 맥에서 등록 데이터를 보내야 했는데요. Beeper를 자체 맥 서버를 굴러서 이 문제를 해결했지만, 모든 Beeper 사용자가 똑같은 등록 데이터를 사용한다는 사실이 알려지면서 애플이 이를 간단하게 ...
    Date2023.12.20 소식 By낄낄 Reply20 Views1125
    Read More
  10. 누비아 Z60 울트라 스마트폰 출시. 18/35/85mm 카메라 탑재

    누비아 Z60 울트라 스마트폰이 출시됐습니다. 가격은 599달러부터. 각진 디자인, 6.8인치 AMOLED, 1500니트 밝기, 120hz 주사율, 1200Hz 샘플링, 2160Hz PWM 광량 조절, 1200만 화소 언더 디스플레이 카메라, 전면 카메라에 자체 디스플레...
    Date2023.12.20 소식 By낄낄 Reply1 Views568 file
    Read More
  11. No Image

    갤럭시 S24와 S25 기본 모델은 5천만 화소 센서 유지

    갤럭시 S24와 S25 기본 모델의 메인 카메라는 5천만 화소 센서를 그대로 사용합니다. 갤럭시 Z 폴드 5, 갤럭시 S23/S23+에서 썼던 5천만 화소 1/1.56인치 아이소셀 GN3 센서입니다.
    Date2023.12.20 소식 By낄낄 Reply0 Views771
    Read More
  12. 갤럭시 A55, 엑시노스 1480 탑재

    갤럭시 A55가 긱벤치에 등록됐습니다. 여기에는 엑시노스 1480, Xclipse 530 GPU가 탑재되며 8GB 메모리를 사용합니다. Xclipse 580은 AMD RDNA2 아키텍처를 사용하는 GPU입니다.
    Date2023.12.20 소식 By낄낄 Reply1 Views1086 file
    Read More
  13. 화웨이 기린 9000S의 성능 테스트, 9000보다 못하다?

    화웨이 기린 9000S는 SMIC의 2세대 7nm 공정으로 만든 프로세서입니다. 이걸 TSMC N5(5nm) 공정으로 생산한 기린 9000과 비교한 테스트입니다. 안투투 10, 긱벤치 6, 3D마크 와일드 라이프 등을 테스트해보니 CPU 성능은 비슷하거나 앞서...
    Date2023.12.20 소식 By낄낄 Reply1 Views540 file
    Read More
  14. No Image

    SKT, 장기 고객 위한 ‘스페셜 T’ 론칭

    – 5년 이상 고객부터 매년 가입 연수만큼 추가 데이터 제공, 가입 월에 1회•최대 30GB – 고객 채널에선 ‘장기 우수 고객’ 호칭 적용… 10년 이상 고객에겐 인기 공연 할인 혜택 – 30년 이상 SKT 고객은 연간 납부 금액 상관없이 T멤버십 VI...
    Date2023.12.20 소식 Bytitle: 가난한카토메구미 Reply18 Views1016
    Read More
  15. HP 오멘 트랜센드 노트북, 14인치/1.6kg/코어 울트라

    HP 오멘 트랜센드 노트북이 유출됐습니다. 무게 1.6kg으로 세계에서 가장 가벼운 14인치 게이밍 노트북이라고 합니다. 코어 울트라 7 155H/코어 울트라 9 185H 프로세서, 지포스 RTX 4050/4060/4070 탑재, 베이퍼 챔버 쿨러, 2880x1800 12...
    Date2023.12.20 소식 By낄낄 Reply1 Views930 file
    Read More
목록
Board Pagination Prev 1 ... 30 31 32 33 34 35 36 37 38 39 ... 1276 Next
/ 1276

최근 코멘트 30개
능구
20:06
렉사
20:05
Induky
20:04
Induky
20:02
Induky
20:02
아쉘리아
19:46
소고기죽
19:27
검은숲
19:21
cowper
19:21
Kylver
19:14
wwsun98
18:27
TundraMC
18:20
쿠클라델
18:20
CKyuJay
18:20
툴라
18:19
애플마티니
18:18
kerberos
18:15
AKG-3
18:11
야생감귤
18:09
에드화이트
18:08
강제
18:00
강제
18:00
Argenté
17:59
냥뇽녕냥
17:57
까르르
17:48
까르르
17:43
책읽는달팽
17:43
툴라
17:33
PAIMON
17:30
유입입니다
17:29

더함
한미마이크로닉스
AMD
MSI 코리아

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소