Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

profile
조회 수 2196 댓글 11
Extra Form
참고/링크 https://github.com/krrishnarraj/clpeak

https://play.google.com/store/apps/details?id=kr.clpeak&hl=en_US&gl=US

 

https://gigglehd.com/gg/mobile/10922227 이 글을 보다보니 적절한 벤치가 하나 있어서 소개해드립니다. 

 

clpeak은 오픈소스 OpenCL GPU 벤치 입니다. OpenCL은 NVIDIA의 CUDA와 함께 시장을 양분하는 GPGPU라이브러리로, GPU를 사용한 연산(AI등)이나 수치 해석같은 부분은 모두 OpenCL(또는 CUDA)를 사용하고 있습니다. 

 

GPU의 이론적 (float32 - single precision의 경우) FLOPS(float operation per sec)계산을 할 때, "GPU클럭 * ALU(연산유닛)수 * 2 " 를 하는데, 말 그대로 GPU내의 연산유닛 하나당 1 클럭에 1번의 덧셈과 곱셈을 진행할 수 있기 때문입니다. 

 

clpeak은 이 정의 그대로 MAD (Multiply-ADd 또는 MAC, FMA >> Y = aX + b)연산을 통해서 GPU에서 GPGPU연산이 얼마나 이론치에 근접하는지 보여줍니다.

(https://github.com/krrishnarraj/clpeak/blob/0777205be1d5681d5a76d46ec94588544e8462a5/src/kernels/compute_sp_kernels.cl#L21)

 

물론 모든 벤치가 그렇듯 정확하지는 않은데... 

 

Nvidia Tesla V100의 경우 이론치는 아래와 같지만 

image.png

 

실 벤치로 측정되는 성능은 이론치를 약간 넘습니다. 

image.png

 

 

개인 테스트 서버의 GTX1060도 

 

이론치 보다 

image.png

 

실측이 좀 더 잘 나오는 편 입니다. (이유는 불명....;;)

image.png

 

 

 

또한 안드로이드 버전도 지원하기에... 이를 통해 모바일 GPU와 PC/서버급 GPU의 실성능은 대충 비교해 볼 수 있는데... 

 

image.png

 

 

 

아무래도 모바일 AP의 특성상 호스트(CPU) 메모리를 공유하는 환경이, 별도의 GDDR을 사용하는 일반 그래픽 카드 대비 대역폭에서 열세인 부분은 어쩔 수 없어보입니다. 이 부분이 이론치 대비 실측치가 떨어지는 가장 큰 원인이지만,  그래도 LPDDR4x니 LPDDR5같은 차세대 램을 먼저 적용하는 모바일 특성상 점점 그 갭을 매꿀 수 있겠지요. 

 

제가 올해 모델 (E2100, SD888)을 측정해보지는 않았지만 1TFLOPS는 무난해 보이니 장족의 발전을 한 것이 아닌가 합니다. 1969년 (아폴로 11호 발사년도) 가장 빨랐던 슈퍼컴퓨터인 CDC6600이 3MFLOPS 성능이니....반 백년 기술발전의 결정체인 스마트폰은 그 당시 슈퍼컴 보다 최소 34만배 빠른 손에 들고 다닐 수 있는 컴퓨터가 되었습니다. ㄷㄷㄷ

 

 

 

p.s floatN 에서 N은 vector instruction이라서 AVX 같은 SIMD와 동일합니다.(한 번에 n개 입력을 처리) 아무래도 I/O상 이점이 있지만, 코드를 짜 보면 실활용에서 넓은 SIMD폭을 충분히 활용하기는 힘든 편이더군요. 

 

p.s AI, 그 중 현재 DNN(Deep Neural Network)에서 가장 모바일에 많이 사용되는 CNN(Convolutional Neural Network)의 경우 Convolution연산이 MAD로 치환 가능하기에 코드를 잘 짜면 거의 이론상 최대 성능에 근접합니다. 

 

p.s 현재 안드로이드의 경우 DNN모델을 적용하는 가장 쉬운 방법은 구글의 TensorFlow 모델을 TFLite형태로 변환해서 코드에 활용할 수 있습니다. 이 경우 런타임을 CPU/GPU선택 가능하며 GPU(또는 NPU)의 경우 구글이 제공하는 통일된 인터페이스인 NNAPI와 각각의 AP제조사(퀄컴 등)이 제공하는 커스텀 런타임이 있고, 대부분의 경우 커스텀 런타임쪽 성능이 더 높습니다. (스냅드래곤의 hexagon, Hisilicon의 DaVinci 등...)

 

p.s 여러 AP제조사에서 NPU(Neural Processing Unit)이라는 이름으로 DNN연산기를 제공하고 있습니다. 대부분 서드파티 개발자에게는 TFLite로 작성된 DNN모델을 AP제조사가 제공하는 라이브러리에 넣으면 자체 런타임에서 각 연산을 분석하여 NPU에서 동작 가능한것은 NPU에서, 그렇지 않은 연산(layer)은 GPU에서 동작하여 최종 결과물을 출력합니다. NPU의 경우 ASIC과 같이 사전에 gate로 정의된 연산만 가능하기에 거의 필연적이지요. 

 

p.s NPU제조사들이 십수 TOPS라고 광고하는 NPU들이 FLOPS단위가 아닌것은 ASIC의 특성상 gate의 갯수가 실리콘 면적에 직결되고, 면적 == 단가인 상황에서 이미 float연산이 가능한 GPU가 있기에.... NPU에서는 float32가 아닌 int8 또는 bfloat16같은 상대적으로 낮은 정밀도의 연산만을 지원합니다. 그렇기에 FLOPS라고 광고하지 않고 TOPS라고 하는것.... 

 

p.s 그렇기에 필연적으로 float32로 학습된 모델을 더 낮은 정밀도로 바꾸어주는 'Quantization'이 강제됩니다. 이 분야도 꽤나 핫했는데.... 학습 후 Quantization은 모델에 따라서 편차가 커서 현재는 학습 시점에 혼합 정밀도를 사용해서 학습하는 방법에 대한 논문이 나오고 있습니다. (모바일용이 아닌 대책없이 커지는 모델의 크기를 VRAM이 감당할 수 없어서의 차선책에 가깝습니다.)

 

p.s 앞선 모든 방법은 AI모델을 활용하는 방법 (forward 방향)에 대한 설명입니다. 제가 아는 선에서는 현재 모바일에서 GPU나 NPU를 활용하여 서비스 타임에 추가적인 학습을 진행하는 방법은 사용하지 않습니다. 이는 당연하다면 당연한 것이, 학습 == backward (backpropagation) 시에는 역방향의 그레디언트 (편미분값)을 활용하여 학습을 진행하게 되는데.... forward시 몇 배에 달하는 연산량과 backward시 NPU를 활용할 수 없기 때문입니다. (NPU는 낮은정밀도 + forward만 지원)


TAG •

  • ?
    NPU 2021.09.22 08:39
    잘 읽었습니다.
    디멘시티나 엑시노스 NPU는 정수연산에 거의 몰빵한 반면
    A칩 NPU는 정수연산은 안되고 F16, F32연산에 몰빵한 것 같더군요 ㅎㅎ
  • profile
    ForGoTTen      결제중.... 2021.09.22 11:11
    iOS쪽은 제가 직접 코딩을 해보지는 않았지만, 문서상 보면 float16으로 처리하는 것 같더군요.

    이쪽의 리더격인 NVIDIA(그리고 인수되서 그런가 ARM은) bfloat16같은 낮은 비트수에도 정밀도를 올린 자료형을 지원하는게 유행(?) 입니다.
  • ?
    NPU 2021.09.22 14:05
    오엥 fp16이나 fp32모델 둘다 속도가 같길래 그런줄 알았는데
    제가 CPU에서 돌아간걸 착각했나 보네요 ㅋㅋ
  • profile
    360ghz      case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2021.09.22 12:52
    IOS에서는 FP16 사용을 무조건적으로 권장하고 있어서, FP32도 16으로 변환해야 오류가 안뜹니다...ㅠ
    16 기반으로 혼합정밀도 사용하는 여러 연산이 있는데, 대충 다 뛰어넘고, 16모델 기준으로 제출할 때 어지간해서 안뜨는 오류들이 32로 연산해야한다면 뿜뿜...
  • ?
    NPU 2021.09.22 14:06
    ㅎㅎ 그렇군요
  • ?
    RuBisCO 2021.09.22 09:39
    이론치보다 더 잘나오는 이유는 이론치가 베이스 클럭 기준인데 실측치는 부스트 클럭으로 나와서 그럴겁니다.
  • profile
    ForGoTTen      결제중.... 2021.09.22 10:27
    아...그런 당연한것을 깜빡햤군요...;;
  • profile
    류오동      컴알못입니다. 2021.09.22 14:27
    어어어어....'표기 부스트'랑 '실 부스트'를 잘못 쓰신 거겠죠? ㄷㄷ....
  • ?
    RuBisCO 2021.09.22 19:27
    아아 실수했군요
  • ?
    steve 2021.09.22 15:27
    스냅 888로 돌려봤습니다
    Global memory bandwidth (GBPS)
    float : 34.10
    float2 : 35.72
    float4 : 36.91
    float8 : 37.73
    float16 : 36.34

    Single-precision compute (GFLOPS)
    float : 1027.14
    float2 : 1149.45
    float4 : 1057.69
    float8 : 1211.81
    float16 : 1221.64
  • profile
    ForGoTTen      결제중.... 2021.09.22 15:47
    이론치가 1.6T정도 되니까... 75%정도군요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. 아마존, 신형 킨들 페이퍼화이트와 시그니처 에디션 발표

    아마존이 신형 킨들 페이퍼화이트와 시그니처 에디션을 발표했습니다. 줄어들 베젤, 6.8인치 스크린, 최대 밝기 10% 개선, 10주 배터리, USB-C로 2.5시간 충전, 8GB 스토리지. 시그니처 에디션은 주변 조명에 따라 자동 밝기 조절, 무선 ...
    Date2021.09.23 소식 By낄낄 Reply1 Views864 file
    Read More
  2. No Image

    구글 픽셀 6 프로 프로토타입 영상

    구글 픽셀 6 프로 프로토타입의 작동 영상입니다. 별건 없고 스마트폰을 여기저기 둘러보는 게 끝입니다. 영상은 트위터에서 보세요. 픽셀 6은 10월 19일에 발표된다고 알려져 있습니다.
    Date2021.09.23 소식 By낄낄 Reply1 Views490
    Read More
  3. 샤오미 Civi 시리즈 스마트폰이 9월 27일에 공개

    샤오미 Civi 시리즈 스마트폰이 9월 27일에 공개됩니다. 기존의 샤오미 미 CC 시리즈를 대체하는 제품입니다.
    Date2021.09.23 소식 By낄낄 Reply0 Views517 file
    Read More
  4. HP 14. 스냅드래곤 7c Gen2 장착 윈도우 11 노트북

    HP 14 노트북입니다. 스냅드래곤 7c Gen2을 장착한 제품 중 윈도우 11 지원을 명시했다는 특징이 있습니다. 8코어 2.4GHz 프로세서, Adreno 618 내장 그래픽, 8GB LPDDR4x-4266 메모리, 128GB eMMC 스토리지, 14인치 FHD IPS 디스플레이, ...
    Date2021.09.23 소식 By낄낄 Reply0 Views778 file
    Read More
  5. HP 스펙터 x360 16

    HP 스펙터 x360 16입니다. 가격 1639달러부터. 15.6인치에서 조금 더 커진 16인치 16:10 비율 화면, 500만 화소 셀카. UHD+OLED나 IPS 터치스크린에 3072x1920, 고릴라 글래스, 로우 블루라이트, 400니트의 밝기, 100% sRGB 코어 i7-11390...
    Date2021.09.23 소식 By낄낄 Reply4 Views1207 file
    Read More
  6. 최강의 포터블 원신 머신은 아이패드 미니네요…

      아이폰13 시리즈와 같은 A15지만 아이폰 라인업에 비해 CPU와 GPU가 좀더 낮은 클럭으로 세팅되어 있어서 너프인줄 알았는데   알고보니 아이폰은 전작대비 상승율 때문에 무리해서 클럭을 좀 높인 모양이고...   아이패드 미니는 스윗...
    Date2021.09.22 일반 By1N9 Reply14 Views6508 file
    Read More
  7. HP 11 태블릿. 11인치에 499달러

    HP 11 태블릿입니다. 가격 499달러, 키보드는 100달러 추가 11인치, 2160x1440 해상도 터치스크린, 고릴라 글래스 5, 로우 블루라이트, 400니트의 밝기, 100% sRGB, 84.6% 화면 점유율 펜티엄 실버 N6000, UHD 그래픽, 4GB LPDDR4x-2133 ...
    Date2021.09.22 소식 By낄낄 Reply4 Views959 file
    Read More
  8. No Image

    리투아니아 국방부 '샤오미 스마트폰 금지' 원문 요약

    원문은 참고링크에 걸어놓았습니다. (제목 : 당신의 스마트폰이 당신 모르게 하는 일 : 3개의 중국 제조사 휴대폰에 대한 고찰)   -리투아니아 국방부 산하 국가사이버보안센터는 화웨이 P40 5G, 샤오미 Mi 10T 5G, 원플러스 8T 5G를 대상...
    Date2021.09.22 일반 By뚜찌`zXie Reply17 Views2073
    Read More
  9. 레드미 G 2021 게이밍 노트북

    레드미 G 2021 게이밍 노트북 2세대입니다. 코어 i5-11260H와 지포스 RTX 3050 조합, 180W 어댑터, 가격 5699위안 라이젠 7 5800H와 지포스 RTX 3060 조합, 230W 어댑터, 더 좋은 쿨러, 가격 6999위안 . 둘 다 16GB 램, 512GB 스토리지, 1...
    Date2021.09.22 소식 By낄낄 Reply1 Views475 file
    Read More
  10. No Image

    리투아니아 국방부 "중국제 스마트폰 사지말고 이미 있으면 버려라"

    "리투아니아 국방부는 정부 보고서를 통해 샤오미의 ‘미 10T’ 등 신형 기종에서 ‘민주주의 운동’, ‘대만 독립 만세’, ‘티베트에 자유를’ 등의 용어를 탐지할 수 있는 기능을 발견했다"   "중국제 스마트폰을 사지 말고, 이미 샀다면 최대...
    Date2021.09.22 소식 Bypredator44 Reply5 Views835
    Read More
  11. No Image

    애플 소비자에게 값비싼 정식 수리를 유도하는 직원 교육 영상 유출

      2차 출처: https://quasarzone.com/bbs/qn_mobile/views/178260   Apple이 공식 수리 파트너들에게 보여주는 비디오가 유출 되었습니다.   그들은 파트너들에게 고객들이 승인받지 못한 수리 업체들이 사용하는 품질을 의심하게 만들고...
    Date2021.09.22 소식 By1N9 Reply5 Views1010
    Read More
  12. 애플스토어 한국 4호점은 롯데월드 타워?

    홀리스터가 있던 자리인데 다 걷어내고 그 자리에 애플스토어를 공사하는 것 같다는 카더라입니다. 만약 이렇게 될 경우 1호점 가로수길 2호점 여의도 3호점 명동(카더라, 공사중) 4호점 롯데타워? 즉. 수도권도 아니고 서울에만 4개가 ...
    Date2021.09.22 소식 By낄낄 Reply11 Views1339 file
    Read More
  13. OpenCL성능벤치 (clpeak) 와 모바일 AI 주저리....

    https://play.google.com/store/apps/details?id=kr.clpeak&hl=en_US&gl=US   https://gigglehd.com/gg/mobile/10922227 이 글을 보다보니 적절한 벤치가 하나 있어서 소개해드립니다.    clpeak은 오픈소스 OpenCL GPU 벤치 입니...
    Date2021.09.22 테스트 ByForGoTTen Reply11 Views2196 file
    Read More
  14. 아이폰13 시리즈 퍼포먼스 벤치마크 및 원신 테스트

    오늘 밤 아이폰 13 시리즈 엠바고가 풀리면서 벤치마크도 나왔습니다.   이번 아이폰은 최초로 프로 모델을 위한 GPU 성능 차별을 주면서 그래프가 좀 복잡해졌습니다. 그래서 몇 가지 모아서 정리해봤습니다.     긱벤치5 싱글/멀티코어 ...
    Date2021.09.22 소식 By1N9 Reply4 Views2941 file
    Read More
  15. 루머) 애플은 아이폰에 풀스크린 Touch ID를 원함

        많은 사용자들이 코로나 팬데믹 이후로 아이폰에 Touch ID 부활을 원했지만 애플은 현재까지 Face ID만을 고집하고 있습니다.   루머에 따르면 애플은 화면 전체에서 인식 가능한, 즉 폰을 켜려고 아무데나 누르는 순간 잠금 해제되...
    Date2021.09.22 소식 By1N9 Reply11 Views1477 file
    Read More
목록
Board Pagination Prev 1 ... 362 363 364 365 366 367 368 369 370 371 ... 1276 Next
/ 1276

AMD
한미마이크로닉스
더함
MSI 코리아

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소