Skip to content

기글하드웨어기글하드웨어

모바일 / 스마트 : 스마트폰과 태블릿, 노트북과 각종 모바일 디바이스에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다. 2016년 7월 이전의 글은 다음 링크를 참조하세요. 구 모바일 뉴스 / 구 모바일 포럼 / 구 뉴스 리포트 / 구 특집과 정보 / 구 스페셜 게시판 바로가기

profile
조회 수 772 댓글 11
Extra Form
참고/링크 https://github.com/krrishnarraj/clpeak

https://play.google.com/store/apps/details?id=kr.clpeak&hl=en_US&gl=US

 

https://gigglehd.com/gg/mobile/10922227 이 글을 보다보니 적절한 벤치가 하나 있어서 소개해드립니다. 

 

clpeak은 오픈소스 OpenCL GPU 벤치 입니다. OpenCL은 NVIDIA의 CUDA와 함께 시장을 양분하는 GPGPU라이브러리로, GPU를 사용한 연산(AI등)이나 수치 해석같은 부분은 모두 OpenCL(또는 CUDA)를 사용하고 있습니다. 

 

GPU의 이론적 (float32 - single precision의 경우) FLOPS(float operation per sec)계산을 할 때, "GPU클럭 * ALU(연산유닛)수 * 2 " 를 하는데, 말 그대로 GPU내의 연산유닛 하나당 1 클럭에 1번의 덧셈과 곱셈을 진행할 수 있기 때문입니다. 

 

clpeak은 이 정의 그대로 MAD (Multiply-ADd 또는 MAC, FMA >> Y = aX + b)연산을 통해서 GPU에서 GPGPU연산이 얼마나 이론치에 근접하는지 보여줍니다.

(https://github.com/krrishnarraj/clpeak/blob/0777205be1d5681d5a76d46ec94588544e8462a5/src/kernels/compute_sp_kernels.cl#L21)

 

물론 모든 벤치가 그렇듯 정확하지는 않은데... 

 

Nvidia Tesla V100의 경우 이론치는 아래와 같지만 

image.png

 

실 벤치로 측정되는 성능은 이론치를 약간 넘습니다. 

image.png

 

 

개인 테스트 서버의 GTX1060도 

 

이론치 보다 

image.png

 

실측이 좀 더 잘 나오는 편 입니다. (이유는 불명....;;)

image.png

 

 

 

또한 안드로이드 버전도 지원하기에... 이를 통해 모바일 GPU와 PC/서버급 GPU의 실성능은 대충 비교해 볼 수 있는데... 

 

image.png

 

 

 

아무래도 모바일 AP의 특성상 호스트(CPU) 메모리를 공유하는 환경이, 별도의 GDDR을 사용하는 일반 그래픽 카드 대비 대역폭에서 열세인 부분은 어쩔 수 없어보입니다. 이 부분이 이론치 대비 실측치가 떨어지는 가장 큰 원인이지만,  그래도 LPDDR4x니 LPDDR5같은 차세대 램을 먼저 적용하는 모바일 특성상 점점 그 갭을 매꿀 수 있겠지요. 

 

제가 올해 모델 (E2100, SD888)을 측정해보지는 않았지만 1TFLOPS는 무난해 보이니 장족의 발전을 한 것이 아닌가 합니다. 1969년 (아폴로 11호 발사년도) 가장 빨랐던 슈퍼컴퓨터인 CDC6600이 3MFLOPS 성능이니....반 백년 기술발전의 결정체인 스마트폰은 그 당시 슈퍼컴 보다 최소 34만배 빠른 손에 들고 다닐 수 있는 컴퓨터가 되었습니다. ㄷㄷㄷ

 

 

 

p.s floatN 에서 N은 vector instruction이라서 AVX 같은 SIMD와 동일합니다.(한 번에 n개 입력을 처리) 아무래도 I/O상 이점이 있지만, 코드를 짜 보면 실활용에서 넓은 SIMD폭을 충분히 활용하기는 힘든 편이더군요. 

 

p.s AI, 그 중 현재 DNN(Deep Neural Network)에서 가장 모바일에 많이 사용되는 CNN(Convolutional Neural Network)의 경우 Convolution연산이 MAD로 치환 가능하기에 코드를 잘 짜면 거의 이론상 최대 성능에 근접합니다. 

 

p.s 현재 안드로이드의 경우 DNN모델을 적용하는 가장 쉬운 방법은 구글의 TensorFlow 모델을 TFLite형태로 변환해서 코드에 활용할 수 있습니다. 이 경우 런타임을 CPU/GPU선택 가능하며 GPU(또는 NPU)의 경우 구글이 제공하는 통일된 인터페이스인 NNAPI와 각각의 AP제조사(퀄컴 등)이 제공하는 커스텀 런타임이 있고, 대부분의 경우 커스텀 런타임쪽 성능이 더 높습니다. (스냅드래곤의 hexagon, Hisilicon의 DaVinci 등...)

 

p.s 여러 AP제조사에서 NPU(Neural Processing Unit)이라는 이름으로 DNN연산기를 제공하고 있습니다. 대부분 서드파티 개발자에게는 TFLite로 작성된 DNN모델을 AP제조사가 제공하는 라이브러리에 넣으면 자체 런타임에서 각 연산을 분석하여 NPU에서 동작 가능한것은 NPU에서, 그렇지 않은 연산(layer)은 GPU에서 동작하여 최종 결과물을 출력합니다. NPU의 경우 ASIC과 같이 사전에 gate로 정의된 연산만 가능하기에 거의 필연적이지요. 

 

p.s NPU제조사들이 십수 TOPS라고 광고하는 NPU들이 FLOPS단위가 아닌것은 ASIC의 특성상 gate의 갯수가 실리콘 면적에 직결되고, 면적 == 단가인 상황에서 이미 float연산이 가능한 GPU가 있기에.... NPU에서는 float32가 아닌 int8 또는 bfloat16같은 상대적으로 낮은 정밀도의 연산만을 지원합니다. 그렇기에 FLOPS라고 광고하지 않고 TOPS라고 하는것.... 

 

p.s 그렇기에 필연적으로 float32로 학습된 모델을 더 낮은 정밀도로 바꾸어주는 'Quantization'이 강제됩니다. 이 분야도 꽤나 핫했는데.... 학습 후 Quantization은 모델에 따라서 편차가 커서 현재는 학습 시점에 혼합 정밀도를 사용해서 학습하는 방법에 대한 논문이 나오고 있습니다. (모바일용이 아닌 대책없이 커지는 모델의 크기를 VRAM이 감당할 수 없어서의 차선책에 가깝습니다.)

 

p.s 앞선 모든 방법은 AI모델을 활용하는 방법 (forward 방향)에 대한 설명입니다. 제가 아는 선에서는 현재 모바일에서 GPU나 NPU를 활용하여 서비스 타임에 추가적인 학습을 진행하는 방법은 사용하지 않습니다. 이는 당연하다면 당연한 것이, 학습 == backward (backpropagation) 시에는 역방향의 그레디언트 (편미분값)을 활용하여 학습을 진행하게 되는데.... forward시 몇 배에 달하는 연산량과 backward시 NPU를 활용할 수 없기 때문입니다. (NPU는 낮은정밀도 + forward만 지원)


TAG •

  • ?
    NPU 2021.09.22 08:39
    잘 읽었습니다.
    디멘시티나 엑시노스 NPU는 정수연산에 거의 몰빵한 반면
    A칩 NPU는 정수연산은 안되고 F16, F32연산에 몰빵한 것 같더군요 ㅎㅎ
  • profile
    title: 공돌이ForGoTTen      결재중.... 2021.09.22 11:11
    iOS쪽은 제가 직접 코딩을 해보지는 않았지만, 문서상 보면 float16으로 처리하는 것 같더군요.

    이쪽의 리더격인 NVIDIA(그리고 인수되서 그런가 ARM은) bfloat16같은 낮은 비트수에도 정밀도를 올린 자료형을 지원하는게 유행(?) 입니다.
  • ?
    NPU 2021.09.22 14:05
    오엥 fp16이나 fp32모델 둘다 속도가 같길래 그런줄 알았는데
    제가 CPU에서 돌아간걸 착각했나 보네요 ㅋㅋ
  • profile
    title: 헤으응360ghz      긱바배앤! 사과 싫어하는데 사과농장주에요 ::: 5800X + RTX3080TI   2021.09.22 12:52
    IOS에서는 FP16 사용을 무조건적으로 권장하고 있어서, FP32도 16으로 변환해야 오류가 안뜹니다...ㅠ
    16 기반으로 혼합정밀도 사용하는 여러 연산이 있는데, 대충 다 뛰어넘고, 16모델 기준으로 제출할 때 어지간해서 안뜨는 오류들이 32로 연산해야한다면 뿜뿜...
  • ?
    NPU 2021.09.22 14:06
    ㅎㅎ 그렇군요
  • ?
    RuBisCO 2021.09.22 09:39
    이론치보다 더 잘나오는 이유는 이론치가 베이스 클럭 기준인데 실측치는 부스트 클럭으로 나와서 그럴겁니다.
  • profile
    title: 공돌이ForGoTTen      결재중.... 2021.09.22 10:27
    아...그런 당연한것을 깜빡햤군요...;;
  • profile
    류오동      컴알못입니다. 2021.09.22 14:27
    어어어어....'표기 부스트'랑 '실 부스트'를 잘못 쓰신 거겠죠? ㄷㄷ....
  • ?
    RuBisCO 2021.09.22 19:27
    아아 실수했군요
  • ?
    steve 2021.09.22 15:27
    스냅 888로 돌려봤습니다
    Global memory bandwidth (GBPS)
    float : 34.10
    float2 : 35.72
    float4 : 36.91
    float8 : 37.73
    float16 : 36.34

    Single-precision compute (GFLOPS)
    float : 1027.14
    float2 : 1149.45
    float4 : 1057.69
    float8 : 1211.81
    float16 : 1221.64
  • profile
    title: 공돌이ForGoTTen      결재중.... 2021.09.22 15:47
    이론치가 1.6T정도 되니까... 75%정도군요.

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. OpenCL성능벤치 (clpeak) 와 모바일 AI 주저리....

    https://play.google.com/store/apps/details?id=kr.clpeak&hl=en_US&gl=US   https://gigglehd.com/gg/mobile/10922227 이 글을 보다보니 적절한 벤치가 하나 있어서 소개해드립니다.    clpeak은 오픈소스 OpenCL GPU 벤치 입니...
    Date2021.09.22 테스트 Bytitle: 공돌이ForGoTTen Reply11 Views772 file
    Read More
  2. 아이폰13 시리즈 퍼포먼스 벤치마크 및 원신 테스트

    오늘 밤 아이폰 13 시리즈 엠바고가 풀리면서 벤치마크도 나왔습니다.   이번 아이폰은 최초로 프로 모델을 위한 GPU 성능 차별을 주면서 그래프가 좀 복잡해졌습니다. 그래서 몇 가지 모아서 정리해봤습니다.     긱벤치5 싱글/멀티코어 ...
    Date2021.09.22 소식 By1N9 Reply4 Views1513 file
    Read More
  3. 루머) 애플은 아이폰에 풀스크린 Touch ID를 원함

        많은 사용자들이 코로나 팬데믹 이후로 아이폰에 Touch ID 부활을 원했지만 애플은 현재까지 Face ID만을 고집하고 있습니다.   루머에 따르면 애플은 화면 전체에서 인식 가능한, 즉 폰을 켜려고 아무데나 누르는 순간 잠금 해제되...
    Date2021.09.22 소식 By1N9 Reply11 Views1382 file
    Read More
  4. theverge 아이폰13/13프로 리뷰

      아이폰 13 : 9.0점   장점 - 훌륭한 카메라들 - 훨씬 나아진 배터리 - 작년의 장점 전부 포함 - 기본 용량 증가   단점 - 전면 카메라 센서가 그대로 - 60Hz 일반 주사율 - 아이폰12 케이스 비호환     아이폰 13 프로 : 9.0점   장점 ...
    Date2021.09.21 소식 By1N9 Reply3 Views1031 file
    Read More
  5. 아이폰 14 프로, 노치를 펀치 홀로 대체?

    아이폰 14 프로와 아이폰 14 프로 맥스는 노치 대한 펀치 홀을 사용한다는 서문입니다. 둘 다 4800만 화소 광각 카메라를 탑재합니다.
    Date2021.09.21 소식 By낄낄 Reply6 Views973 file
    Read More
  6. 갤럭시 S22 시리즈와 아이폰 13의 크기 비교

    갤럭시 S22 시리즈와 아이폰 13의 크기 비교입니다. S22는 6.06인치의 디스플레이에 매우 얇은 베젤을 쓴다고 합니다. 이것만 놓고 보면 갤럭시 S10e 수준일거라고 하네요.
    Date2021.09.21 소식 By낄낄 Reply2 Views1004 file
    Read More
  7. No Image

    애플이 차세대 맥북 프로를 10월 중순에 발표?

    애플이 학생들을 대상으로 진행하는 개학 캠페인을 연장했습니다. 이 캠페인은 맥이나 아이패드를 살 경우 에어팟을 추가 증정하는 건데, 10월 11일까지 진행하네요. 작년에는 이런 프로모션 캠페인이 끝난 다음 날에 새 제품이 나왔습니...
    Date2021.09.21 소식 By낄낄 Reply0 Views441
    Read More
  8. No Image

    갤럭시 Z 폴드 3의 낙하 테스트

    갤럭시 Z 폴드 3의 낙하 테스트입니다. 결론부터 이야기하면 갤럭시 S21 울트라와 비슷한 수준입니다. 7000 시리즈 알루미늄보다 10% 강한 아머 실드 알루미늄을 사용하고, 초박형 유리와 PET 보호 필름을 추가해 내구성을 높였습니다.
    Date2021.09.21 소식 By낄낄 Reply2 Views608
    Read More
  9. 사과전화 5에스 와 특별모델 전문가를 찾아봅니다.

    손전화가 운명하시기 직전이라 액정만 파손된 se를 사왔습니다. 그래서 5s파트를 이식하려 하는데 화면을 이식하면서 생각해보니 전면 패널파트를 홈버튼만 빼고 바꿔도 되지 않을까라는 생각이 들어서요 전면카메라가 120메가 픽셀이었...
    Date2021.09.21 질문 By가지 Reply5 Views514 file
    Read More
  10. No Image

    폴드3가 S펜 활용성이 완벽하지 않은걸 보니...

      폴드3에서 S펜 사용할때 튀는 현상이 있다는데 삼성입장은 "종특"이라고 일축하는거 보면 얘네도 참 마케팅 못한다고 해야할지 잘한다고 해야할지 모르겠네용...   폴더블의 종특인건 그렇다 쳐도 200만원짜리 구매한 고객이 양해해준...
    Date2021.09.21 일반 Bytitle: 민트초코헤으응 Reply2 Views600
    Read More
  11. 패드미니에서 iOS 15 업뎃했는데 별로네요.

    iOS 15가 나왔다고 해서 업데이트 했는데요 홈화면에 위젯 들어가는 것도 크기 조절도 안되는 것 같고 원하는 위젯도 추가가 안되네요. 게다가 그거 넣으니까 아이콘 배열도 4개로 줄어들어서 보기 싫고 위젯 뺐더니 양 사이드 빈공간이 ...
    Date2021.09.21 일반 By아즈텍 Reply16 Views1903 file
    Read More
  12. No Image

    구글 픽셀 폴드, 10월에 출시?

    구글 픽셀 폴드가 픽셀 6 시리즈와 함께 10월에 출시된다는 소문입니다. 구글이 폴더블 스마트폰을 내놓는다는 소문은 있었죠. 삼성의 120hz LTPO AMOLED를 사용해서 말입니다. 그런데 내부 단속 참 못하는 구글이 픽셀 폴더블을 곧 내놓...
    Date2021.09.21 소식 By낄낄 Reply5 Views867
    Read More
  13. 원플러스, OxygenOS와 ColorOS의 통합

    원플러스는 OxygenOS와 ColorOS의 통합을 발표했습니다. 두 커스텀 버전을 하나로 합쳐 새로운 걸 만들어 내년에 출시할 계획입니다. 통합 작업은 옥시전OS 12와 컬러OS 12에서 이미 시작됐습니다. 통합OS는 2022년의 플래그쉽 모델부터 ...
    Date2021.09.21 소식 By낄낄 Reply4 Views912 file
    Read More
  14. 킨들 페이퍼화이트 5가 곧 출시될 예정

    킨들 페이퍼화이트 5가 곧 출시될 예정입니다. 6.8인치 전자 잉크 디스플레이, 17개의 LED 백라이트, 최대 32GB의 스토리지, 적응형 광량 조절, 무선 충전 등입니다.
    Date2021.09.21 소식 By낄낄 Reply3 Views580 file
    Read More
  15. 갤럭시 탭 A8 2021의 주요 스펙

    갤럭시 탭 A8 2021의 주요 스펙입니다. 스냅드래곤 프로세서(뭔지는 모름), 3/4GB 램, 128GB 스토리지, 마이크로 SD 슬롯, 1200p의 풀HD+ 해상도, tFT LCD, 10월에 갤럭시 S21 FE와 함께 출시.
    Date2021.09.21 소식 By낄낄 Reply4 Views1067 file
    Read More
목록
Board Pagination Prev 1 ... 11 12 13 14 15 16 17 18 19 20 ... 946 Next
/ 946

현아이디어
AMD
MSI 코리아

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소