Skip to content

기글하드웨어기글하드웨어

커뮤니티 게시판 : 아주 기본적인 네티켓만 지킨다면 자유롭게 쓸 수 있는 커뮤니티 게시판입니다. 포럼에서 다루는 주제는 각각의 포럼 게시판을 우선 이용해 주시고, 민감한 소재는 비공개 게시판이나 수상한 게시판에, 홍보는 홍보/외부 사용기 게시판에 써 주세요. 질문은 포럼 게시판의 질문/토론 카테고리를 사용해 주세요.

잡담
2022.05.31 01:21

GPU FLOPS ...

profile
조회 수 1083 댓글 5

FLOPS(FLoat point OPeratio per sec)는 약어 그대로 1초당 몇 번의 부동소수점 계산을 할 수 있느냐 입니다. 

 

실제 성능은 ALU의 구조와 기타 다른 요소에 따라서 결정되지만, GPU에서의 성능은 심플하게 "ALU수 x GPU_클럭 x 2"로 결정됩니다.  (x2를 하는 이유는 내부 연산기 ALU 구조가 1번은 더하고, 1번은 곱하는 연산을 동시에 지원하는것이 일반적이기 때문)

 

대부분의 기준은 FP32, 즉 32비트 (Single) Float Point이며, 이 성능이 이론상 낼 수 있는 최대 성능 (Rpeak)입니다. S/W적으로 의미있는 연산을 하게 된다면 캐쉬나 메모리의 영향으로 달성하는 것이 거의 불가능한....수치.

 

번외로 16비트 half precision에서는 FP32 ALU에 2개 입력을 넣어서 x2 성능이 되거나, 64비트 double precision에서는 Nvidia의 테슬라나 AMD의 CDNA아키텍처가 아니면 64비트 연산을 지원 안 하거나 엄청 낮은 성능으로 지원하는 경우가 있습니다. 

 

 

GPU의 FLOPS를 OpenCL기반의 앱에서 간단히 측정할 수 있는데...

 

https://play.google.com/store/apps/details?id=kr.clpeak&hl=ko&gl=US -> 안드로이드 

https://github.com/krrishnarraj/clpeak -> 리눅스 (빌드법 참조)

 

 

image.png

폴드2 스냅드래곤 865+의 Adreno650은 아마 추정컨데...

 

768 ALU x 670Mhz x 2 해서 1.029 TFLOPS정도 나와야 하는데, 실질적으로 클럭이 조금 떨어지거나 해서 이론치에 거의 근접한 값이 나왔습니다. ALU에서 16비트 half를 지원해서 거의 2배의 성능....

 

 

image.png

 

많이들 쓰시는 Nvidia의 GTX/RTX GPU입니다. 개인용이기에.... 매우 빈약한 Double (64비트)을 보여줍니다. 

GTX1080은 2560 ALU x 1733 Mhz x 2 해서 8.872 TFLOPS가 나와야 하나, 1733은 레퍼 기준 클럭에 부스트가 더 올라서 9.5T 정도 결과. Nvidia가 OpenCL에서 half를 지원하지 않아서 결과가 없는데, pascal이후 모델은 FP32의 두 배 성능이 나온다고 보시면 됩니다. (꼬우면 OpenCL말고 CUDA쓰라는....)
 
 
image.png

 

이번에는 하이엔드 카드 입니다. RTX 3090. Ampere에서 쿠다코어 수의 증가로 FP32성능은 엄청나지만, 역시 OpenCL에서는 half를 지원 안 하고, double성능도 빈약합니다. 
레퍼기준 10496 ALU x 1695 MHz x 2 = 35.581 TFLOPS
 
 
image.png

 

이제 본격적인 연산용 카드입니다. Nvidia의 Tesla V100, 역시 OpenCL에서 Half는 지원 안 하지만, 무려 FP32의 절반에 해당하는 FP64(double)성능을 보여줍니다. Volta에는 FP32쿠다코어의 절반만큼 FP64쿠다코어가 들어있기에 가능한 일이죠. 
5120 ALU x 1380 Mhz x 2 = 14.131TFLOPS
 
image.png

 

AMD의 1세대 CNDA인 MI100입니다. AMD답게 16비트 half를 OpenCL에서 지원해주며, V100과 동일하게 FP32의 절반에 해당하는 FP64(double)성능을 보여줍니다. 
7680 ALU x 1502 Mhz x 2 = 23.07TFLOPS
 
이는 물론 이론상의 ALU성능이고, 코드 구성에 따라서 저 성능을 달성하기 위해서는 많은 최적화가 필요합니다. 
 
image.png

 

요즘은 Tensor Core, 심지어 Ampere 부터는 Sparse Tensor-Core (최대 절반의 입력이 0으로 비어있다고 가정) 같은게 나와서 딥러닝, 그 중에서 특히 행렬곱 연산은, 몇 배 씩 FLOPS를 뻥튀기 하는 경우가 있습니다. 다만 이 경우 많은수가 FLOPS라고 하지 않고 OPS라고 표기하는데, 고전적인 FP32가 아닌, FP16기준이거나 TF32, bfloat16같은 IEEE표준 부동소수점이 아닌 딥러닝에서 주로 쓰는 데이터 형식만 지원하는 경우가 일반적입니다. 
 
 
P.S 이 글은 절대 GPU커널을 최적화 하다가, 일 하기 싫은 개발자가 쓴 글이 아닙니다. 
 
P.S 심심하시면(?) 각자 폰의 성능을 측정해서 데스크톱 or 서버용 GPU와 얼마나 차이가 나는지 알 수 있습니다. 전전세대 SD865+ 기준 1/35인데, 8 gen1은 어떠려나요.... 


  • profile
    슬렌네터      Human is just the biological boot loader for A.I. 2022.05.31 05:27
    그니까 GPU 커널 최적화 하실수 있는 능력자시군요!
  • profile
    title: AMD라데온HD6950      봇치 더 락! 2기 기원 2022.05.31 07:54
    방구차 시동겁니다
  • ?
    Lorenz 2022.05.31 09:20
    제 콤퓨타는 이렇군요

    Platform: NVIDIA CUDA
    Device: NVIDIA A100-SXM4-40GB
    Driver version : 470.82.01 (Linux x64)
    Compute units : 108
    Clock frequency : 1410 MHz

    Global memory bandwidth (GBPS)
    float : 1297.78
    float2 : 1377.07
    float4 : 1419.73
    float8 : 1443.28
    float16 : 1465.28

    Single-precision compute (GFLOPS)
    float : 19307.03
    float2 : 19337.67
    float4 : 19317.48
    float8 : 19234.86
    float16 : 19061.39

    No half precision support! Skipped

    Double-precision compute (GFLOPS)
    double : 9686.71
    double2 : 9672.43
    double4 : 9651.72
    double8 : 9606.25
    double16 : 9521.96

    Integer compute (GIOPS)
    int : 19221.10
    int2 : 19284.39
    int4 : 19218.66
    int8 : 19302.69
    int16 : 19292.41

    Integer compute Fast 24bit (GIOPS)
    int : 19234.81
    int2 : 19240.34
    int4 : 19225.03
    int8 : 19181.68
    int16 : 19000.75

    Transfer bandwidth (GBPS)
    enqueueWriteBuffer : 11.86
    enqueueReadBuffer : 9.15
    enqueueWriteBuffer non-blocking : 12.00
    enqueueReadBuffer non-blocking : 8.91
    enqueueMapBuffer(for read) : 18.10
    memcpy from mapped ptr : 15.74
    enqueueUnmap(after write) : 25.04
    memcpy to mapped ptr : 16.16

    Kernel launch latency : 12.09 us
  • profile
    title: 월급루팡벨드록 2022.05.31 17:07
    왜땜시 아이폰은 없나요. ;ㅁ;
  • profile
    title: 오타쿠360ghz      13900K+3080TI FE / M1 air / 12 mini 2022.05.31 17:44
    openGL/CL을 제거한다고 으름장 놓은 곳이라...

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
65503 잡담 방정리 3 file title: 저사양아라 2022.07.16 214
65502 잡담 진짜 남아있던 일말의 기대감도 없어지네요 16 file title: 흑우슈베아츠 2022.07.16 655
65501 장터 [판매완료] SK하이닉스 P31 1TB NVMe SSD 판매합... Mr.10% 2022.07.16 323
65500 잡담 아이오닉6가 가장 이상해보이는건 이쪽같아요 7 file title: 흑우슈베아츠 2022.07.16 490
65499 잡담 동네 칰힌집 8 file 하뉴 2022.07.16 328
65498 잡담 주말은 왜 이렇게 귀찮을까요 1 file title: 흑우슈베아츠 2022.07.16 185
65497 잡담 스스로의 게으름을 탓하는 중 입니다. 1 title: 오타쿠360ghz 2022.07.15 245
65496 잡담 아즈라 이어팁 새로나온거 샀는데 괜찮네요 5 file title: 흑우슈베아츠 2022.07.15 517
65495 잡담 천리마뾰이가 머리속에서 나가지 않아요. 2 뚜찌`zXie 2022.07.15 421
65494 잡담 삼성 이벤트에 당첨되었네요 3 file title: 공돌이(삭제예정)공탱이 2022.07.15 485
65493 핫딜 (종료)요즘 11마존에서 HDD를 엄청 푸는 것 같네요. 14 file 동방의빛 2022.07.15 766
65492 잡담 밴엔제리스 아이스크림이 맛있긴 하네요. 4 file title: 야행성가네샤 2022.07.15 290
65491 잡담 간단한 지름? 2 file title: 컴맹Kanyy 2022.07.15 191
65490 퍼온글 의외로 실존하는 만화 이누야샤의 아이탬 10 file title: 월급루팡유니 2022.07.15 709
65489 잡담 와 eSIM! 2 file title: 월급루팡카토메구미 2022.07.15 531
65488 잡담 와 케갈 하면서 오늘만큼 험난한 케갈은 처음인 ... 6 file title: 오타쿠360ghz 2022.07.15 446
65487 잡담 정보에 늦는 사람 (feat. OpenOffice) 26 leesoo 2022.07.15 576
65486 잡담 금요일 밤을 불태울 신스웨이브 라이브가 왔어요!! 2 leesoo 2022.07.15 204
65485 잡담 콩 심은데 호갱이 나요 14 file title: 폭8책읽는달팽 2022.07.15 636
65484 잡담 사이드 미러를 디지털로 만든 건 좋은데... 15 file title: 오타쿠까메라GT 2022.07.15 969
65483 잡담 정속형 에어컨 전기요금을 계산해봅시다. 9 file 윈즈 2022.07.15 1111
65482 잡담 Nothing Phone (1) 녹조 이슈가 있네요 14 file STATION 2022.07.15 676
65481 퍼온글 (홀로라이브) 애니플러스 콜라보 카페 근황 9 file title: 월급루팡유니 2022.07.15 3808
65480 잡담 1년만에 받은 odin lite 언박싱 및 간단한 사용기 6 file 멘탈소진 2022.07.15 543
65479 잡담 이거 자랑할 곳이 없어서 여기에 올려요ㅠㅠ 22 file 컴맹임 2022.07.15 612
65478 잡담 제발출시해주세요제발출시해주세요제발출시해주세... 30 file title: 흑우슈베아츠 2022.07.15 772
65477 잡담 요즘도 컴터 본체 LED 요란하게 하는거 유행인가유? 20 김해김씨 2022.07.15 594
65476 잡담 마녀2 감상후기 19 배신앙앙 2022.07.15 566
65475 퍼온글 최근 가장 충격적인 개물림 사고 28 title: 폭8야메떼 2022.07.15 943
65474 잡담 찰옥수수가 그렇게 나쁩니까? (옥션) 17 file 배신앙앙 2022.07.15 653
목록
Board Pagination Prev 1 ... 197 198 199 200 201 202 203 204 205 206 ... 2385 Next
/ 2385

최근 코멘트 30개
BEE3E3
22:51
책읽는달팽
22:51
니아옹이
22:50
책읽는달팽
22:50
milsa
22:50
하아암
22:49
책읽는달팽
22:48
니아옹이
22:46
낄낄
22:46
고토_히토리
22:45
TrustNoOne
22:41
cowper
22:41
단또
22:41
니아옹이
22:40
린네
22:39
책읽는달팽
22:39
책읽는달팽
22:38
고토_히토리
22:34
recluse
22:32
연금술사
22:32
PLAYER001
22:30
acropora
22:28
고토_히토리
22:26
고토_히토리
22:25
디렉터즈컷
22:21
유니
22:15
아이들링
22:06
AbsolJu
21:54
쿤달리니
21:54
린르와르
21:53

더함 Ultra High Speed HDMI v2.1 케이블 (3m)
MSI 코리아
AMD

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소