커뮤니티 게시판 : 아주 기본적인 네티켓만 지킨다면 자유롭게 쓸 수 있는 커뮤니티 게시판입니다. 포럼에서 다루는 주제는 각각의 포럼 게시판을 우선 이용해 주시고, 민감한 소재는 비공개 게시판이나 수상한 게시판에, 홍보는 홍보/외부 사용기 게시판에 써 주세요. 질문은 포럼 게시판의 질문/토론 카테고리를 사용해 주세요.

잡담

2022.05.31 01:21

GPU FLOPS ...

ForGoTTen https://gigglehd.com/gg/12346432

결제중....

조회 수 2356 댓글 5

FLOPS(FLoat point Operation Per Sec)는 약어 그대로 1초당 몇 번의 부동소수점 계산을 할 수 있느냐 입니다.

실제 성능은 ALU의 구조와 기타 다른 요소에 따라서 결정되지만, GPU에서의 성능은 심플하게 "ALU수 x GPU_클럭 x 2"로 결정됩니다. (x2를 하는 이유는 내부 연산기 ALU 구조가 1번은 더하고, 1번은 곱하는 연산을 동시에 지원하는것이 일반적이기 때문)

대부분의 기준은 FP32, 즉 32비트 (Single) Float Point이며, 이 성능이 이론상 낼 수 있는 최대 성능 (Rpeak)입니다. S/W적으로 의미있는 연산을 하게 된다면 캐쉬나 메모리의 영향으로 달성하는 것이 거의 불가능한....수치.

번외로 16비트 half precision에서는 FP32 ALU에 2개 입력을 넣어서 x2 성능이 되거나, 64비트 double precision에서는 Nvidia의 테슬라나 AMD의 CDNA아키텍처가 아니면 64비트 연산을 지원 안 하거나 엄청 낮은 성능으로 지원하는 경우가 있습니다.

GPU의 FLOPS를 OpenCL기반의 앱에서 간단히 측정할 수 있는데...

https://play.google.com/store/apps/details?id=kr.clpeak&hl=ko&gl=US -> 안드로이드

https://github.com/krrishnarraj/clpeak -> 리눅스 (빌드법 참조)

폴드2 스냅드래곤 865+의 Adreno650은 아마 추정컨데...

768 ALU x 670Mhz x 2 해서 1.029 TFLOPS정도 나와야 하는데, 실질적으로 클럭이 조금 떨어지거나 해서 이론치에 거의 근접한 값이 나왔습니다. ALU에서 16비트 half를 지원해서 거의 2배의 성능....

많이들 쓰시는 Nvidia의 GTX/RTX GPU입니다. 개인용이기에.... 매우 빈약한 Double (64비트)을 보여줍니다.

GTX1080은 2560 ALU x 1733 Mhz x 2 해서 8.872 TFLOPS가 나와야 하나, 1733은 레퍼 기준 클럭에 부스트가 더 올라서 9.5T 정도 결과. Nvidia가 OpenCL에서 half를 지원하지 않아서 결과가 없는데, pascal이후 모델은 FP32의 두 배 성능이 나온다고 보시면 됩니다. (꼬우면 OpenCL말고 CUDA쓰라는....)

이번에는 하이엔드 카드 입니다. RTX 3090. Ampere에서 쿠다코어 수의 증가로 FP32성능은 엄청나지만, 역시 OpenCL에서는 half를 지원 안 하고, double성능도 빈약합니다.

레퍼기준 10496 ALU x 1695 MHz x 2 = 35.581 TFLOPS

이제 본격적인 연산용 카드입니다. Nvidia의 Tesla V100, 역시 OpenCL에서 Half는 지원 안 하지만, 무려 FP32의 절반에 해당하는 FP64(double)성능을 보여줍니다. Volta에는 FP32쿠다코어의 절반만큼 FP64쿠다코어가 들어있기에 가능한 일이죠.

5120 ALU x 1380 Mhz x 2 = 14.131TFLOPS

AMD의 1세대 CNDA인 MI100입니다. AMD답게 16비트 half를 OpenCL에서 지원해주며, V100과 동일하게 FP32의 절반에 해당하는 FP64(double)성능을 보여줍니다.

7680 ALU x 1502 Mhz x 2 = 23.07TFLOPS

이는 물론 이론상의 ALU성능이고, 코드 구성에 따라서 저 성능을 달성하기 위해서는 많은 최적화가 필요합니다.

요즘은 Tensor Core, 심지어 Ampere 부터는 Sparse Tensor-Core (최대 절반의 입력이 0으로 비어있다고 가정) 같은게 나와서 딥러닝, 그 중에서 특히 행렬곱 연산은, 몇 배 씩 FLOPS를 뻥튀기 하는 경우가 있습니다. 다만 이 경우 많은수가 FLOPS라고 하지 않고 OPS라고 표기하는데, 고전적인 FP32가 아닌, FP16기준이거나 TF32, bfloat16같은 IEEE표준 부동소수점이 아닌 딥러닝에서 주로 쓰는 데이터 형식만 지원하는 경우가 일반적입니다.

P.S 이 글은 절대 GPU커널을 최적화 하다가, 일 하기 싫은 개발자가 쓴 글이 아닙니다.

P.S 심심하시면(?) 각자 폰의 성능을 측정해서 데스크톱 or 서버용 GPU와 얼마나 차이가 나는지 알 수 있습니다. 전전세대 SD865+ 기준 1/35인데, 8 gen1은 어떠려나요....

삭제 요청

목록 스크랩

위로 아래로 댓글로 가기

Comments '5'

슬렌네터 Human is just the biological boot loader for A.I. 2022.05.31 05:27

그니까 GPU 커널 최적화 하실수 있는 능력자시군요!
?
라데온HD6950 봇치 더 락! 2기 기원 / 2700X + 6700 XT Owner 2022.05.31 07:54

방구차 시동겁니다
?
Lorenz 2022.05.31 09:20

제 콤퓨타는 이렇군요

Platform: NVIDIA CUDA
Device: NVIDIA A100-SXM4-40GB
Driver version : 470.82.01 (Linux x64)
Compute units : 108
Clock frequency : 1410 MHz

Global memory bandwidth (GBPS)
float : 1297.78
float2 : 1377.07
float4 : 1419.73
float8 : 1443.28
float16 : 1465.28

Single-precision compute (GFLOPS)
float : 19307.03
float2 : 19337.67
float4 : 19317.48
float8 : 19234.86
float16 : 19061.39

No half precision support! Skipped

Double-precision compute (GFLOPS)
double : 9686.71
double2 : 9672.43
double4 : 9651.72
double8 : 9606.25
double16 : 9521.96

Integer compute (GIOPS)
int : 19221.10
int2 : 19284.39
int4 : 19218.66
int8 : 19302.69
int16 : 19292.41

Integer compute Fast 24bit (GIOPS)
int : 19234.81
int2 : 19240.34
int4 : 19225.03
int8 : 19181.68
int16 : 19000.75

Transfer bandwidth (GBPS)
enqueueWriteBuffer : 11.86
enqueueReadBuffer : 9.15
enqueueWriteBuffer non-blocking : 12.00
enqueueReadBuffer non-blocking : 8.91
enqueueMapBuffer(for read) : 18.10
memcpy from mapped ptr : 15.74
enqueueUnmap(after write) : 25.04
memcpy to mapped ptr : 16.16

Kernel launch latency : 12.09 us
벨드록 2022.05.31 17:07

왜땜시 아이폰은 없나요. ;ㅁ;
360ghz case kill mark: BQ SB 802 white, CM H500m qube 500 FP, 3r L600/700/900/... 2022.05.31 17:44

openGL/CL을 제거한다고 으름장 놓은 곳이라...

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

List of Articles
번호	분류	제목	글쓴이	날짜	조회 수
공지	이벤트	[23일] 마이크로닉스 MA-600T 쿨러를 드립니다 14	낄낄	2024.04.17	718
77620	잡담	팔려던 노트북 어답터가 사망했네요.. 2	난젊어요	2017.08.22	347
77619	잡담	팔도의 뇌절 도시락 실물 28	유니	2023.06.02	57010
77618	잡담	팔도 양념장이 팔리고 있네요. 8	호무라	2018.02.17	605
77617	잡담	팔도 비빔떡볶이 후기 3	까메라GT	2022.02.13	741
77616	잡담	팔도 만능비빔장 이거 정말 나왔군요? 7	급식단	2018.01.30	695
77615	잡담	팔긴 팔아야되는데... 8	슈베아츠	2023.01.05	367
77614	잡담	팔기는 애매하고 주자니 스트레스 받는 계륵 33	타미타키	2022.12.11	887
77613	장터	팔고 사는 등산로 1	3등항해사	2018.07.17	394
77612	잡담	팔것 꽤많네요... 하핫.. 16	노코나	2016.12.13	481
77611	잡담	팔거 투성이네요 9	슈베아츠	2022.09.25	464
77610	잡담	팔거 리스트를 고르고 있습니다 51	슈베아츠	2022.09.21	589
77609	잡담	팔 시기를 놓침 20	고자되기	2024.01.23	852
77608	장터	팔 생각정도는 있는 등산로 4	쿤달리니	2019.06.21	815
77607	잡담	판형콤퓨터 샤오신 패드 P11 왔습니다 15	포인	2021.09.03	953
77606	퍼온글	판타지에서 현실성 따지면 지는 거임.jpg 21	AKG-3	2023.04.11	1410
77605	잡담	판타지 세상에 떨어졌을때 무슨 지식을 덤으로 갖... 30	책읽는달팽	2021.10.12	647
77604	퍼온글	판타지 세계관에서 홀로 인간 일때 23	타미타키	2023.01.06	637
77603	잡담	판촉 사은품 구입하려는데 고민이 되네요. 8	파이어프로	2020.01.20	224
77602	잡담	판이 생각보다 너무 커졌습니다 26	이카무스메	2019.10.11	2112
77601	장터	판완등산로 1	스파르타	2021.04.06	490
77600	장터	판완- GTX 780 두 대 가격 낮춰서 판매합니다.	마초코	2024.04.10	426
77599	장터	판완)MSI MAG 코어리퀴드 240R 3	M16	2022.11.28	275
77598	장터	판완) 아이패드 프로 12.9 3세대 256GB 등산로 (... 2	나르번	2023.09.17	2708
77597	장터	판완) 녹이 생긴 수월우 카토 판매합니다 3	고토_히토리	2023.11.02	754
77596	장터	판완 2	M16	2022.11.13	511
77595	장터	판완 8	ChrisR	2018.12.22	316
77594	장터	판완 1	M16	2024.01.28	549
77593	장터	판완 3	veritas	2021.03.04	500
77592	장터	판완 9	M16	2022.11.14	641
77591	장터	판완 6	M16	2023.07.05	789

2016년 7월 이전글 링크: 커뮤니티 게시판 / 공지사항 게시판

로그인

GPU FLOPS ...

나눔글꼴 설치 안내

이 PC에는 나눔글꼴이 설치되어 있지 않습니다.