커뮤니티 게시판 : 아주 기본적인 네티켓만 지킨다면 자유롭게 쓸 수 있는 커뮤니티 게시판입니다. 포럼에서 다루는 주제는 각각의 포럼 게시판을 우선 이용해 주시고, 민감한 소재는 비공개 게시판이나 수상한 게시판에, 홍보는 홍보/외부 사용기 게시판에 써 주세요. 질문은 포럼 게시판의 질문/토론 카테고리를 사용해 주세요.

잡담

2017.11.17 22:20

gpgpu로 보는 연산능력 향상의 미래

şandin https://gigglehd.com/gg/2013680

조회 수 1477 댓글 28

gpgpu 에 대해선 모두가 아시리라 생각되지만

간단히 말하면 10년 전부터 거의 답보 상태에 머무른 cpu 대신 gpu성능을 이용해 연산능력을 높이는 것입니다

(gpgpu 의 간단한 도식)

부각되기 시작한건 가상화폐가 등장하면서 부터 로 가상화폐붐이 일어난 최근 년도보다 최소 5-7년전에 나왔죠

이즘부터 nv모 업체가 딥러닝에 관심가진걸로 기억하지만 이런 이야기는 차지하고..

gpgpu는 한계에 달한 cpu에 gpu를 이용하자는 원리인데 여기서 몇 가지로 이용방법이 갈리게 되죠

amd 는 hsa란 이종 결합? 컴퓨팅으로 cpu+gpu 를 통합한 체계로 cpu 단에서 gpu를 통합하여 PCI 단에서의 병목이나 손실 자체를 없애는 방식으로

nvidia 는 nvlink라는 cpu간 연결을 고속화해 병목현상을 완화하는 것을 만들엇구요 해당기능은 볼타에도 있죠

(hsa 도식)

현황을 이정도로 축소하면 과연 gpgpu의 미래는 무엇인가 라는 것인데 일단 문제점을 하나 짚어보죠

—-------------------------------------------------------------------------------------------------------------------

CPU 쪽에서 GPU 쪽으로 연산할 데이터를 제대로 던져주는 것도 만만한 작업이 아니다. 위에서는 간단한 분기문만을 예시로 들었지만, 데이터 자체를 전달하는 것도 고려할 사항이 많다. GPU에 작은 데이터를 일일이 다 나누어서 던져 주면 GPU에서 아무리 빠르게 처리해 줘도 GPU로 데이터를 보내고 받는 동안 시간을 까먹기 때문에 CPU보다 더 느려지는 경우도 있다. ( CPU와 GPU는 서로 간에 PCI-E를 통해서 통신하는데, 이 대역폭이 VGA의 로컬 메모리 대역폭보다 아직까지는 부족하고 CPU에 물려있는 메인 메모리에 비해서도 넉넉하지 못하다. 대역폭 뿐만 아니라 물리적으로 멀리 떨어져 있는 녀석들이다 보니 레이턴시도 문제가 된다. 그래서 데이터가 PCI-E를 통해 왔다 갔다 하다 보면 여기서 성능을 다 까먹는다. ) 실제로 현재 GPGPU 프로그램 중에서는 CPU도 GPU도 아닌 PCI-E에 의해 성능 병목이 결정되는 경우도 많다. APU가 나온 이유도 이렇게 멀리 떼 놓고 왔다 갔다 할 거면 차라리 하나로 합치지 그래?라는 발상으로 나온 것이라고도 할 수 있다.

- 나무위키 중

이대목을 보고 "어?" 라고 생각되신 분이 계시다면 제가 앞으로 할 이야기도 아실겁니다..;

벡터를 이용하는 gpu는 애초에 cpu 처럼 따박따박 연산가능한 물건이 아니란 점이죠

—----------------------------------------------------------------------------------------

게다가 CPU는 처음부터 연산식과 데이터가 지멋대로 튀는 환경을 가정해서 설계했지만 GPU에게 이런 조건을 던져주면 제어부가 CPU에 비해 안습이기 때문에 정작 일을 해야 할 ALU 부 분이 놀고 있다. 대표적으로 GPU에서 돌아갈 코드에 if 문을 하나 사용할 때마다 가용 자원을 절반씩 깎아 먹는다고 봐도 된다. if 문은 코드의 흐름을 두 개로 갈라 놓는 역할을 하기 때문에 이런 건 CPU 쪽에서 가능한 한 처리해주는 게 좋다. 그렇지 않으면 if 문의 반대편 절반에 해당하는 데이터는 처리되지 못하고 대기하다가 앞쪽 절반에 해당하는 데이터가 다 처리된 뒤에야 비로소 계산을 재개한다. 물론 if 문의 한쪽에 데이터의 99%가 몰려 있다거나 데이터 양 자체가 충분히 많아서 절반쯤 나뉘어도 GPU의 자원을 전부 사용하는 경우에는 써도 성능에 큰 지장은 없다.

역시 나무위키

gpu의 이런 단점은 gpgpu의 계산 능력을 저해하는 요소로 작용합니다

이런문제를 다른방향에서 역시 같이 겪고 있는 분야가 있습니다 바로 ann 혹은 dnn .

신경망 컴퓨터가 그것이죠

애플에선 npu 인텔에선 dpu등으로 접근되는 신경망 컴퓨터는 사실 gpu의 저런 단점을 보완하면서도

다른 방향에서 작동하는 gpu의 이종? 혹은 친척관계즘이 현재의 모습입니다.

(애플 a11내의 npu)

현재의 amd 의 hsa , 애플의 npu , nvidia의 볼타 등이 gpgpu가 가장 잘 발전한 모습이 아닐까 합니다만

제개인의 생각으론 결국 이런 gpgpu의 발전형은 ann +gpu의 통하한 모습으로 가리라 생각됩니다.

위에 언급하듯 결국 같은 문제를 가지고 있고 아직은 걸음마 단계인 ann 혹응 dnn이 그해답을 안고 시작하는듯하니까요

아마 먼훗날엔 ann(gpu)가 결국 cpu를 삼킨형태가 최종형이 아닐까하고..

(nvidia에서 arm을 gpu에 삽입하려는게 아마 이런걸로 가려는 의도로 제나름 해석되네요)

삭제 요청

Prev 짹짹이 인기몰이 이어폰 근황

대구의 한 계란말이 2017.11.17by 호무라

목록 스크랩

위로 아래로 댓글로 가기

Comments '28'

ヌテラ未来 7460 2017.11.17 22:24

포럼의 분석/팁으로 가도 괜찮을거 같아요
https://gigglehd.com/gg/index.php?mid=hard&category=14007
?
şandin 2017.11.17 22:25

사견이 많아서 그정도글은 못되는거 같아 여기에 썼어요
?
포인트 팡팡! 2017.11.17 22:25

şandin님 축하합니다.
팡팡!에 당첨되어 10포인트를 보너스로 받으셨습니다.

수정 삭제
ヌテラ未来 7460 2017.11.17 22:59

https://gigglehd.com/gg/index.php?mid=hard&category=13778
그런경우를 위해 질문/토론항목이 있어요
?
şandin 2017.11.17 23:02

오 그렇군ㅇ요
?
quapronuet 2017.11.17 22:41

ann이라고 표현한 게 ann accelerator들을 통칭하는 건가요?
아무튼 npu건, 최근 쏟아져나오는 여러 dnn accelerator건, 말그대로 해당 목적만을 위한 accelerator일 뿐인데 gpgpu랑은 거리가 멀어도 한참 멀죠. 걔들을 대체 어떻게 봐서 general purpose라고 할 수 있겠어요.
?
şandin 2017.11.17 22:44

네 아직은 거리가 한참 멀어요 하지만 고도로 발전한 ann이 gpu의 목적을 대신할 수 있으리라 봐요 볼타는 pgu지만 저런 용도로서 주목받고 있구요
?
quapronuet 2017.11.17 22:57

볼타는 말그대로 gpgpu, general purpose니까 '저런 용도도' 할 수 있는 거죠. npu는 ann 관련 처리를 h/w적으로 하는거고, gpgpu는 s/w적으로 하는거니까요.
그게 accelerator 대비 gpgpu의 장점인거구요. 그만큼 전력 효율이나 면적 대비 성능에서 손해를 볼 수 밖에 없죠.

근데 ann accelerator가 gpu의 목적을 대신한다? 이 부분은 문장 자체가 말이 안되는거죠. ann accelerator가 그래픽 연산, 영상 처리 등을 한다는 건가요? 관련 처리 유닛 들어가고 그러면 그게 gpgpu지, 이미 ann accelerator가 아니잖아요.

아예 초월적인 수준으로, neural network 자체를 필요에 따라 재구성하고 general purpose로 사용할 수 있는 정도까지 가면 ann으로 gpu를 대신한다 라고 할 수 있을지는 모르겠지만 그 정도면 인간 뇌정도는 우습게 초월하는 수준이어야 하면서도 효율은 극악한 수준으로 떨어지겠죠. 솔직히 그런 수준을 지금 얘기하기엔 일러도 너무 이르기도 하구요.
?
şandin 2017.11.17 23:09

아뇨 그게 지금 신경망 컴퓨팅이 원시?단계고 각종 트릭으로 구동 시키는데 신경망 컴퓨터가 애초 병렬구조를 기본으로 하는데 이런 병렬 구조에서 신경망을 모사하는 단계에서 중앙제어 장치가 있으면 신경망 구조 재현에 더 효과적 인... 하는 그런 이야기가 아니라 현제 악셀레이터 정도로만 사용되는 점을 이야기하시는데 ann이 지금 그정도라고 나중에도 단지 가속기에만 국한 되리란건 동의 못하겠네요 그런데 십년전에도 nviddia가 ai를 위한 연구를 하겠다 했을때도 다들 비웃었죠
?
şandin 2017.11.17 23:11

npu만봐도 그게 단지 얼굴인식만 하냐면 아니거든요
?
şandin 2017.11.17 23:13

외려 신경망 컴퓨터는 gpuㅇ의 주목적이 용도가 아니라 무엇에도 사용될수있는 제로베이스 딥러닝 머신으로 범용성이 이상향ㅇㅇ이고 거기에 주목받는거죠 범용성이요 물론 당장은 안되지만
?
quapronuet 2017.11.17 23:32

통칭 neural processor를 범용적으로 쓸 수 있는 수준이 되면 그래픽 프로세싱 개념 자체가 바뀌어 있겠죠. 그쯤되면 gpu 운운하는거 자체가 별 의미가 없을거구요. 아니 그정도면 그냥 특이점이죠. 솔직히 그 레벨이면 인간 지능급 ai를 볼 수준이죠.

근데 그건 솔직히 너무 먼 얘기고, 십수년 정도로 얘기하자면 neural processor가 gpu를 대체하기 보다는 gpu 아키텍쳐가 보다 ann을 하드웨어적으로 처리하기에 적합하도록 더 보강되는 쪽이겠죠. 그게 현 볼타가 보이는 행보구요.
ann accelerator 자체가 어느 수준까지 갈지는 지금으로서는 예측하기도 힘들죠.

제가 accelerator 얘기하는건 얼굴인식 전용이다 뭐 그런 얘기를 하는게 아니라, ann 전용이라는 얘기를 하는겁니다. npu 같은게 할 수 있는건 오직 ann 관련 프로세싱일 뿐이고, 현재 ann을 통해서 구현할 수 있는건 이것저것 할 수 있겠지만 딱 거기까지라는 겁니다. gpgpu가 할 수 있는걸 모두 커버하기 위한 존재 자체가 아니라는 얘기에요.
?
şandin 2017.11.17 22:47

일단은 작동하는 기본이 같은 토대에서 시작하죠 gpu의 능려꽌ㄴ 최종결과가 다르지만 .. 마지막에 서술하듯 병렬컴퓨팅에 제어 모듈로 arm을 삽입된 gpu가 작동원리가 다를뿐 결국 하드웨어의 형태자체는 ann 이 가야할 방향과 비슷하리라 보거든요
프리지아 Facta, Non Verba 2017.11.17 23:14

NVidia Volta는 애초에 NN 전용으로 tensor core를 집어넣은 겁니다.
이 코어는 NN에서 자주 사용되는 D = AB + C 꼴의 행렬 연산 전용이고요.
즉 적어도 Volta에서는 말씀하신 것과 상황이 반대입니다. General Purpose GPU에 NN을 위한 추가설계를 한 거니까요.

그리고 NVidia가 수 년 전부터 Deep Learning에 투자하기 시작한 건 굉장히 중요한 의미를 가집니다.
최소한 앞으로 십수 년 동안 NVidia는 자기 먹거리를 NN으로 잡아서 확실하게 투자하는 중이고 다른 회사들은 그거 따라가는 상황밖에 안되고 있습니다.
?
şandin 2017.11.17 23:20

아무래도 nvidia가 가장 앞서고 있죠 자율주행자동차쪽에만 봐도
?
şandin 2017.11.17 23:30

인텔은 확실히 뒤쳐졋고 구글은 뭔가 독자의길? 이런 기분이고, gpgpu 하나만 보면 amd hsaㄱㅏ 가장 앞서는 거 같은데 어떻게 보세요?
sowulo 2017.11.17 23:23

순간 기글하드웨어 스페셜 게시판에 들어온줄 알았어요.. ㄷㄷ

커뮤니티글이라니
?
şandin 2017.11.17 23:27

그런 게시판이 있나요? 몰랏네요;;
sowulo 2017.11.17 23:28

https://gigglehd.com/zbxe/special

예전에는 있었는데 지금은 없네요.. 지금도 도움되는 글이 있어서 이런 정리되어 있는글을 좋아하신다면 추천드립니다
?
şandin 2017.11.17 23:32

오 이런게 있군요 감사합니다
미쿠미쿠 2017.11.18 00:08

애플의 NPU는 GPGPU라고 하기에는 많이 힘들것 같네요.
옛날 넷북에 달던 H.264 가속칩 처럼 특정 분야에 특화된 연산칩이지 quapronuet 님 말씀처럼 Gneral Perpose와는 거리가 멀죠.
HSA 항목도 동의가 어려운게 그래서 딥러닝용으로 APU를 사용하고 있는 경우가 안보이며

엔비디아의 CUDA 개발 문서에도 써 있지만
레이턴시가 낮은건 그만큼 레이턴시의 영향을 최소화 하면 됩니다.
타임 크리티컬한 연산이 아니므로 대역폭을 꽉꽉채워서 데이터를 전송하면 됩니다.

게임을 개발할 때도 GPU와 통신을 하는걸 드로우콜이라고 하는데 당연히 이를 최소화 하는게 유명한 최적화 기법중 하나입니다.
게임 텍스쳐를 한장한장 그래픽카드로 보내는게 아니라 텍스쳐를 한장으로 합쳐서 한번의 드로우콜로 줄이는게 대표적인 드로우콜 줄이기죠.
텍스쳐 아틀라스라고도 부릅니다.

이야기가 많이 샜지만,
GPU는 연산 유닛이 간단한 구조인게 바로 같은 면적에 CPU 대비 코어의 수를 많이 집어 넣을 수 있는 비결이죠.
GPU라는 물건이 CPU에서 분리되어 나온 이유를 생각하면 답이 나오지요.
GPU라는 이름의 본연에 충실하지 못하게 된다면 그게 과연 GPU일까 라는 의문이 듭니다.

과거에 소니의 플레이스테이션3의 CPU가 GPU와 CPU를 합친듯한 특이한 아키텍쳐였죠. 셀 프로세서라고..
코어당 성능은 낮지만 코어가 매우 많은게 특징이었습니다.
인텔에도 제온파이라고 있었죠.
둘다 슈퍼 컴퓨터에 들어갈만한 특수 목적으로 개발되어 소비자의 GPU와는 거리가 멀죠. 플삼이 그나마 제일 소비자에게 가깝긴 하겠네요. 미공군 같은데서 클러스터링 연산 머신으로 굴리거나 했지만요. -_-)a
?
şandin 2017.11.18 00:24

hsa 는 gpgpu 부분에서이야기 하기위해서.. 물론 ann관 거리가 있구요 분기예측등 극히일부 기법을 사용햔다짐ㄴ ann과는 거라가 있죠 셀프로세서가 apu 비슷한겅데 hsa가 apu 를 위한 핵심이죠 물론 이미 아시다시피. 대략 오년 정도 후 바라보고 베이트레일급 그래픽성능은 될것도 걑은데 말이죠.. 뭔가 다들 1tflpos급 그래픽으로 잡으시는 것같아서.. ㄷ. 제가 말하는 ann 가 gpu를 삼킨거나 혹은 gpu가 ann에 완벽히 최적화되는 거나 모두 미세공정으로 오는 한계를 넘어서야 한단 전제가 있어요. 위에 댓글단분이 만슴하셧지먄 ann이 gpu 먹은 시점의 ai 내심 기대하면셔 관심을 가지는 거라 좀 찔리네요 ;;
미쿠미쿠 2017.11.18 02:24

1TFLOPS 급이라고 해서 엄청 대단한거 아닙니다. GTX 1070이 6.5TFLOPS 성능을 가졌으니까요.
소비자들이 대중적으로 사용하는 제품의 연산 성능이 1TFLOP는 배로 넘긴 상황이지요.

그러고보니 APU는 레이턴시는 별개의 그래픽카드 보다 레이턴시는 낮을지 몰라도
GPU가 GDDR 고대역폭의 그래픽 메모리가 아닌 DDR 범용 메모리를 사용하는 바람에 성능에서 많이 손해를 보는 실정이죠..

신경망 특화 유닛으로 베이트레일급 그래픽 성능은 되지 않을까 라는건
대중이 자동차를 가장 많이 쓰는 사회에서
비행기(ANN)인데 자동차(GPU) 처럼 달릴 수 있는데, 오년전 자동차 성능이야. 인거랑
자동차인데 비행기처럼 날 수도 있어. 이쪽이 더 각광 받겠죠.
비행기는 집집마다 한대씩 필요한게 아니지만 자동차는 한대씩 필요한 물건이니까요.

GPU는 그래픽 연산에 최적화 된 유닛인데, ANN에 최적화 되면 그건 NPU라 불려야 하지 않을까 싶네요.
CPU에서 분리되면서 그래픽 연산에 최적화 된 유닛이어서 GPU라 붙은거니까요.

재미있는 생각이긴 합니다.
언젠가 CPU에 FPU가 내장되는것처럼 GPU가 ANN을 내장하고 그게 일상화 된다라
우리 일상중 어떤 곳에 인공 신경망을 쓰게 될까 기대되죠. 우리 일생내에 분명 볼수 있을것 같습니다.
?
şandin 2017.11.18 09:31

답은 클라우드네요 모바일포럼 새소식 보세요 애플이 이번에도 앞서가요
?
wwsun98 2017.11.18 09:46

꺼무위키의 GPU 문서는 뇌피셜 오염이 심각해서 정보를 얻는 용도론 비추천 합니다.
제가 가끔 들어가서 쓰레기들을 쳐낼때마다 1만자씩 날아가요.....
?
şandin 2017.11.18 09:48

나무위키는 저도비추 재밋으라고 참고하는 용도정도죠 저도 수정하면 어느새 다날아가곤해서 .인용한부분은 그래도 적절하다 싶은데요
?
şandin 2017.11.18 09:51

뭔가 누구나 수정할 수있다는 점때문에 오염이 심해요 결국 더알아보고 싶은 사람은 소스를 알아서 찾아나가게 되는 , 힌트를 얻는것 정동의 의미만 .
?
히로리아 2017.11.18 13:10

꺼무위키는 예전에 스마트폰 관련 정보 찾을때 많이 썼는데 하도 이상한게 많아져서... 지금도 애니 관련 정보 찾을때 들어가지만 윗분과 마찬가지로 한번 편집하면 만자씩은 날라가요 ㅋㅋㅋ

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

List of Articles
번호	분류	제목	글쓴이	날짜	조회 수
공지	이벤트	[23일] 마이크로닉스 MA-600T 쿨러를 드립니다 14	낄낄	2024.04.17	574
12411	잡담	2017년 제25호 태풍 기러기 발생!(베트남행입니다) 1	준여니	2017.11.18	471
12410	잡담	오래된 레코드입니다	츠쿠모땅	2017.11.18	393
12409	퍼온글	짹짹이 인기몰이 이어폰 근황 25	Cluster	2017.11.17	1576
»	잡담	gpgpu로 보는 연산능력 향상의 미래 28	şandin	2017.11.17	1477
12407	퍼온글	대구의 한 계란말이 8	호무라	2017.11.17	749
12406	퍼온글	소녀전선 K2.gif 17	dARI	2017.11.17	1051
12405	퍼온글	독일군의 처참한 몰락 14	Cluster	2017.11.17	1098
12404	잡담	알리 지름지름 27	yamsengyi	2017.11.17	644
12403	잡담	햄버거 가격도 올랐어요. 8	호무라	2017.11.17	702
12402	잡담	이 정도면 스팸업자겠지요 8	낄낄	2017.11.17	697
12401	잡담	저도 파이어폭스로 브라우저 이적 준비중입니다. 14	프레스핫	2017.11.17	649
12400	잡담	농심이 저지른 일 11	까마귀	2017.11.17	777
12399	잡담	프로그래밍은 어려워요 ㅠㅠ 14	Minny	2017.11.17	638
12398	잡담	[실제]도쿄에서 본 라이젠 점퍼 ㅋㅋ 2	문어땅콩	2017.11.17	822
12397	잡담	필로티 구조 자체의 문제가 아니라 진짜 문제는 ... 23	RuBisCO	2017.11.17	1469
12396	퍼온글	컴덕들이 보면 열받는 짤 28	카시코마	2017.11.17	1413
12395	퍼온글	흔한 백덤블링.유튭 7	슬렌네터	2017.11.17	567
12394	잡담	연수를 다녀 왔습니다. 5	아라	2017.11.17	308
12393	잡담	지스타 올해는 그냥 지나가야겠네요 21	AVG	2017.11.17	558
12392	잡담	이건 우리나라만의 문제인지..;; 17	프레스핫	2017.11.17	809
12391	핫딜	[미국아마존] 보스 데스크탑용 2채널 스피커 200불 3	gri.	2017.11.17	628
12390	퍼온글	국군 3기갑여단 T-80 도하훈련 12	Cluster	2017.11.17	844
12389	잡담	이거 뭐하자는걸까요? 12	시노부	2017.11.16	1135
12388	잡담	의외로 어울리던 음식조합 5	호무라	2017.11.16	525
12387	잡담	키보드에 구리스를 치자!! 5	celinger	2017.11.16	2379
12386	잡담	책은 이렇게 사야합니다 1	카시코마	2017.11.16	446
12385	핫딜	메로나신발 사실 메로나? 12	몜드라고라	2017.11.16	774
12384	잡담	역쉬 아마존이네요 이런 끼워팔기를 봤나 7	gri.	2017.11.16	693
12383	잡담	카카오톡 이모티콘 수수료 없이 구매하기 18	몜드라고라	2017.11.16	8990
12382	잡담	Wakelock 짜증나네요 ㅠㅠ 3	도개주	2017.11.16	482

2016년 7월 이전글 링크: 커뮤니티 게시판 / 공지사항 게시판

로그인

gpgpu로 보는 연산능력 향상의 미래

나눔글꼴 설치 안내

이 PC에는 나눔글꼴이 설치되어 있지 않습니다.