NVIDIA의 GTC 2013 기조강연

 

http://pc.watch.impress.co.jp/docs/news/event/20130321_592542.html

 

00.jpg

 

회장인 산 조제 컨벤션 센터. 3월 18일부터 21일까지.

 

NVIDIA는 GPU 관련 종합 컨퍼런스 GTC(GPU Technology Conference)를 3월 18일부터 21일까지 미국 캘리포니아주 산 조제에 있는 맥 넬리 컨벤션 센터에서 개최합니다.

 

그 이틀째인 3월 19일에 NVIDIA의 창업자 겸 CEO인 젠슨 황의 기조 강연이 열렸는데, 여기서 젠슨 황은 GPU나 모바일 기기를 위한 테그라의 로드맵을 갱신하고, 2015년에 출시하는 GPU 볼타, 테그라 시리즈의 차기 제품인 파커를 소개했습니다.

 

또 NVIDIA가 새로운 비즈니스의 핵심으로 적극 추진중인 NVIDIA GRID에 대해서도 소개했습니다. OEM 제조사에서 NVIDIA GRID K1/K2 보드를 탑재한 서버가 발매되는 것이나, 중소기업 전용의 NVIDIA GRID 서버인 VCA(Visual Computing Appliance)를 NVIDIA 자체 브랜드로 판매할 것임을 밝혔습니다.

 

 

보다 강력한 GPU, 보다 리얼한 렌더링

 

젠슨 황은 강연을 시작하면서 '이번 강연에서는 5개를 소개할 것입니다. 그것은 3D 그래픽, GPU 컴퓨팅, 새로운 제품 로드맵, 리모트 그래픽, 그리고 그 신제품입니다'라고 말해, 5개 분야에 초점을 맞춰 강연을 할 것임을 밝혔습니다.

 

01.jpg

 

지포스 GTX 타이탄을 손에 든 젠슨 황

 

그 첫번째인 3D 그래픽은 NVIDIA의 창업 아이템이라고 말해야 할 것입니다. 젠슨 황은 '우리는 지포스 GTX 타이탄이라 부르는 GPU를 발표했습니다. 타이탄은 슈퍼 컴퓨팅이나 3D 게임에 모두 쓸 수 있는 강력한 GPU입니다'라고 하면서 지포스 GTX 타이탄을 소개했습니다. '지포스 GTX 타이탄은 공업 디자인에도 매우 신경을 써서, 히트 싱크도 매력적으로 완성'이라며 카드를 직접 손에 들어 보였습니다.

 

여기서 젠슨 황이 소개한 것은 웨이브웍스라 부르는 물결의 리얼타임 시뮬레이션과, 페익스웍스라 부르는 사람 얼굴의 리얼타임 시뮬레이션입니다. 둘 다 지금까지의 GPU에선 리얼타임으로 처리하는 것이 어렵다고 여겨졌던 분야입니다.

 

웨이브웍스는 폭풍우가 치는 바다를 재현했습니다. 지금까지의 기술로 바다를 렌더링했을 경우에는 물보라를 포현하는 것이 어려웠지만, 지포스 GTX 타이탄과 새로운 소프트웨어를 이용하면 이를 리얼타임으로 시뮬레이션할 수 있습니다.

 

또 사람의 얼굴을 정밀하게 묘사하는 것도 매우 어렵습니다. Uncanny Valley라는 현상 때문입니다. 이를 넘어서 사람이 친금감을 느낄 수 있도록 하는 게 중요합니다. Uncanny Valley란 일본의 로봇 공학자인 모리 마사히로씨(도쿄 공업대학 명예교수)가 제창한 현상으로, 로봇의 얼굴을 인간처럼 만들다 보면 인간이 불쾌하게 느끼는 지점이 있는데, 이를 넘어서면 다시 친근감을 느끼게 된다고 합니다.

 

젠슨 황은 '우리는 지포스 256 시절부터 사람 얼굴을 리얼하게 표현하는 데 다양한 방법을 생각해 왔습니다. 이번에 데모한 페이스웍스는 32GB의 데이터를 400MB로 압축하고, 라이트 맵, 범프 맵, 소프트 쉐도우 등의 다양한 기법을 이용해 Uncanny Valley 현상을 넘어서도록 노력했습니다'라고 말하면서, NVIDIA의 캐릭터인 Dawn이나 사람의 얼굴을 페이스웍스와 지포스 GTX 타이탄을 조합해 실시간 렌더링해 보였습니다. 이런 기술을 이용하면 SNS나 IM에서 카메라로 캡처한 움직임을 상대방의 클라이언트에 전송해, 리얼한 아바타를 애니메이션화할 수도 있습니다.

 

02.jpg

 

03.jpg

 

04.jpg

 

기존 방식을 사용해 바다를 렌더링하면 물결의 불보라가 표현되지 않습니다.

 

05.jpg

  

 보다 리얼하게 사람의 얼굴을 렌더링하려면 Uncanny Valley를 넘어서는 기술이 필요.

 

06.jpg

 

07.jpg

  

지포스 GTX 타이탄과 페이스웍스는 보다 인간에 가까운 얼굴을 표현할 수 있습니다.

 

 

확산되는 CUDA의 활용

 

계속해서 젠슨 황은 NVIDIA가 최근 몇년 동인 주력한 GPU 컴퓨팅 솔루션에 대해 설명했습니다. GPU 컴퓨팅은 새 컴퓨터에 의한 연산 모델이지만, 일반적으로 새로운 컴퓨팅의 보급은 소프트웨어가 먼저인지 하드웨어가 먼저인지 같은 난제가 있습니다. 그러나 GPU 컴퓨팅은 이미 보급이 된 GPU를 이용할 수 있어 이 문제를 피할 수 있었습니다. 그리하여 CUDA는 보급이 잘 되고 있는 편.

 

실제로, NVIDIA가 CUDA 지원을 시작한 2008년에는 CUDA를 지원하는 GPU가 1억 개였는데 다운받은 CUDA 소프트웨어는 불과 15만 번에 불과했고, GPU를 쓴 슈퍼컴퓨터는 한개, 대학의 관련 논문 수는 4천 개였습니다. 그러나 지금은 CUDA 지원 GPU가 4억 3천만 개, CUDa의 다운로드 수는 160만 번, 50개의 슈퍼컴퓨터에 채용됐으며 논문 수는 3만 7천개로 크게 늘었습니다.

 

이런 CUDA를 이용한 솔루션으로 앞으로는 클라우드 서비스를 제공하는 기업에서 요구가 높아질 것이라는 게 젠슨 황의 지적입니다. 현재 빅 데이터를 신속히 해석하고 여기에 기초를 둔 서비스를 제공하는 게 핵심입니다. 예를 들어 트위터의 트윗은 폭발적으로 늘어나고 있는데, 이를 정미랗고 신속하게 분속해 사용자에게 새로운 서비스를 제공하는 것이 가능합니다. 기존과 마찬가지로 CPU에서 이를 수행하면 몇 분이 걸리지만, GPU를 사용하면 몇 초로 끝나게 됩니다.

 

실졔 예로는 음악 매칭 서비스인 SHAZAM이 소개됐습니다. SHAZAM은 콧노래나 거리에서 들리는 음악을 스마트폰이나 태블릿의 마이크로 녹음해, 그 데이터를 SHAZAM의 데이터베이스와 조합해서 실제의 곡을 찾는 서비스로, 1개월에 3억 번의 검색 요구가 있습니다. SHAZAM의CTO는 서버에 CUDA를 채용한 결과 검색에 걸리는 부하가 줄어 보다 많은 사용자의 검색 요구를 대응할 수 있게 됐다고 설명했습니다.

 

계속해서 젠슨 황은  "페라리 F150을 파는 곳을 찾는 것은 간단합니다. 한 곳 뿐이니까요. 그러나 잡지에 나온 텔런트가 입는 옷을 사고 싶을 때는 어떻게 해야 할까요?"라 말하면서 CORTEXICA가 제공하는 이미지 매칭 기능을 소개했습니다. 이것은 스마트폰이나 태블릿에서 촬영한 이미지를 바탕으로 검색, 이베이에서 같은 디자인의 옷을 찾아 주는 서비스입니다. 이처럼 스마트폰이나 태블릿의 연구 최종 단계에 서비스로 제공되는 이미지 매칭 기능에도 CUDA처럼 GPU를 쓰는 것이 최종 사용자에게 더 큰 이득을 가져다 줄 것이라 어필했습니다.

 

08.jpg

 

NVIDIA가 최근 추진중인 GPU 컴퓨팅

 

09.jpg

 

CUDA의 보급은 최근 5년 동안 크게 진행됨

 10.jpg

 

GPU를 이용해서 트위터처럼 폭발적으로 데이터가 증가하는 빅 데이터의 해석도 가능하게 됨

 

11.jpg

 

GPU 컴퓨팅은 다양한 연산에서 활용

 

12.jpg

 

음악 검색 서비스인 SHAZAM도 GPU를 이용해 서비스를 제공

 

13.jpg

  

SHAZAM의 CTO와 젠슨 황

 

14.jpg

 

상품 검색도 QR 코드에서 이미지 검색으로 진화함

 

15.jpg

 

16.jpg

 

이미지 검색을 하면 그 옷에 가까운 디자인의 옷을 검색해서 보여줌

 

 

새로운 로드맵을 공개. CUDA 지원 테그라는 로간, 파커로 진화

 

이어서 젠슨 황은 3번재 화제인 자사 로드맵 설명을 했습니다. 기존의 GPU 로드맵은 2010년에 나온 GTC 2010에서 공개된 것으로, 2009년에 출시된 페르미에 이어서 2011년에 케플러를, 그리고 그 후속작으로 맥스웰을 출시한다는 것이었습니다.

 

케플러의 후속작인 맥스웰에선 통합 가상 메모리를 도입하고, 그 후속작인 볼타에 대한 정보가 여기서 처음으로 나왔습니다.

 

맥스웰은 CPU와 GPU의 가상 메모리를 공유하는 구조를 도입하며, 그 후속작인 볼타는 GPU와 DRAM을 하나로 패키징해 1TB/s를 넘는 초 고대역을 실현합니다. GPU를 그래픽에 이용하든 GPU 컴퓨팅에 이용하건, 메모리 대역폭이 성능의 병목 현상을 일으키기 때문에 스택 같은 광대역 기술이 앞으로 꼭 필요하게 됩니다.

 

17.jpg

 

GPU 로드맵

 

18.jpg

 

볼타는 DRAM을 겹쳐서 제작

 

19.jpg

 

DRAM 제조사인 SK 하이닉스가 전시한 스택 DRAM의 모형

 

또 젠슨 황은 자사의 또 다른 핵신 제품인 스마트폰/태블릿용 SoC 테그라 시리즈의 로드맵도 갱신했습니다. 지금까지 NVIDIA는 현재 출시가 시작된 테그라4(코드네임 웨인)의 후속작으로 로간과 스타크를 개발 중임을 밝히고 있었는데, 이번에는 로간의 자세한 정보와 그 다음 제품인 파커의 계획을 발표했습니다.

 

로간은 GPU를 완전히 새로 만들어 케플러 코어를 사용합니다. 이걸로 CUDA 5.0과 OpenGL 4.3을 지원합니다. 2013년에는 샘플이 나오고 2014년에는 실제 제품이 나올 것입니다.

 

그리고 로간의 후속작은 스타크가 나올 것이라 했으나, 실제 후속작은 파커가 나오게 됩니다. NVIDIA의 관계자에 의하면 스타크는 없어진 것이 아닌 로간의 파생품으로 존재합니다. 즉 로간+ 같은 식입니다.

 

파커는 덴버 코어의 CPU를 씁니다. 덴버는 NVIDIA가 개발 중인 64비트 ARM 코어로, 서버부터 스마트폰까지 다양한 제품이 계획 중이며, 실제 제품에서 덴버 코어를 쓴다고 발표한 것은 파커가 처음입니다.

 

또 GPU도 진화해 맥스웰 아키텍처가 됩니다. FinFET(3D)를 사용한 공정을 이용해 제조됩니다. 현 시점에선 어느 파운드리를 이용해 제조될지는 밝혀지지 않았지만, TSMC건 글로벌 파운드리건 FinFET를 쓰는 건 16나노나 14나노, 즉 지금보다 2세대 후의 공정입니다.

 

젠슨 황은 로간 세대의 테그라에서 CUDA 5.0 지원을 위한 개발 환경을 제공하기 위해, 코드네임 Kayla라 부르는 개발 보드도 공개했습니다. 임베디드용 CUDA 프로그램의 개발에는 실제 프로그램을 실행할 수 있는 환경이 필요한데, x86+NVIDIA GPU 환경은 쉽게 입수할 수 있지만, ARM+CUDA 지원 GPU 조합은 지금 어디서도 구할 수 없습니다. 그래서 로간이 출시되기 전에 소프트웨어 개발을 준비하는 엔지니어를 위해서 Kayla를 준비하는 것입니다.

 

20.jpg

 

테그라 로드맵

 

21.jpg

 

Kayla의 실물. 방열판 아래에 테그라, 쿨링팬 아래에 케플러가 있습니다. ARM에서 CUDA 애플리케이션을 개발하는 용도.

 

22.jpg

 

Kayla의 작동 모습. 3D 애플리케이션이나 CUDA 앱을 실행할 수 있습니다.

 

 

계속해서 NVIDIA GRID를 추진

 

마지막으로, 4번째와 5번째 주제인 NVIDIA GRID와 관련 제품을 설명했습니다.

 

NVIDIA는 GTC 2012에서 NVIDIA GRID(당시엔 지포스 GRID)라는 클라우드 기반 GPU를 발표했는데, 이번에는 구체적인 제품을 공개했습니다.

 

NVIDIA GRID는 원래 클라이언트 PC에 있어야 할 GPU를 서버로 옮겨, 렌더링이나 연산을 클라우드 측에서 실행하고, 클라이언트는 서버에서 스트리밍하는 영산응 표시하는 구조입니다. 이러한 클라이언트 PC를 가상화하는 기술은 이미 엔터프라이즈에서 보급이 진행 중이며, CITRIX나 VMware, 마이크로소프트 등이 솔루션을 제공하고 있지만, NVIDIA GRID의 차이점이라면 그래픽 성능에 초점을 두고 있는 것입니다.

 

일반적인 가상 머신에서는 CPU를 가상화하지만 GPU의 가상화는 거의 진행되지 않았습니다. NVIDIA GRID는 서버 GPU에서 렌더링한 결과를 클라이언트에 송신할 때, 케플러에 도입된 H.264의 하드웨어 인코더를 활용합니다. 데이터는 실시간으로 압축 전송하며, GPU가 로컬에 있는 것과 같은 느낌으로 쓸 수 있습니다.

 

현재 제조업에서는 로컬 PC에 쿼드로 등의 강력한 GPU와 CAD나 CAE 등의 소프트웨어를 조합해 디자인이나 물리 시뮬레이션을 하고 있습니다. 이 경우 데이터는 반드시 로컬에 있어야 하며, 다수의 거점에서 데이터를 공유하고 싶은 경우나 데이터 보안에서 해결해야 할 점들이 있었습니다. NVIDIA GRID를 도입하면 데이터는 모두 서버 측에 있으니 로컬에 데이터를 저장할 필요가 없어진다는 장점도 있습니다.

 

이번에 젠슨 황은 NVIDIA GRID에 관해 2개의 발표를 했습니다. 하나는 자세 브랜드로 제공하는 VCA(Visual Computing Appliance), 다른 하나는 NVIDIA GRID용 GPU  카드(NVIDIA GRID K1/K2)를 탑재한 제품이 Cisco, Dell, IBM, HP 등의 대기업 서버 제조사에서 출시된다는 것.

 

VCA는 중소기업 전용 솔루션으로 상위 모델은 듀얼 소켓 제온 프로세서(32 스레드), 메인 메모리는 384GB, 그리고 2개의 GPU를 탑재합니다. NVIDIA GRID 카드가 8장 탑재된 4U 랙마운트 서버로 최대 16명의 사용자를 지원합니다. 하위 모델은 16스레드 제온으로 192GB 메모리에 8개의 GPU를 탑재해 8명의 사용자까지 지원합니다. 가격은 전자가 39900달러이며 1년마다 최저 4800달러의 소프트웨어 라이센스 계약이 필요합니다. 후자는 24900달러로 1년마다 최저 2400달러의 소프트웨어 라이센스 계약이 필요합니다. 소프트웨어에는 기본 OS인 하이퍼바이저와 윈도우 7의 라이센스도 포함됩니다.

 

VCA를 이용한 데모로 애플 맥북 프로를 써서 윈도우 7의 가상 머신 서버에 액세스, 3D 렌더링 소프트웨어를 동시에 3개 실행하는 장면을 시연했습니다. VCA를 쓰면 클라이언트는 뭐든지 상관 없으며, 스마트폰이나 태블릿도 가능하다네요.

 

젠슨 황은 '이 NVIDIA GRID와 VCA에 의해 작업 스타일이 크게 바뀌게 됩니다. 엔지니어는 자신의 자리에 앉아 있을 필요가 없고, 아웃 소싱도 보다 쉬워질 것입니다'라고 강조했습니다.

 

23.jpg

 

NVIDIA GRID의 발상. 기본적으로는 기존의 클라이언트에 있던 GPU가 클라우드로 이동하는 것을 의미합니다.

 

24.jpg

 

대기업 서버 제조사가 NVIDIA GRID 대응 서버를 출시

 

25.jpg

 

NVIDIA GRID를 이용하면 GPU를 쓰던 환경과 똑같은 것을 클라우드로 실현할 수 있습니다.

 

26.jpg

 

중소기업 전용 NVIDIA GRID 서버인 VCA.

 

27.jpg

 

VCA는 2개의 라인업이 있습니다.

 

28.jpg

 

NVIDIA GRID의 내부 구조. 1개의 제온 프로세서를 씁니다.

 

29.jpg

 

8장의 NVIDIA GRID 카드를 탑재

 

30.jpg

 

맥북 프로에서 윈도우 기반 3D, CAE 애플리케이션에 액세스하는 모습. 클라이언트 소프트웨어가 준비됐다면 어떤 클라이언트(PC< 스마트폰, 태블릿)을 동작할 수 있습니다.

 

31.jpg

 

이처럼 실시간 렌더링이 가능합니다.

 

32.jpg

 

데모에서는 태블릿을 써서 색상을 바꾸거나 실시간으로 렌더링해 클라이언트에 결과를 반영하고 있었습니다.

 

33.jpg

 

로스엔젤레스 헐리우드의 스튜디오에 있는 VCA 서버를 이용해 실시간으로 렌더링을 하는 것도 시연했습니다.

 

 

 

NVIDIA, 차세대 아키텍처 파커와 볼타를 공개

 

http://pc.watch.impress.co.jp/docs/column/kaigai/20130321_592541.html

 

 

2015년을 전후로 한 로드맵까지 공개

 

34.jpg

 

NVIDIA 창립자, 사장, CEO인 젠슨 황

 

NVIDIA가 GPU와 모바일 SoC의 로드맵을 공개했습니다. GPU 로드맵의 핵심은 스택 DRAM을 써서 초 광대역 메모리를 자랑하는 볼타가 차세대 기종인 맥스웰 다음으로 나온다는 것. 테그라의 핵심은 차기 기종인 로간이 케플러 GPU 코어를 통합해 CUDA 지원을 실현하며, 그 후속작인 파커는 덴버 CPU 코어와 맥스웰 GPU 코어를 통합한다는 것. 이로서 프로젝트 덴버의 실체가 드러난 것입니다.

 

NVIDIA의 젠슨 황은 자사의 기술 컨퍼런스 GPU Technology Conference(GTC) 2013에서 2년 반만에 GPU 로드맵을 업데이트했습니다. GTC 2013는 미국 산 조제에서 3월 18일부터 21일까지 열리고 있으며, 새 로드맵에서는 기존의 케플러에 이어 맥스웰이 2014년에 등장하고, 그 후 스택 DRAM을 쓰는 볼타가 나오는 로드맵이 등장했습니다. 아래가 기조 강연에서 공개된 로드맵입니다.

 

35.jpg

 

NVIDIA GPU의 최신 로드맵

 

젠슨 황은 기조 강연에서 볼타에 대해 이렇게 설명했습니다.

 

"맥스웰의 다음 GPU는 볼타입니다. 볼타는 배터리를 발명한 사람의 이름입니다. 볼타라는 이름은 이 GPU가 한층 더 전력 효윺이 높다는 것을 나타내기 때문에 마음에 드는 이름입니다. 볼타는 스택 DRAM이라 부르는 최신 기술을 사용합니다."

 

NVIDIA는 엑사 스케일 슈퍼 컴퓨터인 에셜런의 계획을 발표했을 때부터 스택 DRAM을 쓸 것임을 시사하고 있었습니다. 이번의 볼타는 마침내 실제 제품 로드맵에서도 드러난 제품입니다. 볼타는 TSV(Through Silicon Via) 인터포저를 사용한 2.5D 타입의 스택 메모리 솔루션입니다.

 

36.jpg

 

볼타는 스택 DRAM을 사용

 

37.jpg

 

GPU에 들어가는 스택 DRAM

 

38.jpg

 

스택 DRAM의 종류

 

이전에 NVIDIA가 로드맵을 공개한 건 2010년 9월의 GTC 2010이며, 아래는 그 때의 로드맵입니다. 이 시점에선 맥스웰까지만 나와 있고, 맥스웰의 출시 시기도 2013년으로 나와 있었습니다. 그러나 이번 업데이트에선 다양한 요소를 읽어낼 수 있습니다.

 

39.jpg

 

GTC 2010에서 공개된 GPU 로드맵

 

 

프로세스 기술을 추측할 수 있는 NVIDIA의 GPU 로드맵

 

GPU 로드맵만 봤을 때 상대적인 성능/전력 사용량은 현재의 케플러에서 맥스웰로 가면서 약 2배가 됩니다. 이것은 전력 사용량이 같다고 가정핼 때 더블 프리시전 부동 소수점 연산 성능의 비교이며, 맥스웰에서 볼타로 가면 또 2배가 됩니다.

 

각각 GPU의 등장 시기와 성능/전력에서 추측할 수 있는 건, 맥스웰이 20나노 벌크 프로세스, 볼타가 16나노 FinFET 공정이라는 것입니다. 이것은 NVIDIA가 현재 GPU 제조를 위탁하는 TSMC의 로드맵과 비교했을 경우지만, 파운드리를 바꾼다고 해도 크게 변하진 않습니다(인텔이 만들어 준다면 모를까). 2014년이면 맥스웰이 FinFET로 생산을 하기 빠듯합니다.

 

40.jpg

 

TSMC의 프로세스 로드맵

 

41.jpg

 

TSMC의 프로세서 로드맵(ARM TechCon에서 공개한 슬라이드)

 

2배의 성능/전력 사용량 비율을 달성하려면 제조 공정의 미세화만으로는 무리입니다. 그래서 맥스웰은 GPU 아키텍처의 개혁이 필요합니다. 그러나 그 다음인 볼타는 TSMC의 16나노 공정이라면 트랜지스터가 3D FinFET가 되니까 제조 기술만으로도 전력 삭감이 가능합니다. 예를 들어 볼타는 맥스웰과 같은 마이크로 아키텍처지만 FinFET에 의한 GPU 자체의 전력 절감과, 스택 DRAM에 의한 메모리 전력의 절감에 의해 성능/전력 효율을 높일 수 있습니다.

 

다만 맥스웰은 20나노 벌크고, 볼타가 16나노 FinFET일 경우, 같은 크기의 다이에 실을 수 있는 연산 유닛 수 자체는 아마도 크게 변하지 않을 것입니다. 왜냐하면 TSMC의 16나노 FinFET이나 글로벌파운드리의 14나노 FinFET 모두 연구 최종 단계에선 20나노 공정을 쓰기 때문입니다. 배선 층이 거의 같아 회로 크기는 거의 변하지 않으며, 경우에 따라서는 16나노 쪽이 더 커질 수도 있습니다.(트랜지스터의 멀티 채널링이라던가)

 

42.jpg

 

오른쪽의 크기 변화를 보면 28나노에서 20나노의 변화와 28나노에서 16나노로 크기 변화가 같은 비율임을 알 수 있습니다. 즉 20나노에서 16나노로 가면 면적이 크게 변하진 않습니다.

 

43.jpg

 

왼쪽이 현재의 평면형 트랜지스터. 중앙이 1채널 FinFET. 오른쪽이 멀티 채널 FinFET.

 

그 때문에 볼타는 전력 효율은 오르지만 다이 크기 당 연산 유닛 수에서 큰 변화는 어렵습니다. 물론 전력 사용량이 줄어든 만큼 동작 클럭을 올릴 수 있고, 메모리 병목 현상이 어느 정도 해소되니까 메모리에 따른 애플리케이션의 실제 성능은 향상됩니다. 또 전력이 줄어든 만큼 다이를 크게 만드는 것도 가능하지만 한 번에 노광할 수 있는 크기를 넘어버리면 경제적인 선택은 아니라, 일정 한도 이상으로 다이를 크게 하긴 어렵습니다. 덧붙여서 볼타의 시기기 정확하게 나오지 않은 건, 스택 DRAM의 스케줄이 아직 불확실하기 때문이라 볼 수 있습니다.

 

덧붙여서 맥스웰의 경우 기조 강연 슬라이드에서는 Unified Virtual Memory라 설명했지만, 이것이 CUDA 4.0의 Unified Virtual Memory와 어떻게 다른지는 설명하지 않았습니다.

 

 

2014년의 테그라, 로간에서는 케플러 코어 GPU를 사용

 

테그라 로드맵에서도 제조 공정 기술을 추정할 수 있습니다. 2015년의 파커는 FinFET을 쓰니까 TSMC라면 16나노 공정이 됩니다. 그렇게 되면 현재의 테그라 4(코드네임 웨인)의 후속작으로 2014년에 제조를 시작하는 로간은 20나노 벌크 프로세스로 추측됩니다. 28나노 테그라 4에서 공정 미세화를 하지 않으면 아래 그림에 나온 만큼의 성능 향상은 바랄 수 없기 때문입니다.

 

44.jpg

 

테그라의 최신 로드맵

 

로간에선 GPU가 케플러 기반으로 바뀝니다. 여기에 대해 젠슨 황은 이렇게 설명합니다.

 

"로간은 테그라 중에서 처음으로 최신 GPU를 탑재, CUDA를 사용할 수 있는 최초의 모바일 프로세서가 됩니다. 로간은 케플러 GPU를 탑재하고 CUDA 5를 완벽 지원, OpenGL 4.3도 지원합니다. 로간은 내년-2014년- 초에는 생산에 들어갈 수 있을 것입니다."

 

지금까지 NVIDIA의 모바일 GPU 코어 아키텍처는 데스크탑 GPU보다 몇 세대 뒤떨어진 것이었습니다. 하지만 로간에서 케플러를 쓰게 된 건, 케플러 이전의 GPU 코어가 모바일에 적절한 것이 아니었기 때문입니다.

 

NVIDIA의 GPU 코어 아키텍처는 페르미에서 케플러가 되면서 크게 바뀌었습니다. 테슬라부터 페르미까지는 다이 면적 당 성능을 중시한 설계였으며, 그 때문에 프로세서의 클럭읖 높여 트랜지스터 당 소비 전력이 컸습니다. 그러나 케플러에선 소비 전력에 최적화한 설계로 바뀌었습니다.

 

또 명령 스케줄링은 모두 하드웨어로 제어한 페르미까지의 방식에서 벗어나, 지연 시간을 읽을 수 없는 명령 이외의 스케줄링은 모두 소프트웨어(드라이버의 컴파일러)가 하는 방식으로 바뀌었습니다. 그 때문에 페르미까지의 GPU 코어와 비교해서 케플러는 성능 당 전력 사용량이 크게 줄었습니다.

 

45.jpg

 

케플러의 실행 파이프라인

 

46.jpg

 

케플러의 명령 스케줄링

 

 이러한 개량에 의해 전력 효율을 높인 케플러 아키텍처는 모바일에도 넣을 수 있게 됐습니다. NVIDIA는 G70을 기반으로 해 테그라 2/3의 GPU 코어를 설계했습니다. 그러나 G80(테슬라) 이후의 GPU 코어는 테그라에 가져오지 못하고, 테그라 2/3의 GPU 코어를 발전시켜, VLIW 명령 아키텍처를 테그라 4에 넣었습니다. 이렇게 보면 NVIDIA가 케플러를 모바일 전용으로 만들 수 있는 시점까지 기다리고 있었음을 알 수 있습니다.

 

47.jpg

 

테그라 4의 GPU 코어

 

 

덴버 CPU의 첫 제품인 파커

 

로간의 지원 API 셋트에선 최신 버전인 CUDA 5와 함께 OpenGL 4.3의 지원이 눈에 띕니다. 모바일 GPU용인 OpenGL ES 계열 뿐만이 아니라 OpenGL도 지원할 수 있음을 강조했습니다. 이 시점에서 다른 모바일 GPU 제조사가 OpenGL ES 3.0을 지원하고 있지만 테그라 4/4i는 다이 면적을 줄여 연산 성능을 올리는 대신 OpenGL ES 3.0의 지원을 보류했습니다. GPU 제조사인 NVIDIA가 모바일에선 그래픽 API의 지원이 늦은 상황인데, 로간에선 이를 단번에 만회하려는 의도가 보입니다.

 

48.jpg

 

OpenGL의 로드맵

 

덧붙여서 OpenGL ES 3.0과 OpenGL 4.3 이후에는 두 API가 어느 정도 융합하는 방향으로 가고 있습니다. 위 그림은 GTC에서 Khronos 그룹이 발표한 OpenGL 패밀리의 로드맵입니다. OpenGL ES 3.0와 OpenGL 4.3은 이후에 서로 겹치고 있음을 볼 수 있습니다. 이것이 작년-2012년 12월의 SIGGRAPH Asia에서 공개한 로드맵에선 이렇게 되어 있었습니다.

 

49.jpg

 

2012년의 SIGGRAPH Asis에서 나타난 OpenGL ES의 로드맵

 

로간의 다음인 2015년의 파커는 CPU 코어가 덴버 CPU가 됩니다. 젠슨 황은 파커에 대해 이렇게 설명합니다.

 

"파커는 3개의 중요한 아이디어를 시장에 가져옵니다. 우선 파커는 덴버의 64비트 ARM 프로세서를 쓴 최초의 프로세서가 됩니다. 그리고 차세대의 GPU 맥스웰을 통합하며 FinFET 트랜지스터를 씁니다."

 

NVIDIA의 테그라 전략에서 파크넌 큰 발전임을 알 수 있습니다. 앞으로 테그라는 GPU 성능을 급증시킨 테그라 4, CUDA를 대응하는 로간, 64비트 프로세서인 맥스웰, 그리고 FinFET의 파커로 1년마다 두배씩 향상됩니다. NVIDIA의 모바일 SoC에 대한 자세가 어떤지 잘 알 수 있습니다.

 

 

5년만에 100배로 성능이 향상된 테그라

 

젠슨 황은 테그라 로드맵의 성능 향상에 대해서도 설명했습니다. 테그라는 테그라 2에서 파커로 가면서 5년만에 성능이 100배로 향상, 무어의 법칙을 뛰어 넘었다고 설명합니다. 엄청난 성장이지만, 여기에는 트릭이 있습니다. 테그라 2는 40나노, 파커는 16나노의 공정인데, 제조 공정만 따지면 40나노에서 20나노로 2세대를 넘어서 같은 크기의 칩에 넣을 수 있는 트랜지스터 수가 4배가 됩니다. 여기에 FinFET도 써서 전력도 여유가 생겼습니다.

 

그에 비해 CPU 코어는 Cortex-A9의 2코어에서 Cortex-A15의 5코어, 그리고 덴버의 4코어 이상으로 변화합니다. CPU 코어의 크기는 같은 제조 공정이라 가정하면 4배 이상으로 늘어나지만, 캐시를 포함한 전체 면적은 그렇게 늘어나지 않습니다. 고정 기능 유닛도 마찬가지니 NVIDIA는 남은 공간을 GPU에 넣을 수 있을 것입니다. GPU의 비율을 높이면 칩의 연산 성능을 무어의 법칙 이상의 수준으로 높일 수 있습니다.

 

덧붙여서 작년까지의 로드맵에는 파커가 없고 그 대신 성능이 낮은 스타크가 로드맵에 있었습니다. 이렇게 바뀐 이유는 아직 알려지지 않았습니다.

 

50.jpg

 

201년 시점의 테그라 로드맵

 

또 다른 달라진 점은 NVIDIA는 원래 맥스웰 세대부터 CPU 코어를 통합한다고 하지만, 젠슨 황은 데스크탑과 HPC용인 맥스웰 이후에 나올 파커가 최초의 덴버 코어 통합이라 설명했습니다. 또 데스크탑과 HPC용 맥스웰은 20나노로 추측되는데 파커는 16나노입니다. 이것은 덴버가 20나노인가 16나노인가라는 문제도 있습니다. 덴버는 ARM 64코어 Cortex-A57을 기반으로 하는 것으로 보이며, Cortex-A57의 첫 번째 목표는 20나노 공정이라 보입니다.

 

51.jpg

 

ARM Cortex-A57의 블럭 다이어그램

 

로간과 파커에 의해 NVIDIA의 로드맵에선 CUDA를 ARM CPU 기반으로 가는 전개가 보이고 있습니다. 그러나 로간까지 아직 1년이 있습니다. 그래서 NVIDIA는 CUDA 기반 테그라용 소프트웨어 개발을 촉진하기 위핸 개발 키트, 케일라도 발표했습니다. 이것은 테그라 3 기반으로 테그라 3의 PCI-E에 케플러 저전력 GPU를 탑재한 미니 ITX 보드입니다. 이번 강연에선 이 보드를 이용해 실시간 레이 트레이싱을 하는 데모도 있었습니다.

 

52.jpg

 

테그라의 개발 키트 케일라

 

53.jpg

 

케일라의 개요

 

54.jpg

 

케일라 보드에 의한 실시간 레이 트레이싱 데모

 

55.jpg

 

케일라 보드를 들고 있는 젠슨 황

 

이번 NVIDIA 로드맵 업데이트는 GPU 기술의 분기점을 나타내고 있어 중요합니다. 특히 볼타의 스택 DRAM은 앞으로 GPU의 핵심이 됩니다. 스택 DRAM에 대한 설명은 바로 이어집니다.

 

 

 

NVIDIA의 차차기 GPU 볼타의 스택 DRAM 기술

 

http://pc.watch.impress.co.jp/docs/column/kaigai/20130322_592709.html

 

 

1TB/s의 메모리 대역을 실현한 볼타

 

NVIDIA는 GPU Technology Conference(GTC) 2013에서 차세대 GPU 로드맵을 발표했습니다. PC & HPC(High Performance Computing)용 GPU에서 핵심은 스택 DRAM을 쓴 볼타입니다. 작년 GTC에서 NVIDIA는 '스택 DRAM은 반드시 쓸 것이지만 언제일진 모름'이라 설명했습니다. 그러나 이번 GTC에서 마침내 스택 DRAM이 로드맵에 올라왔습니다. 스택 DRAM으로 서두르는 DRAM 업계의 동향이 NVIDIA의 로드맵에도 반영되었습니다.

 

NVIDIA의 젠슨황은 볼타에 대해 이렇게 설명합니다.

 

"볼타는 오늘날 GPU의 가장 큰 문제를 해결합니다. 바로 메모리 대역입니다. GPU의 메모리 대역은 CPU보다 몇 배 넓지만, 결코 충분했던 적이 없습니다. 이것은 그래픽카드 기판의 배선 때문에 충분한 속도를 낼 수 없었기 때문입니다. 볼타에선 이것이 해결됩니다.

 

현재 케플러는 GPU의 둘레를 메모리 칩이 둘러싸고 있습니다. 그러나 볼타는 DRAM을 GPU와 같은 실리콘 서브 스트레이드에 적층합니다. 그리고 실리콘에 뚫어놓은 구멍인 (TSV:Through Silicon Via)를 통해 접속합니다. 이 기술에 의해 1TB/s의 메모리 대역을 실현하는데, 이것은 블루레이 디스크의 모든 데이터를 1/50초에 전송할 수 있는 속도입니다.

 

56.jpg

 

57.jpg

 

젠슨 황

 

58.jpg

 

중앙의 케플러를 둘러싸고 있는 12개의 칩이 GDDR5 DRAM

 

59.jpg

 

볼타의 개념도. 패키지 서브 스트레이트 위에 GPU를 둘러싸듯이 DRAM 스택이 다수 배치되어 있습니다.

 

현재 GPU는 메모리 대역이 280GB/s의 범위에 도달했는데, 384비트 메모리 인터페이스로 GDDR5를 6Gbps 전송율로 돌려야 이 대역이 간신히 나옵니다. 싱글 프리시전은 칩 하나로도 4테라플롭스를 넘는 연산 성능을 내는 요즘 칩에 비해, 메모리 대역은 매우 낮고, 메모리 대역 때문에 애플리케이션의 성능에 제약이 생깁니다. 맥스웰에서도 메모리는 GDDR5를 유지하기에 다소 속도의 차이는 있지만 큰 변화는 없어서, 메모리 대역의 한계는 계속됩니다.

 

그러나 볼타는 TSV 기술로 단번에 메모리 대역이 현재의 3.5배로 확대, 메모리 대역의 제약이 줄어듭니다. 이것은 메모리 한계를 벗어나 애플리케이션의 실제 성능이 크게 성장하는 것을 의미합니다. 이게 중요한 이유는 실제로는 메모리 때문에 GPU가 아이들 상태에 있는 경우가 많았지만, 메모리 대역이 해소되면 GPU 코어의 가동률이 오르게 됩니다. 게다가 메모리 대역 덕분에 소비 전력도 줄어듭니다. 아래는 조금 오래됐지만 AMD의 Technical Forum & Exhibition (TFE) 2011 컨퍼런스에서 나온 HBM의 슬라이드입니다. 대역 당 전력 사용량을 크게 줄일 수 있다는 것도 HBM의 매력입니다.

 

60.jpg

 

 

메모리 인터페이스 폭을 크게 확장할 수 있는 TSV 스택 DRAM

 

TSV를 사용한 스택 DRAM의 가장 큰 장점은 메모리 인터페이스폭을 크게 확장할 수 있다는 것입니다. 기존의 DRAM은 최대 16비트나 32비트 폭의 인터페이스인데 비해, TSV 스택 DRAM은 인터페이스 폭을 16~64배인 512~1024비트로 넓힙니다. 일반적인 패키지에서 이만큼 넓은 인터페이스를 실현할 수 없지만, DRAM의 다이를 겹쳐 2개 다이 사이를 작은 마이크로 범프로 연결하면 넓은 인터페이스 폭을 실현할 수 있습니다.

 

61.jpg

 

그래서 TSV를 써서 칩의 다이를 직접 적층할 필요가 있습니다. 반도체 칩은 일반적으로 한쪽 면에만 접속 범프를 배치할 수 있어 직접 적층을 할 수 없습니다. 그러나 TSV는 다이 뒷면까지 배선을 연결해 양면에 범프를 배치해 직접 적층할 수 있습니다. 다이를 직접 적층해 배선 길이를 극단적으로 짧게 만들 수 있다는 점도 TSV에 의한 스택 DRAM의 장점입니다.

 

62.jpg

 

3D 다이 스택의 주요 기술

 

63.jpg

 

3D 기술

 

TSV를 사용한 스택 DRAM에는 3D 적층으로 불리는 GPU나 CPU의 로직 칩 위에 DRAM을 직접 스택하는 솔루션이 있습니다. 또 마이크론이 제안한 Hybrid Memory Cube(HMC)처럼 최하층에 인터페이스 로직 칩을 배치하는 것도 있습니다. 그러나 볼타가 쓰는 건 일반적으로 2.5D라 불리는 실리콘 인터포저를 거쳐 연결하는 솔루션으로 보입니다.

 

2.5D는 TSV를 써서 로직 칩에 DRAM을 3D 스택하는 것이 아니라, TSV를 사용한 실리콘 인터포저를 거쳐 로직 칩과 DRAM을 연결합니다. TSV 실리콘 인터포저는 프론트엔드의 트랜지스터층이 없는 실리콘 칩으로, TSV에 의한 배선입니다. 아래 그림처럼 TSV에 의해 배선이 된 것으로, 인터포저에 CPU와 GPU 등의 로직 칩과 DRAM을 넣습니다.

 

64.jpg

 

스택 DRAM 기술

 

65.jpg

 

왼쪽이 TSV 실리콘 인터포저를 사용한 솔루션. 오른쪽이 3D 스택

 

로직 칩과 DRAM은 양쪽 모두 인터포저와 마이크로 범프로 연결됩니다. DRAM의 용량을 높이는 경우엔 DRAM을 TSV로 적층합니다. 인터포저 자체는 일반적인 범프로 PCB와 바로 연결됩니다.

 

3D 솔루션은 DRAM 다이와 로직 칩의 다이를 직접 연결하기 위한 궁극의 솔루션입니다. 그러나 3D 스택 솔루션엔 어려움도 있습니다. 우선 로직 칩에도 TSV의 구멍을 뚫지 않으면 안됩니다. 최첨단 고속 로직 프로세스에 TSV를 쓰는 건 현재 상태에선 어렵습니다. 발열의 문제도 있습니다. 발열이 큰 GPU에 DRAM을 넣는 건 열에 약한 DRAM에 있어 약점이 됩니다. 실제 실리콘은 열 전도성이 좋으니 쿨링을 신속히 할 수 있으면 고성능 로직 칩에 DRAM을 스택하는 것도 가능하지만, 쿨링 솔루션의 가격을 생각하면 어렵습니다.

 

3D 적층의 경우 로직 칩에 들어가는 다이의 수가 한정되니 용량의 제약이 생깁니다. GPU 칩 위에 적층 가능한 수의 DRAM만 쓸 수 있습니다. 예를 들어 4Gbit 4다이라면 2GB, 8다이라면 4GB만 달 수 있는 것입니다. DRAM 용량의 제약을 해결하기 위해선 스택 DRAM과는 별도로 기존 기판에 DRAM을 배치하는 2개의 인터페이스를 갖춰 용량을 늘리는 방법밖에 없습니다.

 

66.jpg

 

3D 칩 스택을 사용한 CPU와 메모리의 구성

 

또 패키징에선 다이 크기가 다양한 GPU 위에 DRAM을 스택하는 건 여러가지로 성가십니다. 물리적으로는 다이 크기가 같은 다이끼리가 기술적으로 스택하기가 쉬우며, 다이 크기가 다르면 난이도가 늘어납니다.

 

 

고성능 프로세서로 가는 2.5D 솔루션

 

3D 솔루션에는 이런 제약이 있어, 중간 단계나 고속 로직 칩 전용의 해답으로 2.5D 솔루션이 뜨게 됩니다. 볼테가 쓰는 2.5D의 경우 GPU에는 TSV를 쓸 필요가 없어, 대응이 훨씬 간단해집니다. 아래 슬라이드는 그레이가 3D 스택, 블루가 2.5D 인터포저, 그린이 일반적인 보드의 배선인데, 이 배선 차이를 보면 인터포저를 써도 TSV의 장점 대부분을 누릴 수 있다는 것을 알 수 있습니다.

 

67.jpg

 

우선 대역과 관련된 커넥션 수를 나타내는 왼쪽의 그래프를 보면 3D외 2.5D의 버스 폭이 같습니다. 전력을 나타내는 오른쪽의 그래프에선 3D가 2.5D보다 뛰어나지만 보드의 배선보다는 훨씬 낮습니다. 그 때문에 2.5D는 매우 넓은 폭의 인터페이스에 소비 전력을 줄이면서 초 광대역 메모리 접속을 실현할 수 있습니다. TSV 인터포저는 돈이 들어가지만 TSV 인터포저는 실리콘 칩이라 해도 프론트엔드의 프로세싱이 필요 없고, 구형 공정 기술을 쓸 수 있어 제조 원가를 줄일 수 있습니다.

 

2.5D는 GPU에 TSV 구멍을 뚫을 필요가 없고, GPU와 DRAM을 따로 냉각할 수 잇어 발열 문제도 없습니다. 또 GPU의 회전에 스택 DRAM을 배치하면 대용량 메모리를 지원할 수 있습니다. 볼타의 개념에서 나온대로 6개의 스택을 배치하면 각각 4장의 다이를 넣어 총 24개의 DRAM 다이를 GPU 패키지에 넣을 수 있습니다. 4GBit 칩을 24 다이 넣으면 12GB고, 8Gbit면 24GB가 됩니다. 그 때문에 2.5D 솔루션이라면 HPC나 서버에서도 스택 DRAM만으로 필요한 용량을 탑재할 수 있습니다. 2.5D는 HPC에서 필요로 하는 대용량 메모리도 실현할 수 있습니다.

 

 

JEDEC의 TSV 스택 DRAM 규격 HBM

 

스택 DRAM의 경우 JEDEC의 JC42.3에서 HBM(High Bandwidth Memory)라 불리는 메모리 규격이 책정되어 있습니다. 아래는 작년 5월에서 JEDEC이 HBM의 규격화를 설명한 것입니다. 오른쪽 위의 2개가 비 모바일 전용인 스택 메모리 HBM입니다. HBM에는 1Tbps 클래스와 2Tbps클래스의 두가지 스펙이 있습니다. 실은 이후 스펙이 바뀌면서 그림에선 1Tbps의 HBM이 512비트 인터페이스로 2133Mtps의 전송율이 나오지만, 지금은 1024비트 인터페이스가 됩니다. 이후 스펙이 또 바뀔 가능성이 있으니 마지막엔 어떻게 될지 모릅니다.

 

68.jpg

 

JEDEC은 TSV 스택 DRAM에서 모바일 전용으로 Wide I/O와 Wide I/O 2를 규격화하고 있습니다. 그러나 Wide I/O 계열은 모바일 전용으로 소비 전력에 초점을 맞춘 규격이며, 이 외에 고성능 전용의 스택 메모리 규격화가 시작되었습니다. Wide I/O 계열은 128비트 인터페이스를 4채널 배열한 512비트 인터페이스입니다.

 

69.jpg

 

JEDEC 모바일 메모리의 대역폭

 

70.jpg

 

71.jpg

 

72.jpg

 

위는 Wide I/O의 개념도로 512비트 인터페이스를 4채널로 나눠 메모리 엑세스의 크기를 작게 유지하고 있습니다. HBM은 128비트를8개 늘어놓아 1024비트 인터페이스가 된다고 보입니다. 채널을 어떻게 구성해서 제어하는지는 아직 모릅니다.

 

HBM 계열이 Wide I/O 계열과 크게 다른 건 처음부터 TSV 인터포저에 의한 2.5D 스택을 염두에 두고 스팩을 만들었다는 것입니다. HBM이 목표로 하는 고성능 프로세서는 전력 소비가 크기 때문에 로직 칩에 DRAM의 적층은 당초에 어렵다고 생각한 일입니다. 업계의 움직임은 활발하며 실제 실리콘 설계도 시작됐다고 합니다.

 

현재 GDDR5는 고속화의 한계에 가까워져 그래픽 메모리의 발전을 장담할 수 없으니, HBM의 개발은 서둘러야 하는 분위기입니다. 그러나 HBM은 처음부터 그래픽 이외의 용도도 전망하고 있습니다. GDDR 계열 메모리는 그래픽 용도를 주체로 규격화된 것이 HPC에서도 쓰게 된 것입니다. 그러나 HBM은 HPC나 서버를 포함한 넓은 용도를 전제로 하고 있습니다. NVIDIA에게 있어서는 HPC나 그래픽 어느 쪽에서도 쓸 수 있는 매력적인 DRAM 규격입니다.

 

73.jpg

 

 

폭넓은 대역의 메모리를 탑재할 수 있는 HBM

 

NVIDIA 볼타가 사용하는 스택 DRAM이 HBM 방식을 쓸지는 아직 분명하지 않습니다. 그러나 HBM이라 가정하면 볼타의 메모리 인터페이스 스펙에 대해 어느 정도의 예상이 가능합니다. 1Tbps의 HBM을 볼타가 사용한다면 1TB/sec의 대역을 실현하려면 최악의 경우에도 8개의 HBM이 필요합니다. 인터페이스 폭은 각각의 HBM이 1024비트, GPU 쪽에는 8192비트가 됩니다. 패드만 해도 상당한 면적을 차지할 것 같지만, 마이크로 범프니까 면적을 차지하는 건 큰 문제가 아닙니다. 원래 기존의 GPU에서도 GDDR5 DRAM 인터페이스에 상당한 면적을 쓰고 있었습니다. 하지만 8천 비트 이상의 인터페이스는 상당한 부담이기 때문에, 인터페이스 폭이 반으로 줄어드는 2Tbps의 HBM을 쓸 가능성이 없진 않습니다.

 

HBM은 원래대로라면 최대 4개 다이의 스택을 한 경우부터 시작할 것으로 예측됐습니다. 4 다이 스택과 8 다이 스택의 2가지로 말이지요. 볼타의 경우 만약 1Tbps의 HBM이라면 8개의 스택이 필요하고, 최대 4다이/스택이라면 32개 까지의 DRAM 다이를 쓸 수 있습니다. DRAM 용량이4Gbit부터 시작한다고 하면 볼타는 16GB의 메모리를 쓸 수 있습니다. 8Gbit로 8다이라면 64GB입니다. 물론 그래픽 전용 구성은 훨씬 작아지며, 각각의 HBM이 스택하지 않는다면 4Gbit 4GB 구성입니다.

 

계산에서 나온대로 HBM은 DRAM의 메모리 버스를 넓게 구성할 수 있습니다. 메모리 인터페이스를 유지하면서 그래픽용 소용량 구성부터 HPC용 대용량 구성까지 모두 가능합니다. 이것은 P2P 접속의 GDDR5에선 볼 수 없는 장점입니다. 현재의 HPC용 GPU는 GDDR5의 제약으로 메모리 용량에 제약이 있지만 이것이 완화됩니다.

 

이렇게 보면 볼타 세대에선 메모리 액세스가 바뀌면서 GPU가 크게 바뀜을 알 수 있습니다. GPU의 새로운 전환점이 될 것입니다.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.