1.jpg

 

파스칼 아키텍처 기반의 테슬라 P100

 

NVIDIA는 캘리포니아주 산호세 컨벤션 센터에서 GTC (Gpu Technology Conference)를 열었습니다. 여기에선 코드네임 파스칼 기반의 HPC (High Performance Computing) GPU인 테슬라 P100이 발표됐네요.

 

또 지금 당장은 HPC용 테슬라 시리즈지만 파스칼 아키텍처 기반의 지포스를 내놓을 것으로 보이며, 파스칼에 대한 설명도 했습니다.

 

 

60SM, 3840 CUDA 코어의 GP100. 테슬라 P100은 56SM에 3584 CUDA 코어를 사용

 

파스칼의 첫번째 다이인 GP100은 SM(Streaming Multiprocessor)의 수가 60개로 1개의 SM에 64개의 CUDA 코어가 들어가니 총 3840개의 CUDA 코어가 들어갑니다.

 

2.jpg

 

그러나 테슬라 P100은 모든 SM이 활성화되는 건 아닙니다. 4개의 SM을 막아 56개의 SM, 총 3584개의 CUDA 코어입니다. HBM(High Bandwidth Memory) 2 메모리를 16GB 장착, 메모리 컨트롤러는 512비트 8개로 총 4096비트에 720GB/s의 대역폭을 제공합니다.

 

3.jpg

 

테슬라 P100과 기존 세대의 테슬라 K40/테슬라 K100과의 비교.

 

4.jpg

 

테슬라 P100의 성능. NVLink로 멀티 GPU 확장 시 성능 감소가 적습니다.

 

5.jpg

 

파스칼의 블럭 다이어그램

 

6.jpg

 

기존의 테슬라와 새 테슬라의 스펙 비교.

 

7.jpg

 

GP100의 SM. 각각의 SM에 64개의 CUDA 코어, 256KB의 레지스터 파일, 64KB 공유 메모리가 들어갑니다.

 

8.jpg

 

GP100의 SM과 기존 세대의 비교. 맥스웰에 비해 2배의 레지스터 파일, 1.33배의 공유 메모리 용량, 2배의 공유 메모리 대역폭, 2배의 Warps가 있으며 명령 실행 시 처리량을 향상시킬 수 있습니다.

 

9.jpg

 

각 세대간 GPU의 비교. 배정밀도(FP64) 5.3TFLOPS, 단정밀도(FP32) 10.6TFLOPS, 반정밀도(FP16)일 때 21.1TFLOPS의 성능을 냅니다. 맥스웰 기반 테슬라 M40의 3배지요.

 

10.jpg

 

기존에는 지원하지 않았던(정확하게는 일정 클럭 사이클마다 한개씩만 처리 가능했던) 반정밀도 FP16 부동소수점 연산을 1클럭 사이클마다 2개씩 처리할 수 있게 되면서 성능도 향상했습니다.

 

 

4개의 NVLink를 내장, GPU 클러스터 구성은 160GB/s의 대역폭을 제공

 

11.jpg

 

GP100은 GPU와 GPU, GPU와 CPU를 연결하는 전용 인터커넥트인 NVLink를 지원합니다. 4개의 NVLink로 40GB/s의 양방향 통신을 지원합니다.

 

12.jpg

 

각각의 GPU를 연결해 클러스터 구성하며 이 경우 양방향 160GB/s의 연결이 됩니다. 인텔 CPU처럼 NVLink를 지원하지 않는 CPU는 PCI-E 스위치를 통해 연결하는 구조입니다.

 

13.jpg

 

IBM의 POWER8처럼 NVLink를 지원하는 CPU와 연결하면 4개 중 3개를 GPU 클러스터에 연결해 120GB/s, 40GB/s는 CPU와 연결에 씁니다.

 

14.jpg

 

또 NVLink를 이용해 기판에 연결하는 커넥터의 사진도 공개됐습니다.

 

 

CUDA8과 함께 공유 메모리를 도입. GPU 메모리 이상의 용량을 처리 가능

 

15.jpg

 

GP100의 또 다른 특징은 메모리 구조가 바뀐 것입니다. GP100은 HBM2 메모리를 사용합니다. HBM은 AMD GPU에서 가장 먼저 도입했으나 파스칼은 HBM2를 썼네요. HBM은 기존 메모리에 비해 대역폭이 넓다는 게 특징으로 720GB/s의 대역폭을 제공합니다.

 

16.jpg

 

또 GP100은 페이지 마이그레이션 엔진을 탑재해, 가상 메모리의 페이징을 지원합니다. 49비트 가상 주소로 48비트 CPU 어드레스와 모든 GPU 메모리를 커버합니다.

 

17.jpg

 

CPU와 GPU가 공통된 메모리 어드레스 스페이스를 사용할 경우 기존의 케플러와 CUDA6 프로그래밍 모델은 GPU 메모리 크기까지만 할당했습니다.

 

18.jpg

 

반면 파스칼과 6월에 도입 예정인 CUDA8을 이용하면 GPU의 메모리 크리를 넘어서 할당 가능한 것이 특징입니다.

 

19.jpg

 

그 외에도 새로운 명령어 셋트와 L2 캐시 등도 테슬라 P100에 도입한 파스칼 아키텍처의 특징입니다.

 

20.jpg

  

아래는 GTC 2016의 기조 강연 내용입니다. 딥 러닝을 주로 어필했네요.

 

 

게임웍스, VR웍스, 드라이브넷을 NVIDIA SDK로 제공

 

21.jpg

 

NVIDIA CEO 젠슨 황

 

22.jpg

 

GTC 참가자는 2012년에 비해 2배, CUDA 프로그래머는 4배가 됐습니다.

 

23.jpg

 

개발 키트, VR, 딥 러닝에 적합한 새로운 GPU, 딥 러닝을 위한 서버, 딥 러닝을 이용한 AI/자동 운전이란 주제를 가지고 강연했습니다. GTC는 GPU 컴퓨팅을 설명하는 이벤트니, GPU를 이용해 어떻게 세상을 바꿔 나가는지 설명할 거라네요. GPU 컴퓨팅이 컴퓨팅의 새로운 모델이 된다는 게 NVIDIA의 입장입니다.

 

24.jpg

 

NVIDIA SDK라 이름을 붙인 여러 SDK로 구성된 개발 키트를 제공해 나갈 것이라고 설명했습니다.

 

25.jpg

 

사진 수준의 게임을 실현하는 디자인웍스.

 

26.jpg

 

게임 개발자가 실시간 렌더링의 게임을 개발하는 데 이용하는 게임웍스.

 

27.jpg

 

1월의 CES에서 발표되는 VR 개발자를 공략하는 키트인 VR웍스.

 

28.jpg

 

자동차용 개발은 드라이브웍스. 이미 JPL이 제공돼 EAP 한정으로 이번 분기에 출시되며 공식 출시는 내년 1월입니다.

 

29.jpg

 

JETSON TX1을 위한 개발인 제트팩. 5월에 제공됩니다.

 

이 외에도 또 새로운 버전이 제공될 컴퓨트웍스가 있습니다. GPU 컴퓨팅의 기본 개발 언어인 CUDA와 이를 사용한 딥 러닝 개발 환경인 cuDNN 등이 포함되는데, 최신 버전이 2분기부터 제공됩니다. CUDA의 최신 버전인 CUDA8이 6월에, cuDNN의 최신 버전인 cuDNN5가 4월에, nvGRAPH가 6월, IndeX plug-in for ParaView가 5월에 제공됩니다.

 

 

VR은 가젯 뿐만 아니라 사업에도 사용 가능. Iray VR의 발표

 

30.jpg

 

다음 주제는 VR입니다. NVIDIA가 직접 VR HMD를 만드는 건 아니지만 다른 회사의 HMD를 지원하며 VR에 적극적인 자세를 취하고 있다네요. 단순한 기기가 아닌 새로운 컴퓨팅이라고 평가할 정도니까요. 마이크로소프트는 홀로렌즈에서 비즈니스용을 검토 중인데 앞으로 VR도 그런 방법이 일반적이 될 거라 합니다.

 

31.jpg

 

에베레스트 VR 데모입니다. 에베레스트 등반을 시뮬레이션하는 데모지요. 계곡에 떨어질것 같은 느낌을 주는 등 꽤 박진감 넘치는 데모.

 

32.jpg

 

고화질 사진을 3D 영상으로 만들어 GPU가 표시합니다. 눈의 움직임은 GPU가 물리 기반으로 재현해 사용자의 움직임에 따라 에베레스트의 모습이 달라집니다.

 

33.jpg

 

마르스 2030 데모입니다. 아무리 봐도 마션같네요.

 

34.jpg

 

화성을 탐험하는 VR 데모로 GTC에서 실제 체험이 가능했습니다.

 

35.jpg

 

마르스 2030.

 

36.jpg

 

각종 데모.

 

37.jpg

 

VR의 새로운 방법으론 Iray VR을 발표했습니다. 사진 품질의 실시간 데모를 만들기 위한 렌더링 솔루션으로, VR에 적용해 제품 개발 솔루션으로 쓰는 게 특징입니다. 여기에선 자동차 개발을 염두에 두고 있네요.

 

38.jpg

 

Iray VR 라이트는 안드로이드 뷰어도 제공하기에 일반 사용자도 Iray VR로 만든 컨텐츠를 볼 수 있게 됩니다.

 

39.jpg

 

프로토타입 설계를 사진 수준으로 렌더링하는 게 Iray, 이를 VR에서 보는 것이 iray VR 되겠습니다.

 

40.jpg

 

현재 건설중인 NVIDIA의 신사옥을 Iray VR로 렌더링하는 중.

 

 

AI와 딥 러닝 개발을 가속화하기 위해 파스칼 기반의 테슬라 P100을 출시

 

41.jpg

 

다음은 딥 러닝과 AI입니다. 지난 1년 동안 커다란 발전이 있었던 분야지요. 구글, 마이크로소프트, 바이두 등에서 다양한 성과를 냈고, 알파고를 예로 들기도 했네요.

 

42.jpg

 

딥 러닝은 새로운 컴퓨팅 모델입니다. 지금까지와는 완전히 다른 접근이나 분명한 장점이 있습니다.

 

43.jpg

 

더욱 현대적인 AI를 딥 러닝을 통해 만들 수 있습니다.

 

44.jpg

 

AI 관련 사업이 확대되면서 앞으로 10년 동안 5천억 달러의 시장 규모를 지닐 것으로 보고 있습니다.   

 

45.jpg

 

딥 러닝에 필요한 컴퓨팅 환경은 GPU 컴퓨팅이라는 게 NVIDIA의 주장입니다. 현재 GPU는 CPU보다 빨라도 충분하지 않으며 더 빠른 연산 환경이 필요하다네요. 이러한 하이퍼 스케일 컴퓨팅에 NVIDIA GPU가 쓰입니다. 

 

46.jpg

 

이건 기존의 테슬라 M4와 테슬라 M40.

 

47.jpg

 

페이스북의 딥 러닝 연구.

 

48.jpg

 

새로운 하이퍼스케일 데이터센터용 GPU로 테슬라 P100을 발표했습니다.

 

49.jpg

 

테슬라 P100에 대해선 위에서 설명했으니까 생략합니다.

 

50.jpg

 

P100은 이미 대량 생산을 시작했으며 IBM, HP, 델, 크레이 등에서 이를 탑재한 제품을 내년 1분기에 출시합니다.

 

51.jpg

 

그럼 내년까지 안 나오느냐. 그건 아니고 NVIDIA DGX-1 랙 마운트 서버는 올 6월부터 나옵니다.

 

52.jpg

 

DGX-1의 내부 구조.

 

53.jpg

 

DGX-1의 샘플

 

54.jpg

 

P100을 8개 탑재했는데 이게 듀얼 제온 서버 250대 수준이라고 하네요.

 

55.jpg

 

맥스웰 4개를 쓴 기존 시스템과 비교하면 12배 빠릅니다.

 

56.jpg

 

DGX-1을 사용한 바이두의 연구.

 

57.jpg

 

구글의 연구.

 

58.jpg

 

가격은 129,000달러.

 

59.jpg

 

딥 러닝은 의료 분야에도 응용이 진행되고 있습니다.

 

60.jpg

 

테슬라 패밀리.

 

 

포뮬러 E의 로보레이스, NVIDIA의 DRIVE PX2 기반

 

61.jpg

 

NVIDIA는 자동차용 솔루션도 주력하고 있지요. 자동 운전과 자율 운전도 작년에 크게 발전한 기술입니다.

 

62.jpg

 

자동 운전에는 이러한 기술이 필요합니다.

 

63.jpg

 

NVIDIA는 하드웨어인 드라이브 PX, 소프트웨어 개발 키트인 드라이브넷을 내놓은 바 있습니다.

 

64.jpg

 

로보레이스 자율 운전 경기에 쓰이는 컴퓨터가 바로 드라이브 PX2입니다. 드라이브웍스로 소프트웨어를 개발합니다.

 

65.jpg

 

올 1월에 발표된 드라이브PX2.

 

66.jpg

 

2개의 테그라와 2개의 지포스를 사용했습니다.

 

67.jpg

 

HD 지도 연구도 계속 진행 중.

 

68.jpg

 

참가한 회사들.

기글하드웨어(http://gigglehd.com/zbxe)에 올라온 모든 뉴스와 정보 글은 다른 곳으로 퍼가실 때 작성자의 허락을 받아야 합니다. 번역한 뉴스와 정보 글을 작성자 동의 없이 무단 전재와 무단 수정하는 행위를 금지합니다.