인텔은 11월 12일, 미국 캘리포니아주 샌프란시스코에서 AI Summit 2019이라는 이벤트를 열어 인텔의 AI 관련 솔루션을 발표했습니다.
코드네임 스프링 크리스트, NNP-T1000과 코드네임 스프링 힐, NNP-I1000이라는딥 러닝 가속기 2개의 샘플 제공, 2020년 상반기에 출시 예정인 딥 러닝/추론 칩인 Kemm Bay, 2020년 상반기에 출시할 차세대 제온 쿠퍼레이크의 Bfloat16 명령어 데모를 시연했습니다.
인텔 부사장 겸 AI 제품 사업 본부 사업 본부장 나빈 라오. 인텔은 3년 전에 너바나를, 이후에 모비두스를 인수해 AI 포트폴리오를 확충했습니다.
그 결과 AI 관련 매출 35억 달러를 달성했습니다.
인텔은 다양한 제품군과 다양한 시장을 공략합니다. AI에서 하나의 제품으로 모든 것을 커버할 순 없습니다.
인텔의 AI 제품군. 저마다 필요한 역할에 따라 다양한 솔루션이 필요합니다. 제온과 코어 프로세서 외에도 앞으로 출시할 GPU, FPGA, 가속 장치가 있습니다.
제온의 AI 지원. 제온 스케일러블 프로세서는 2세대 제온 SP(캐스케이드 레이크-AP)에서 DL 부스트라는 추론 처리용 INT8 기반 명령어를 도입해 성능을 높였습니다.
PC에서도 엣지 AI 구현을 시작. 코어 i3에서 딥 러닝의 학습/추론 처리를 했는데 라이젠 7 3700U보다 4.3배 더 높은 성능을 냈다고 합니다. 그런데 그래프를 보니 코어 i3는 CPU랑 내장 그래픽을 묶어서 한거고, 라이젠은 모바일 버전이군요.
오픈소스 개발. 인텔은 소프트웨어 개발 부서에서 수천면의 엔지니어가 근무, 데이터 과학자나 AI 기업이 특별한 지식 없이도 AI 소프트웨어를 다룰 수 있다고 말합니다.
AI 수요의 증가. 인텔은 CPU와 FPGA처럼 다른 종류의 솔루션을 제공하고, 새로운 인터커넥트나 네트워크, 옵테인 DC 퍼시스턴트 메모리처럼 새로운 메모리 계층까지 시스템 전체의 연산 성능을 높일 솔루션을 추가해 나가고 있습니다.
쿠퍼레이크 기반 제온 SP는 Bfloat16 명열어를 지원합니다. 추론/학습에 사용하는 16비트 데이터를 FP32로 처리해, 추론 뿐만 아니라 학습 성능도 크게 향상됩니다. Bfloat16을 사용해 16비트 데이터를 2개로 묶어 연산하니 FP32와 거의 같은 정밀도를 빠르게 처리할 수 있었습니다. 쿠퍼레이크는 2020년 상반기에 출시될 예정.
인텔 IoT 사업부 부사장 조나단 바론.
엣지 컴퓨팅의 중요성을 갈수록 높아지고 있씁니다. IoT에서 데이터가 폭발적으로 증가하고 있으며, 데이터 처리 지연을 줄이기 위해서라도 엣지 디바이스에서 처리할 필요가 있습니다.
인텔은 OpenVINO라는 개발 키트를 제공 중입니다.
엣지 컴퓨팅을 위한 Movidius Keem Bay가 2020년 상반기에 나올 예정.
실물.
딥 러닝의 추론 처리를 위한 칩으로 이미지 인식 등에서 활용합니다. 탑재 메모리가 64비트, 처리량은 기존의 Myriad X에서 10배로 늘어납니다. NVIDIA 젯슨 TX2의 파커 칩과 비교하면 순수 추론 성능은 4배, 전력 사용량 당 추론 성능은 TX2의 6.2배, NVIDIA 자비에르와 비교하면 같은 성능에서 전력 사용량이 1/5입니다.
추론을 위한 다양한 제품 중 무엇을 선택할지 정하기 어려운 개발자들을 위해 Dev Cloud for the Edge를 제공. 클라우드에서 실행하는 벤치마크로서, 이걸 보고 필요한 제품을 고르면 됩니다. 이 서비스는 무료.
AI 개발자가 되고 싶은 학생들을 위해 Udacity와 함께 온라인 교육 과정 제공. 여성 엔지니어를 위한 장학금 제공.
NNP-I1000의 M.2 폼펙터 모듈입니다. 앞쪽은 방열판.
AI의 복잡도가 높아지면서 더 많은 처리 성능이 필요해지고 있습니다.
점점 더 늘어나는 처리 성능의 수요.
AI가 갈수록 복잡해지는 게 그 이유입니다. 3.5개월마다 2배의 연산 성능이 필요할 정도이며, 인식하는 이미지 데이터도 개/고양이의 구분으로 시작해 지금은 더 복잡한 이미지가 들어갑니다.
그래서 나온 AI 가속 장치 NNP-I1000.
최대한의 연산 성능을 제공합니다.
M.2 뿐만 아니라 E1.L 폼펙터로도 제공.
인텔 너바나 NNP-I. 금속 덩어리가 아니라-
AI 모듈입니다. 커넥터가 보이시죠.
1U 크기의 랙에 2개의 아이스레이크 프로세서와 12개의 ICE(Inference Compute Engines), 23대의 NNP-I1000이 들어갑니다. 제품마다 다르지만 소비 전력은 10~15W, 데이터센터를 위한 M.2 폼펙터로 제공합니다.
NVIDIA의 T4 GPU를 20개 넣은 4U 랙과, NNP-I1000을 32개 넣은 1U 랙인 ResNet-50의 추론 성능을 비교하면 랙 당 처리 성능이 3.7배 높습니다.
소프트웨어 환경도 개선 중.
페이스북의 AI 부장이 나와 NNP-I의 활용 사례를 설명했습니다. 사진 업로드 시 자동으로 붙는 태그, 자동 번역, 스팸 발견에도 AI를 활용 중. 인텔과 2년 넘게 프로젝트를 진행해 왔습니다.
스프링 캐스트, NNP-T1000.
업계 최고 수준의 확장성을 지녔다고 합니다. 이용률은 최대 95%, 8개에서 32개의 스케일 가능.
NNP-T1000을 탑재한 서버. 1개의 서버 케이스에 8개의 칩이 들어갑니다.
PCIe 확장 카드 형태.
케이스를 씌운 사진.
8개에서 32개로 확장에도 문제가 없습니다.
NVIDIA는 NVSwitch라는 NVLink 스위치 칩을 사용해 16개의 테슬라 V100을 연결한 DGX-2를 내놓았습니다. 스위치 칩이 없으면 연결이 안됩니다. 하지만 인텔은 처음부터 많은 수의 칩을 쓰도록 설계했기에 32개까지 연결 가능합니다.
1개의 랙에 NNP-T1000을 8개 탑재, 1개의 케이스에 랙 6개, 10개의 랙을 합쳐서 480개의 NNP-T1000을 구성한 딥 러닝 전용 컴퓨터.
바이두의 AI 연구 펠로우인 케니스 처치.
인텔 솔루션을 바이두의 AI 처리에 활용하고 있습니다.
간단한 변인 통제 조차도 안했군요
이런경우 단 3가지죠 뭔 벤치 돌렸는지 모르겠는데 암드가 베가모바일에 반정밀도 및 8비트 정수 연산 삭제되었거나 해당벤치가 지원을 안하는거나 아님 너무 압도적으로 눌려서 빼버렸거나