Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...09085.html

대용량 메모리 학습에 최적화된 Zion 플랫폼

 

01_o.png

 

페이스북의 딥 러닝 권장 모델

 

페이스북은 차세대 AI 딥 러닝 플랫폼 인 시온(Zion) 프로젝트를 발표했습니다. 가장 큰 특징은 CPU같은 딥 러닝 가속장치를 모듈화해, 시스템 구성이 유연하고 모듈 교체가 가능하다는 점입니다. 표준화 된 모듈로 프로세서 공급 업체의 의존도를 줄여 제조사 선택이 보다 쉬워지며, 모듈이 자유도를 가져 가속기 각각의 인터커넥트를 통해 상호 연결이 가능합니다.

 

페이스북의 Technical Lead인 Misha Smelyanskiy는 8월에 미국 스탠포드에서 열린 칩 컨퍼런스 Hot Chips 31에서 소프트웨어와 하드웨어 파트너 업체 사이에 공동 작업을 통해, 큰 변화를 이룬 시온 시스템을 개발했다고 설명했습니다. 시온은 컴퓨팅 뿐만 아니라 메모리 용량과 대역폭이 필요한 모델에 대응하는 딥 러닝 시스템을 만들어 냈습니다.

 

02_o.png

 

더 커진 학습 테이블

 

03_o.png

 

04_o.png

 

all-reduce와 all-to-all의 두 가지 통신 패턴

 

이 방법을 실현하려면 큰 메모리가 필요합니다. 페이스북은 대용량 DDR 메모리에 광대역 HBM을 조합해 가속합니다. 이로서 큰 용량과 넓은 대역폭을 동시에 만족시키겠다는게 페이스북의 목표입니다.

 

 

bfloat16 부동 소수점 포맷 사용
 

05_o.png

 

시온의 하드웨어는 bfloat16(Brain Floating Point 16) 데이터 수치 포맷을 지원합니다. CPU와 가속기 모두요다. bfloat16은신경망에 사용하는 걸 전제로 깔고 나온 새로운 부동 소수점 포맷입니다. 기존의 IEEE 754 부동 소수점은 FP32 (32-bit 단정밀도 부동 소수)가 부호 부분 (Sign) 1-bit, 지수 부분 (Exponent) 8-bit, 거짓수 부분 (Mantissa) 23-bit로 구성됐습니다. FP16 (16-bit 반 정밀도 부동 소수점)는 부호 부분 1-bit, 지수 부분 5-bit, 가수 부분 10-bit입니다. 반면 bfloat16는 부호 부분 1-bit, 지수 부분 8-bit, 거짓수 부분 7-bit입니다. FP32과 지수 부분이 같습니다. 참고로 거짓수 부분은 실제로 1비트 정도가 더 추가됩니다. bfloat16은 7비트라 표기하지만 실제로는 8비트 정확도를 가집니다.

 

06_o.png

 

부동 소수점 숫자의 지수는 기수의 제곱을 나타내는 부분으로, 지수가 클수록 표현할 수 있는 값의 동적 범위가 넓어집니다. 신경망은 데이터 정확도는 낮아도 되지만 넓은 범위가 필요합니다. 따라서 지수를 확장한 새로운 수치 포맷이 나왔습니다. bfloat16은 FP32과 같은 다이나믹 레인지(1e-38 ~ 3e38)에 7-bit (실제로는 8-bit 상당)의 작은 거짓수가 오가는 구조입니다. 

 

구글이 bfloat16을 TPU에 채용하면서 화제가 됐는데, 페이스북도 이를 전면 도입합니다. 시온은 CPU와 가속기 모두 bfloat16을 지원하는 넓은 호환성을 갖췄습니다. 페이스북은 CPU와 딥 러닝 가속 장치를 모두 도입하는데, 시온에 나와있는 조건을 보면 2020년 상반기까지 인텔 쿠퍼레이크를 도입합니다. 인텔은 페이스북의 모듈 규격에 맞춰 딥 러닝 가속장치 NNP T (Spring Crest)도 발표했는데 역시 bfloat16을 지원합니다. 따라서 페이스북 시온은 쿠퍼레이크와 스프링 크레스트의 조합일 가능성이 높지만, 아직 구체적인 이름은 나오지 않았습니다.

 

 

1년에 3배씩 늘어나는 머신 러닝의 워크로드

 

07_o.png


페이스북은 머신 러닝의 데이터 용량과 컴퓨팅 용량이 1년에 3배씩 증가하고 있기에,

 

08_o.png

 

머신 러닝의 파이프 라인을 계속해서 강화해 나가야 한다고 설명합니다.

09_o.png

 

페이스북의 머신 러닝 목적은 순위와 사용자 추천 사진/영상의 인식 처리, 번역과 내용 파악 등입니다. 

 

10_o.png

 

페이스북은 머신 러닝의 파이프라인 스토리지 서버에 Bryce Canyon, 딥 러닝에는 NVIDIA 테슬라 P100/V100를 8개 탑재하는 Big Basin과 인텔 스카이레이크 2소켓 서버인 Tioga Pass, 추론에는 인텔 제온 D-2100 서버 Twin Lakes에 가속기 카드 모듈 Glacier Point를 조합한 Yosemite V2를 사용합니다. 모두 국립 공원과 자연 풍경에서 따온 이름입니다.

 

12_o.png

 

NVIDIA Big Basin

 

13_o.png

 

학습에는 2 소켓 서버 CPU인 Tioga Pass

 

14_o.png

 

추론 시스템 Yosemite V2. 모듈러 구성

 

15_o.png

 

Yosemite에 내장된 Twin Lakes

 


CPU와 가속기를 모듈화 

 

16_o.png


페이스북의 차세대 시스템, 시온은 학습 측의 성능을 크게 높인 8 CPU + 8 가속기 조합을 씁니다.

 

17_o.png

 

시온은 CPU와 가속기 칩의 숫자를 똑같이 맞췄을 뿐만 아니라, CPU에서도 bfloat16을 지원하 학습 성능을 크게 높일 수 있었습니다.

 

18_o.png

 

OCP Accelerator Module (OAM)

 

19_o.png

 

CPU는 듀얼 소켓 메인보드 모듈 4장으로 구성됩니다. 메인보드는 CPU 패브릭으로 서로 연결되며 8소켓 시스템입니다. 가속기는 OCP Accelerator Module (OAM)를 8개를 쓰는 독립된 모듈입니다. 

 

20_o.png

 

CPU와 가속기는 패브릭으로 서로 연결됩니다.

 

21_o.png

 

CPU와 가속기 사이는 PCIe x16으로 연결되며, CPU는 NIC로 네트워크에 연결됩니다.

 

22_o.png

 

가속기 시스템은 4개의 PCIe 스위치 칩을 탑재, 각각의 스위치에 2개의 OAM 모듈이 PCIe x16에 연결됩니다. PCIe 스위치는 각각 2개의 CPU 메인보드가 모두 PCIe x16에 연결됩니다. PCIe 스위치도 PCIe x16으로 서로 연결합니다.

 

23_o.png

 

가속기는 패브릭을 통해 연결합니다. 저마다 다른 위상을 가진다는 건 해결해 나가야 할 과제입니다.

 


추론의 새로운 가속기

 

24_o.png


시온 시스템은 CPU에서 모든 작업을 처리, CPU가 임베디드 부분을 처리하고 가속기가 MLP를, 가속기가 대부분을 처리하는 방법이 있습니다. 다양한 방법을 지원한다는 점에서 소프트웨어적으로 유연합니다.

 

25_o.png

 

하드웨어는 8소켓 CPU에서 2소켓 모듈마다 스위치가 있습니다.

 

26_o.png

 

2개만 쓰고 6개는 해제하는 식으로 유연한 조합이 가능합니다.

 

27_o.png

 

추론 쪽도 시온에 맞춰 새로 업그레이드합니다. 추론에는 전용 가속장치를 사용하는데, 새로운 ASIC (Application Specific Integrated Circuit)인 킹스 캐년을 도입합니다. 추론 가속장치의 폼펙터는 M.2. 이런 소형 폼펙터를 사용하는 추세입니다.

 

 

GPU에서 딥 러닝 가속기로 향하는 페이스북

 

페이스북 시온은 대규모 데이터 센터에서 AI 시스템의 새로운 흐름을 보여줍니다. 딥 러닝 전용 가속기의 도입입니다. 페이스북은 2016년에 NVIDIA 테슬라 기반 Bigsur를 썼었고, 2017년에는 NVLink로 GPU를 연결하는 Big Basin을 도입했습니다. 2018년에는 Big Basin의 CPU를 텐서 코어 볼타 아키텍처 GPU로 교체했습니다. 하지만 시온은 신경망 전용 가속기로 대체합니다.

 

28_o.png

 

페이스북의 기존 시스템 Big Basin과 시온의 비교 

 

데이터 센터가 GPU를 쓰는 이유는 GPU가 범용 병렬 프로세서라서입니다. 그래픽 전용 ASIC였던 GPU가 프로그래머블 쉐이더 프로세서를 탑재한 후, 범용으로 나아가 지금은 CPU에 버금가는 범용 프로세서가 됐습니다. GPU는 병렬 처리에 적합한 딥 러닝, 특히 학습 문야에 강력해 지금까지의 학습 작업은 GPU에서 수행했습니다. 알고리즘의 변화에 ​​유연하게 대응할 수 있다는 게 GPU의 장점입니다.

 

그러나 딥 러닝 작업이 늘어나면서 더욱 높은 효율의 학습 성능을 필요로 하고 있습니다. 페이스북의 시온이 딥 러닝 가속 장치를 쓴 것도 이런 분위기를 보여주는 사례입니다. 물론 GPU도 이런 흐름에 대비하고 있습니다.

 

페이스북이 가속기를 OCP Accelerator Module (OAM)로 표준화하려는 건 하드웨어 변화에 유연하게 대응하기 위해서입니다. 지금은 가속기를 써도 나중에는 OAM 폼펙터 GPU를 쓸지도 모릅니다. 

 

 

  

 

 

 

 

 

 

 

 

 

 



  • ?
    달가락 2019.10.12 07:48
    궁금해서 좀 더 알아봤습니다. 19인치 표준 랙을 위해 만들어지는 폼팩터는 언제나 환영이죠.

    OAM의 핵심 스펙은 다음과 같습니다:

    * 입력전압은 12V, 48V 지원
    * 12V에서 350w, 48V에서 700w TDP 까지 커버
    * 크기는 102mm x 165mm
    * 8개의 PCIE x16 링크 (host + inter-module links)
    - 호스트-모듈간 링크는 1개 또는 2개의 x16 연결을 사용 가능
    - 모듈간 interconnect 링크는 최대 7개의 x16 연결을 사용가능
    * 공랭으로 450W, 수냉으로 700W를 지원할 것으로 예상
    * 시스템 관리 및 디버그 인터페이스 제공
    * 시스템 당 최대 8개의 OAM 모듈 사용 가능

    interconnect 장치/케이블, 세부 사진은 https://www.servethehome.com/facebook-zion-accelerator-platform-for-oam/ 를 참조하셔도 좋을 것 같습니다.

    아직까지 갈길이 멀긴 할테고, 저 같은 일반인 수준으로 저 장비가 내려올 일은 당분간... 아니 영원히 없겠지만요. 암튼, 개인적으로는 장착할 때 비싼 토크드라이버를 가지고 설치지 않아도 된다는 것만으로도 저 폼팩터는 우월하다고 생각합니다..;;
  • ?
    마라톤 2019.10.12 10:09
    좋은 정보 감사합니다. ^_^
  • profile
    글레이셔폭포      ¡! 2019.10.12 11:14
    쿠퍼레이크 제온을 쓰는 것 같네요. UPI면 제온이고 쿠퍼레이크가 bfloat16을 지원하니...

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. AMD 르누아르 APU, 6~8개 코어, 내년 1분기에 모바일 버전

    AMD는 라이젠에서 코어 수를 크게 늘렸으나, APU는 4코어에 머물러 있습니다. 하지만 르누아르(Renoir)에서는 달라질수도 있습니다. 6~8개로 말이죠. 르누아르는 젠 2 아키텍처, 즉 CCD에 I/O 조합의 MCM이며 코어 수가 6~8개로 늘어납니...
    Date2019.10.13 소식 By낄낄 Reply13 Views3559 file
    Read More
  2. 이정도면 CRT 초점 잘맞는건가요?

    19인치 CRT이고 해상도는 1600×1200입니다. 글씨는 8pt에요. 초점 잘맞는건가요? 아니면 픽셀수가 모자라서 흐린건가요?   그리고 전원끌때 찌지지지 소리는 원래 그런건가요?  
    Date2019.10.13 질문 By뚜까뚜까 Reply4 Views1445 file
    Read More
  3. 이렇게 선정리 어케 하는건가요?

      클램프라고 들었는데 24핀용으로 저렇게 긴건 못찾겠는데 아시는분 계세여?
    Date2019.10.12 질문 ByDewiAngel Reply3 Views1558 file
    Read More
  4. 윈도우10 작업관리자 CPU 속도표기 오류

          윈도우10 1809 입니다   화면처럼 작업관리자에서 ㅋㅋㅋ 시퓨속도가 오류가 나요 ㅋㅋㅋ   우왕 4기가 우왕굿 ㅋㅋㅋ 그랬는데   다른 프로그램들로 크로스체크해 보니까 역시 말이 안되는 거였어요 ㅋㅋㅋ    이게 흔한 윈도우 오...
    Date2019.10.12 질문 By디렉터즈컷 Reply3 Views4736 file
    Read More
  5. 자일링스의 FPGA를 AI 가속기에 통합하는 소프트웨어 환경 Vitis

    썩 대중적인 물건은 아닌데, ASIC나 FPGA 등의 개념에 대한 설명이 있어서 올려봅니다. 7nm로 생산하는 FPGA 칩 Versal을 손에 든 자일링스 사장 겸 CEO 빅터 펜 FPGA (Field Programmable Gate Array)를 개발/판매하는 자일링스(Xilinx)...
    Date2019.10.12 소식 By낄낄 Reply3 Views2367 file
    Read More
  6. 페이스북, 차세대 딥러닝 시스템 Zion 플랫폼

    대용량 메모리 학습에 최적화된 Zion 플랫폼 페이스북의 딥 러닝 권장 모델 페이스북은 차세대 AI 딥 러닝 플랫폼 인 시온(Zion) 프로젝트를 발표했습니다. 가장 큰 특징은 CPU같은 딥 러닝 가속장치를 모듈화해, 시스템 구성이 유연하고 ...
    Date2019.10.12 소식 By낄낄 Reply3 Views2080 file
    Read More
  7. No Image

    멀티부팅 환경에서 특정 드라이브의 접근을 막으려면 어떻게 해야하나요?

      제목 그대로입니다.   멀티부팅 환경을 구성해서, 하나는 제가, 하나는 아버지가 쓰게 해드릴 예정입니다.     그런데 제가 주렁주렁 달고있는 하드디스크가 좀 많은편입니다.   대충 4개정도 되는데 그중 하나는 외장이고 나머지 3개는...
    Date2019.10.12 질문 By노예MS호 Reply8 Views1070
    Read More
  8. No Image

    msi x470 agesa 1.0.0.3 abba 바이오스 등록

    msi 메인보드 x470 일반 칩셋의 agesa 1.0.0.3 abba 바이오스가 릴리즈되었습니다   https://gigglehd.com/gg/index.php?_filter=search&mid=hard&search_keyword=x470&search_target=title_content&document_srl=5773741...
    Date2019.10.12 소식 By타이키 Reply2 Views449
    Read More
  9. AMD, 레이 트레이싱을 준비, 12월에는 공식 지원?

    AMD가 올해 7월에 나온 라데온 아드레날린 에디션 19.7.2 드라이버부터 레이 트레이싱과 관련된 코드를 넣기 시작했습니다. 그걸 켜두지 않았을 뿐이죠. AMD는 12월에 발표하는 드라이버에 뭔가 큰 변화를 가져오곤 하는데, 그 때 소프트...
    Date2019.10.12 소식 By낄낄 Reply3 Views1024 file
    Read More
  10. 코멧레이크 코어 i3,하이퍼스레딩 지원

    인텔 코어 i3-10100 프로세서가 Si소프트웨어의 데이터베이스에 등록됐습니다. 클럭 3.6GHz, 4코어 8스레드, 256KB x4 L2, 6MB L3 캐시를 지닙니다. 코어 i3인데도 하이퍼스레딩이 들어가는군요. 코멧레이크는 커피레이크의 후속작입니다....
    Date2019.10.12 소식 By낄낄 Reply13 Views1187 file
    Read More
  11. 지포스 GTX 1660 슈퍼, GDDR6 메모리 장착

    조택의 지포스 GTX 1660 이미지입니다. GDDR6라고 표기됐네요. 발표일은 29일이라고 전해 썼었지요?
    Date2019.10.12 소식 By낄낄 Reply3 Views631 file
    Read More
  12. 애즈락 A320M-DVS R3.0 메인보드, 라이젠 9 3950X 지원

    라이젠 9 3950X를 지원하는 메인보드 목록에 애즈락 A320M-DVS R3.0이 등록됐습니다. A320 중에서는 유일하긴 한데, 어쨌건 A320에서도 지원한다는 데 의미가 있겠군요. 오히려 최신 리비전인 A320-DVS R4.0에서는 라이젠 9 3950X를 지원...
    Date2019.10.12 소식 By낄낄 Reply1 Views646 file
    Read More
  13. 커세어, 라이젠 최적화 5000Mhz 메모리

    커세어가 벤젠스 LPX CMK16GX4M2Z5000C18 메모리를 발표했습니다. 3세대 라이젠 프로세서와 MSI X570 MEG/프리스티지 시리즈 메인보드에 최적화, 메모리 프로파일만 불러오면 5000Mhz로 작동합니다. 용량은 8GB x2, 레이턴시 18-26-26-46...
    Date2019.10.12 소식 By낄낄 Reply3 Views747 file
    Read More
  14. 애플 맥 프로를 닮은 케이스

    구멍을 잔뜩 넣은 맥 프로를 닮은 케이스입니다. Dune case라는 곳에서 만든 Dune Pro. 21일에 인디고고에서 펀딩할 때 가격과 출시일이 나옵니다. 상단 스테인리스 손잡이, 하단 스테인리스 받침대, 스테인리스 프레임, 3mm 알루미늄. 기...
    Date2019.10.12 소식 By낄낄 Reply12 Views2163 file
    Read More
  15. 입티메 NAS1에 팬을 달아줬습니다

    싼맛에 사서 잘 굴리긴 했는데... 아무래도 연식이 좀 되어서 그런가 골골거리더군요. FTP 연결이 끊긴다던가... 좀만 더 굴려보자는 마음가짐으로 대강 손을 좀 댔습니다.   기본 내장된 팬은 대충 40mm 정도 되는 사이즈라 시끄럽기만 ...
    Date2019.10.11 일반 By도개주 Reply5 Views941 file
    Read More
목록
Board Pagination Prev 1 ... 1171 1172 1173 1174 1175 1176 1177 1178 1179 1180 ... 1935 Next
/ 1935

한미마이크로닉스
더함
MSI 코리아
AMD

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소