Skip to content

기글하드웨어기글하드웨어

컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

Extra Form
참고/링크 https://pc.watch.impress.co.jp/docs/colu...09085.html

대용량 메모리 학습에 최적화된 Zion 플랫폼

 

01_o.png

 

페이스북의 딥 러닝 권장 모델

 

페이스북은 차세대 AI 딥 러닝 플랫폼 인 시온(Zion) 프로젝트를 발표했습니다. 가장 큰 특징은 CPU같은 딥 러닝 가속장치를 모듈화해, 시스템 구성이 유연하고 모듈 교체가 가능하다는 점입니다. 표준화 된 모듈로 프로세서 공급 업체의 의존도를 줄여 제조사 선택이 보다 쉬워지며, 모듈이 자유도를 가져 가속기 각각의 인터커넥트를 통해 상호 연결이 가능합니다.

 

페이스북의 Technical Lead인 Misha Smelyanskiy는 8월에 미국 스탠포드에서 열린 칩 컨퍼런스 Hot Chips 31에서 소프트웨어와 하드웨어 파트너 업체 사이에 공동 작업을 통해, 큰 변화를 이룬 시온 시스템을 개발했다고 설명했습니다. 시온은 컴퓨팅 뿐만 아니라 메모리 용량과 대역폭이 필요한 모델에 대응하는 딥 러닝 시스템을 만들어 냈습니다.

 

02_o.png

 

더 커진 학습 테이블

 

03_o.png

 

04_o.png

 

all-reduce와 all-to-all의 두 가지 통신 패턴

 

이 방법을 실현하려면 큰 메모리가 필요합니다. 페이스북은 대용량 DDR 메모리에 광대역 HBM을 조합해 가속합니다. 이로서 큰 용량과 넓은 대역폭을 동시에 만족시키겠다는게 페이스북의 목표입니다.

 

 

bfloat16 부동 소수점 포맷 사용
 

05_o.png

 

시온의 하드웨어는 bfloat16(Brain Floating Point 16) 데이터 수치 포맷을 지원합니다. CPU와 가속기 모두요다. bfloat16은신경망에 사용하는 걸 전제로 깔고 나온 새로운 부동 소수점 포맷입니다. 기존의 IEEE 754 부동 소수점은 FP32 (32-bit 단정밀도 부동 소수)가 부호 부분 (Sign) 1-bit, 지수 부분 (Exponent) 8-bit, 거짓수 부분 (Mantissa) 23-bit로 구성됐습니다. FP16 (16-bit 반 정밀도 부동 소수점)는 부호 부분 1-bit, 지수 부분 5-bit, 가수 부분 10-bit입니다. 반면 bfloat16는 부호 부분 1-bit, 지수 부분 8-bit, 거짓수 부분 7-bit입니다. FP32과 지수 부분이 같습니다. 참고로 거짓수 부분은 실제로 1비트 정도가 더 추가됩니다. bfloat16은 7비트라 표기하지만 실제로는 8비트 정확도를 가집니다.

 

06_o.png

 

부동 소수점 숫자의 지수는 기수의 제곱을 나타내는 부분으로, 지수가 클수록 표현할 수 있는 값의 동적 범위가 넓어집니다. 신경망은 데이터 정확도는 낮아도 되지만 넓은 범위가 필요합니다. 따라서 지수를 확장한 새로운 수치 포맷이 나왔습니다. bfloat16은 FP32과 같은 다이나믹 레인지(1e-38 ~ 3e38)에 7-bit (실제로는 8-bit 상당)의 작은 거짓수가 오가는 구조입니다. 

 

구글이 bfloat16을 TPU에 채용하면서 화제가 됐는데, 페이스북도 이를 전면 도입합니다. 시온은 CPU와 가속기 모두 bfloat16을 지원하는 넓은 호환성을 갖췄습니다. 페이스북은 CPU와 딥 러닝 가속 장치를 모두 도입하는데, 시온에 나와있는 조건을 보면 2020년 상반기까지 인텔 쿠퍼레이크를 도입합니다. 인텔은 페이스북의 모듈 규격에 맞춰 딥 러닝 가속장치 NNP T (Spring Crest)도 발표했는데 역시 bfloat16을 지원합니다. 따라서 페이스북 시온은 쿠퍼레이크와 스프링 크레스트의 조합일 가능성이 높지만, 아직 구체적인 이름은 나오지 않았습니다.

 

 

1년에 3배씩 늘어나는 머신 러닝의 워크로드

 

07_o.png


페이스북은 머신 러닝의 데이터 용량과 컴퓨팅 용량이 1년에 3배씩 증가하고 있기에,

 

08_o.png

 

머신 러닝의 파이프 라인을 계속해서 강화해 나가야 한다고 설명합니다.

09_o.png

 

페이스북의 머신 러닝 목적은 순위와 사용자 추천 사진/영상의 인식 처리, 번역과 내용 파악 등입니다. 

 

10_o.png

 

페이스북은 머신 러닝의 파이프라인 스토리지 서버에 Bryce Canyon, 딥 러닝에는 NVIDIA 테슬라 P100/V100를 8개 탑재하는 Big Basin과 인텔 스카이레이크 2소켓 서버인 Tioga Pass, 추론에는 인텔 제온 D-2100 서버 Twin Lakes에 가속기 카드 모듈 Glacier Point를 조합한 Yosemite V2를 사용합니다. 모두 국립 공원과 자연 풍경에서 따온 이름입니다.

 

12_o.png

 

NVIDIA Big Basin

 

13_o.png

 

학습에는 2 소켓 서버 CPU인 Tioga Pass

 

14_o.png

 

추론 시스템 Yosemite V2. 모듈러 구성

 

15_o.png

 

Yosemite에 내장된 Twin Lakes

 


CPU와 가속기를 모듈화 

 

16_o.png


페이스북의 차세대 시스템, 시온은 학습 측의 성능을 크게 높인 8 CPU + 8 가속기 조합을 씁니다.

 

17_o.png

 

시온은 CPU와 가속기 칩의 숫자를 똑같이 맞췄을 뿐만 아니라, CPU에서도 bfloat16을 지원하 학습 성능을 크게 높일 수 있었습니다.

 

18_o.png

 

OCP Accelerator Module (OAM)

 

19_o.png

 

CPU는 듀얼 소켓 메인보드 모듈 4장으로 구성됩니다. 메인보드는 CPU 패브릭으로 서로 연결되며 8소켓 시스템입니다. 가속기는 OCP Accelerator Module (OAM)를 8개를 쓰는 독립된 모듈입니다. 

 

20_o.png

 

CPU와 가속기는 패브릭으로 서로 연결됩니다.

 

21_o.png

 

CPU와 가속기 사이는 PCIe x16으로 연결되며, CPU는 NIC로 네트워크에 연결됩니다.

 

22_o.png

 

가속기 시스템은 4개의 PCIe 스위치 칩을 탑재, 각각의 스위치에 2개의 OAM 모듈이 PCIe x16에 연결됩니다. PCIe 스위치는 각각 2개의 CPU 메인보드가 모두 PCIe x16에 연결됩니다. PCIe 스위치도 PCIe x16으로 서로 연결합니다.

 

23_o.png

 

가속기는 패브릭을 통해 연결합니다. 저마다 다른 위상을 가진다는 건 해결해 나가야 할 과제입니다.

 


추론의 새로운 가속기

 

24_o.png


시온 시스템은 CPU에서 모든 작업을 처리, CPU가 임베디드 부분을 처리하고 가속기가 MLP를, 가속기가 대부분을 처리하는 방법이 있습니다. 다양한 방법을 지원한다는 점에서 소프트웨어적으로 유연합니다.

 

25_o.png

 

하드웨어는 8소켓 CPU에서 2소켓 모듈마다 스위치가 있습니다.

 

26_o.png

 

2개만 쓰고 6개는 해제하는 식으로 유연한 조합이 가능합니다.

 

27_o.png

 

추론 쪽도 시온에 맞춰 새로 업그레이드합니다. 추론에는 전용 가속장치를 사용하는데, 새로운 ASIC (Application Specific Integrated Circuit)인 킹스 캐년을 도입합니다. 추론 가속장치의 폼펙터는 M.2. 이런 소형 폼펙터를 사용하는 추세입니다.

 

 

GPU에서 딥 러닝 가속기로 향하는 페이스북

 

페이스북 시온은 대규모 데이터 센터에서 AI 시스템의 새로운 흐름을 보여줍니다. 딥 러닝 전용 가속기의 도입입니다. 페이스북은 2016년에 NVIDIA 테슬라 기반 Bigsur를 썼었고, 2017년에는 NVLink로 GPU를 연결하는 Big Basin을 도입했습니다. 2018년에는 Big Basin의 CPU를 텐서 코어 볼타 아키텍처 GPU로 교체했습니다. 하지만 시온은 신경망 전용 가속기로 대체합니다.

 

28_o.png

 

페이스북의 기존 시스템 Big Basin과 시온의 비교 

 

데이터 센터가 GPU를 쓰는 이유는 GPU가 범용 병렬 프로세서라서입니다. 그래픽 전용 ASIC였던 GPU가 프로그래머블 쉐이더 프로세서를 탑재한 후, 범용으로 나아가 지금은 CPU에 버금가는 범용 프로세서가 됐습니다. GPU는 병렬 처리에 적합한 딥 러닝, 특히 학습 문야에 강력해 지금까지의 학습 작업은 GPU에서 수행했습니다. 알고리즘의 변화에 ​​유연하게 대응할 수 있다는 게 GPU의 장점입니다.

 

그러나 딥 러닝 작업이 늘어나면서 더욱 높은 효율의 학습 성능을 필요로 하고 있습니다. 페이스북의 시온이 딥 러닝 가속 장치를 쓴 것도 이런 분위기를 보여주는 사례입니다. 물론 GPU도 이런 흐름에 대비하고 있습니다.

 

페이스북이 가속기를 OCP Accelerator Module (OAM)로 표준화하려는 건 하드웨어 변화에 유연하게 대응하기 위해서입니다. 지금은 가속기를 써도 나중에는 OAM 폼펙터 GPU를 쓸지도 모릅니다. 

 

 

  

 

 

 

 

 

 

 

 

 

 



  • ?
    달가락 2019.10.12 07:48
    궁금해서 좀 더 알아봤습니다. 19인치 표준 랙을 위해 만들어지는 폼팩터는 언제나 환영이죠.

    OAM의 핵심 스펙은 다음과 같습니다:

    * 입력전압은 12V, 48V 지원
    * 12V에서 350w, 48V에서 700w TDP 까지 커버
    * 크기는 102mm x 165mm
    * 8개의 PCIE x16 링크 (host + inter-module links)
    - 호스트-모듈간 링크는 1개 또는 2개의 x16 연결을 사용 가능
    - 모듈간 interconnect 링크는 최대 7개의 x16 연결을 사용가능
    * 공랭으로 450W, 수냉으로 700W를 지원할 것으로 예상
    * 시스템 관리 및 디버그 인터페이스 제공
    * 시스템 당 최대 8개의 OAM 모듈 사용 가능

    interconnect 장치/케이블, 세부 사진은 https://www.servethehome.com/facebook-zion-accelerator-platform-for-oam/ 를 참조하셔도 좋을 것 같습니다.

    아직까지 갈길이 멀긴 할테고, 저 같은 일반인 수준으로 저 장비가 내려올 일은 당분간... 아니 영원히 없겠지만요. 암튼, 개인적으로는 장착할 때 비싼 토크드라이버를 가지고 설치지 않아도 된다는 것만으로도 저 폼팩터는 우월하다고 생각합니다..;;
  • ?
    마라톤 2019.10.12 10:09
    좋은 정보 감사합니다. ^_^
  • profile
    글레이셔폭포      ¡! 2019.10.12 11:14
    쿠퍼레이크 제온을 쓰는 것 같네요. UPI면 제온이고 쿠퍼레이크가 bfloat16을 지원하니...

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.


  1. No Image

    코어 15900K, 15700K의 스펙

    코어 i9 15900K와 코어 i7 15700K의 스펙이라고 합니다. 애로우레이크-S, 포베로스 3D 패키징, 인텔 20A 공정 CPU 타일에 TSMC 3nm GPU 타일 구성입니다. 하이퍼스레딩이 빠지고 AVX-512는 여전히 지원하지 않습니다. PL2는 253W에서 177W...
    Date2024.03.03 소식 By낄낄 Reply16 Views1516
    Read More
  2. AUS NUC 14 프로 시리즈. 코어 울트라 9 185H 탑재

    AUS NUC 14 프로 시리즈가 나왔습니다. 코어 3 100U는 394달러, 코어 울트라 5 125H는 535달러, 코어 울트라 5 135H는 729달러, 코어 울트라 7 155H는 694달러, 코어 울트라 7 165H는 899달러. NUC 14 프로+는 코어 울트라 5 125H는 869달...
    Date2024.03.03 소식 By낄낄 Reply5 Views787 file
    Read More
  3. HP의 DP 2.1 모니터, UHBR10만 지원

    HP 오멘 트랜센드 32 OLED 모니터는 디스플레이포트 2.1 포트가 있지만 UHBR10 모드만 지원합니다. 그래서 DSC 기능을 켜야만 4K 240Hz 표시가 가능합니다. 또 HDMI 2.1 포트보다도 대역폭이 좁습니다. DP 2.1인 것까지만 알면 됐지 그 뒤...
    Date2024.03.03 소식 By낄낄 Reply2 Views505 file
    Read More
  4. 2핀 팬커넥터 질문

        해당 커넥터에 연결하려고 하는데... 2핀도 여러 단자가 있더라구요. 저 팬을 사용하면 맞을까요? 아마 파워 서플라이 팬과 비슷한 규격같은데...   같은 2핀이라도 생긴게 다르니 검색하기도 쉽지 않네요. 에구구
    Date2024.03.03 질문 By도개주 Reply8 Views589 file
    Read More
  5. No Image

    AM5 소켓은 수명이 언제까지 갈까요?

    AM4 소켓은 라이젠 1세대부터 5세대까지 총 5세대를 지원했는데 AM5는 얼마나 지원할까요  2025년까지는 AM5 유지한다고 암드가 공식으로 말했는데 그럼 AM5는 2~3세대 정도 지원하고 끝나는건지...   항상 인텔 시스템만 사용해와서 암드...
    Date2024.03.02 질문 By조마루감자탕 Reply24 Views2161
    Read More
  6. 엔비디아, B200(블랙웰) 'AI(인공지능) GPU 가속기'가 1000W의 전력소모량을 암시하고 2025년에 출시될 것

    ▶ 델 테크놀로지, 자사 엔지니어링 개발팀에서 '엔비디아 B200(블랙웰)' AI(인공지능) GPU 가속기의 탑재 기반 제품을 준비할 것이라고 확신함 - 미래 서버(데이터센터) GPU의 전력 증가 가능성 암시 : 1,000W의 에너지 밀도에 필요한 것...
    Date2024.03.02 소식 By블레이더영혼 Reply4 Views993 file
    Read More
  7. 엔비디아, 대만 TSMC에서 애플에 이은 2위 고객으로 되었음

    ▶ 엔비디아, TSMC에서 애플에 이은 거대 수익원 측면에서 2위를 차지함 - 2023년(엔비디아) : TSMC의 'AI(인공지능) GPU 제조' 서비스 비용을 지불하고, 순 이익의 11%를 차지하여 2위 고객으로 달성함[대만 2,411억 5천만 달러 - 미국 7...
    Date2024.03.02 소식 By블레이더영혼 Reply1 Views662 file
    Read More
  8. 펜티엄 3 슬롯의 패키지 위에 붙은 씰은 진짜 다이의 사진

    펜티엄 3 카트마이의 슬롯형 패키지에 붙어있는 다이 씰은 진짜 펜티엄 3의 다이라고 합니다. 다만 완벽하게 똑같은 건 아닙니다. 일부는 가공이 된건지, 초기 단계에서는 저게 맞았는데 나중에 바뀌었을 수도 있습니다.
    Date2024.03.02 소식 By낄낄 Reply12 Views2056 file
    Read More
  9. No Image

    지포스 RTX 4060 Ti 시리즈의 가격 하락

    일부 지포스 RTX 4060 Ti가 저렴한 가격에 팔리고 있습니다. 16GB 모델은 429.99달러, 8GB 모델은 345.99달러에도 나왔다고 하네요. 라데온이 신제품이 나오고 가격을 인하하니 거기에 맞춘건지, 아니면 판매 사이트의 프로모션인지는 모...
    Date2024.03.02 소식 By낄낄 Reply1 Views909
    Read More
  10. No Image

    지포스 GTX 16 시리즈의 NVENC 인코딩 문제 해결 핫픽스 드라이버

    지포스 GTX 16 시리즈의 NVENC 인코딩 문제 해결 핫픽스 드라이버인 551.68이 나왔습니다. 지포스 GTX 1630, 1650, 1650 Ti가 여기에 해당되며, 이전 버전의 드라이버에서는 GPU 인코더를 사용할 경우 동영상이 손상되거나 오류가 발생했...
    Date2024.03.02 소식 By낄낄 Reply2 Views532
    Read More
  11. 기가바이트, DP 2.1 포트 탑재 OLED 게이밍 모니터

    기가바이트 어로스 F032UP2 게이밍 모니터입니다. 31.5인치, 삼성 QD-OLED 패널, 4K 해상도, 240Hz 주사율, DP 2.1을 탑재해 UHBR20 대역으로 전송이 가능합니다.
    Date2024.03.02 소식 By낄낄 Reply0 Views371 file
    Read More
  12. MSI, 지포스 RTX 4070 Ti 슈퍼의 엑스퍼트와 에어로 카드 출시

    MSI, 지포스 RTX 4070 Ti 슈퍼의 엑스퍼트 버전과 에어로 그래픽카드를 출시했습니다. 엑스퍼트는 상위 모델에서 썼던 푸쉬 풀 디자인 쿨러가 탑재됩니다. 에어로는 블로워 팬을 씁니다.
    Date2024.03.02 소식 By낄낄 Reply1 Views317 file
    Read More
  13. 레노버 ThinkVision M14T Gen 2 휴대용 모니터

    레노버 ThinkVision M14T Gen 2 휴대용 모니터입니다. 14인치 화면 크기, 60Hz 주사율, 2240x1440 해상도의 16:10 비율, 최대 밝기 300니트, 4096단계 필압 감지와 10점 멀티 터치, 가로/세로 방향 자동 감지, sRGB 100% 색영역, 1500:1 ...
    Date2024.03.02 소식 By낄낄 Reply2 Views549 file
    Read More
  14. Groq의 LPU 추론 엔진. GPU보다 빠름

    Groq의 LPU 추론 엔진이 탑재된 카드입니다. GPU보다 빠르게 LLM 대규모 언어 모델을 처리하도록 설계됐습니다. 오직 LLM에만 초점을 맞췄기에 효율도 높다고 하네요. 1개의 단어당 필요한 계산 시간을 줄이고 텍스트 시퀸스를 빠르게 생...
    Date2024.03.02 소식 By낄낄 Reply0 Views829 file
    Read More
  15. AMD A620A 칩셋 메인보드 등장

    바이오스타 A620MH 오로라 메인보드입니다. AMD A620A 칩셋을 썼다고 하네요. 박스에도 A620A라고 써져 있고요. B550 칩셋(Promontory 19 PCH)과 똑같은 다이를 사용하고, AM5 소켓과 DDR5 메모리를 지원하지만 PCIe 4.0은 없고 PCIe 3.0...
    Date2024.03.02 소식 By낄낄 Reply14 Views1515 file
    Read More
목록
Board Pagination Prev 1 ... 21 22 23 24 25 26 27 28 29 30 ... 1933 Next
/ 1933

최근 코멘트 30개
냥뇽녕냥
01:09
냥뇽녕냥
01:06
빈도
00:58
헥사곤윈
00:42
헥사곤윈
00:41
캐츄미
00:31
TundraMC
00:28
ExpBox
00:05
mnchild
00:05
Touchless
00:03
babozone
00:02
초코칩자반고등어
23:51
급식단
23:51
초코칩자반고등어
23:50
초코칩자반고등어
23:50
초코칩자반고등어
23:49
일설공
23:34
메케메케
23:28
포도맛계란
23:23
포도맛계란
23:23
슬렌네터
23:14
360Ghz
23:13
슬렌네터
23:13
wwsun98
23:12
슬렌네터
23:12
메케메케
23:07
뚜찌`zXie
23:05
포인트 팡팡!
23:02
uss0504
23:02
uss0504
22:40

한미마이크로닉스
MSI 코리아
AMD
더함

공지사항        사이트 약관        개인정보취급방침       신고와 건의


기글하드웨어는 2006년 6월 28일에 개설된 컴퓨터, 하드웨어, 모바일, 스마트폰, 게임, 소프트웨어, 디지털 카메라 관련 뉴스와 정보, 사용기를 공유하는 커뮤니티 사이트입니다.
개인 정보 보호, 개인 및 단체의 권리 침해, 사이트 운영, 관리, 제휴와 광고 관련 문의는 이메일로 보내주세요. 관리자 이메일

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소