컴퓨터 / 하드웨어 : 컴퓨터와 하드웨어, 주변기기에 관련된 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2019.10.12 03:06

페이스북, 차세대 딥러닝 시스템 Zion 플랫폼

조회 수 2080 댓글 3

Extra Form
참고/링크	https://pc.watch.impress.co.jp/docs/colu...09085.html

대용량 메모리 학습에 최적화된 Zion 플랫폼

페이스북의 딥 러닝 권장 모델

페이스북은 차세대 AI 딥 러닝 플랫폼 인 시온(Zion) 프로젝트를 발표했습니다. 가장 큰 특징은 CPU같은 딥 러닝 가속장치를 모듈화해, 시스템 구성이 유연하고 모듈 교체가 가능하다는 점입니다. 표준화 된 모듈로 프로세서 공급 업체의 의존도를 줄여 제조사 선택이 보다 쉬워지며, 모듈이 자유도를 가져 가속기 각각의 인터커넥트를 통해 상호 연결이 가능합니다.

페이스북의 Technical Lead인 Misha Smelyanskiy는 8월에 미국 스탠포드에서 열린 칩 컨퍼런스 Hot Chips 31에서 소프트웨어와 하드웨어 파트너 업체 사이에 공동 작업을 통해, 큰 변화를 이룬 시온 시스템을 개발했다고 설명했습니다. 시온은 컴퓨팅 뿐만 아니라 메모리 용량과 대역폭이 필요한 모델에 대응하는 딥 러닝 시스템을 만들어 냈습니다.

더 커진 학습 테이블

all-reduce와 all-to-all의 두 가지 통신 패턴

이 방법을 실현하려면 큰 메모리가 필요합니다. 페이스북은 대용량 DDR 메모리에 광대역 HBM을 조합해 가속합니다. 이로서 큰 용량과 넓은 대역폭을 동시에 만족시키겠다는게 페이스북의 목표입니다.

bfloat16 부동 소수점 포맷 사용
　

시온의 하드웨어는 bfloat16(Brain Floating Point 16) 데이터 수치 포맷을 지원합니다. CPU와 가속기 모두요다. bfloat16은신경망에 사용하는 걸 전제로 깔고 나온 새로운 부동 소수점 포맷입니다. 기존의 IEEE 754 부동 소수점은 FP32 (32-bit 단정밀도 부동 소수)가 부호 부분 (Sign) 1-bit, 지수 부분 (Exponent) 8-bit, 거짓수 부분 (Mantissa) 23-bit로 구성됐습니다. FP16 (16-bit 반 정밀도 부동 소수점)는 부호 부분 1-bit, 지수 부분 5-bit, 가수 부분 10-bit입니다. 반면 bfloat16는 부호 부분 1-bit, 지수 부분 8-bit, 거짓수 부분 7-bit입니다. FP32과 지수 부분이 같습니다. 참고로 거짓수 부분은 실제로 1비트 정도가 더 추가됩니다. bfloat16은 7비트라 표기하지만 실제로는 8비트 정확도를 가집니다.

부동 소수점 숫자의 지수는 기수의 제곱을 나타내는 부분으로, 지수가 클수록 표현할 수 있는 값의 동적 범위가 넓어집니다. 신경망은 데이터 정확도는 낮아도 되지만 넓은 범위가 필요합니다. 따라서 지수를 확장한 새로운 수치 포맷이 나왔습니다. bfloat16은 FP32과 같은 다이나믹 레인지(1e-38 ~ 3e38)에 7-bit (실제로는 8-bit 상당)의 작은 거짓수가 오가는 구조입니다.

구글이 bfloat16을 TPU에 채용하면서 화제가 됐는데, 페이스북도 이를 전면 도입합니다. 시온은 CPU와 가속기 모두 bfloat16을 지원하는 넓은 호환성을 갖췄습니다. 페이스북은 CPU와 딥 러닝 가속 장치를 모두 도입하는데, 시온에 나와있는 조건을 보면 2020년 상반기까지 인텔 쿠퍼레이크를 도입합니다. 인텔은 페이스북의 모듈 규격에 맞춰 딥 러닝 가속장치 NNP T (Spring Crest)도 발표했는데 역시 bfloat16을 지원합니다. 따라서 페이스북 시온은 쿠퍼레이크와 스프링 크레스트의 조합일 가능성이 높지만, 아직 구체적인 이름은 나오지 않았습니다.

1년에 3배씩 늘어나는 머신 러닝의 워크로드

페이스북은 머신 러닝의 데이터 용량과 컴퓨팅 용량이 1년에 3배씩 증가하고 있기에,

머신 러닝의 파이프 라인을 계속해서 강화해 나가야 한다고 설명합니다.

페이스북의 머신 러닝 목적은 순위와 사용자 추천 사진/영상의 인식 처리, 번역과 내용 파악 등입니다.

페이스북은 머신 러닝의 파이프라인 스토리지 서버에 Bryce Canyon, 딥 러닝에는 NVIDIA 테슬라 P100/V100를 8개 탑재하는 Big Basin과 인텔 스카이레이크 2소켓 서버인 Tioga Pass, 추론에는 인텔 제온 D-2100 서버 Twin Lakes에 가속기 카드 모듈 Glacier Point를 조합한 Yosemite V2를 사용합니다. 모두 국립 공원과 자연 풍경에서 따온 이름입니다.

NVIDIA Big Basin

학습에는 2 소켓 서버 CPU인 Tioga Pass

추론 시스템 Yosemite V2. 모듈러 구성

Yosemite에 내장된 Twin Lakes

CPU와 가속기를 모듈화

페이스북의 차세대 시스템, 시온은 학습 측의 성능을 크게 높인 8 CPU + 8 가속기 조합을 씁니다.

시온은 CPU와 가속기 칩의 숫자를 똑같이 맞췄을 뿐만 아니라, CPU에서도 bfloat16을 지원하 학습 성능을 크게 높일 수 있었습니다.

OCP Accelerator Module (OAM)

CPU는 듀얼 소켓 메인보드 모듈 4장으로 구성됩니다. 메인보드는 CPU 패브릭으로 서로 연결되며 8소켓 시스템입니다. 가속기는 OCP Accelerator Module (OAM)를 8개를 쓰는 독립된 모듈입니다.

CPU와 가속기는 패브릭으로 서로 연결됩니다.

CPU와 가속기 사이는 PCIe x16으로 연결되며, CPU는 NIC로 네트워크에 연결됩니다.

가속기 시스템은 4개의 PCIe 스위치 칩을 탑재, 각각의 스위치에 2개의 OAM 모듈이 PCIe x16에 연결됩니다. PCIe 스위치는 각각 2개의 CPU 메인보드가 모두 PCIe x16에 연결됩니다. PCIe 스위치도 PCIe x16으로 서로 연결합니다.

가속기는 패브릭을 통해 연결합니다. 저마다 다른 위상을 가진다는 건 해결해 나가야 할 과제입니다.

추론의 새로운 가속기

시온 시스템은 CPU에서 모든 작업을 처리, CPU가 임베디드 부분을 처리하고 가속기가 MLP를, 가속기가 대부분을 처리하는 방법이 있습니다. 다양한 방법을 지원한다는 점에서 소프트웨어적으로 유연합니다.

하드웨어는 8소켓 CPU에서 2소켓 모듈마다 스위치가 있습니다.

2개만 쓰고 6개는 해제하는 식으로 유연한 조합이 가능합니다.

추론 쪽도 시온에 맞춰 새로 업그레이드합니다. 추론에는 전용 가속장치를 사용하는데, 새로운 ASIC (Application Specific Integrated Circuit)인 킹스 캐년을 도입합니다. 추론 가속장치의 폼펙터는 M.2. 이런 소형 폼펙터를 사용하는 추세입니다.

GPU에서 딥 러닝 가속기로 향하는 페이스북

페이스북 시온은 대규모 데이터 센터에서 AI 시스템의 새로운 흐름을 보여줍니다. 딥 러닝 전용 가속기의 도입입니다. 페이스북은 2016년에 NVIDIA 테슬라 기반 Bigsur를 썼었고, 2017년에는 NVLink로 GPU를 연결하는 Big Basin을 도입했습니다. 2018년에는 Big Basin의 CPU를 텐서 코어 볼타 아키텍처 GPU로 교체했습니다. 하지만 시온은 신경망 전용 가속기로 대체합니다.

페이스북의 기존 시스템 Big Basin과 시온의 비교

데이터 센터가 GPU를 쓰는 이유는 GPU가 범용 병렬 프로세서라서입니다. 그래픽 전용 ASIC였던 GPU가 프로그래머블 쉐이더 프로세서를 탑재한 후, 범용으로 나아가 지금은 CPU에 버금가는 범용 프로세서가 됐습니다. GPU는 병렬 처리에 적합한 딥 러닝, 특히 학습 문야에 강력해 지금까지의 학습 작업은 GPU에서 수행했습니다. 알고리즘의 변화에 유연하게 대응할 수 있다는 게 GPU의 장점입니다.

그러나 딥 러닝 작업이 늘어나면서 더욱 높은 효율의 학습 성능을 필요로 하고 있습니다. 페이스북의 시온이 딥 러닝 가속 장치를 쓴 것도 이런 분위기를 보여주는 사례입니다. 물론 GPU도 이런 흐름에 대비하고 있습니다.

페이스북이 가속기를 OCP Accelerator Module (OAM)로 표준화하려는 건 하드웨어 변화에 유연하게 대응하기 위해서입니다. 지금은 가속기를 써도 나중에는 OAM 폼펙터 GPU를 쓸지도 모릅니다.

삭제 요청

TAG •

목록 스크랩

위로 아래로 댓글로 가기

Comments '3'

?
달가락 2019.10.12 07:48

궁금해서 좀 더 알아봤습니다. 19인치 표준 랙을 위해 만들어지는 폼팩터는 언제나 환영이죠.

OAM의 핵심 스펙은 다음과 같습니다:

* 입력전압은 12V, 48V 지원
* 12V에서 350w, 48V에서 700w TDP 까지 커버
* 크기는 102mm x 165mm
* 8개의 PCIE x16 링크 (host + inter-module links)
- 호스트-모듈간 링크는 1개 또는 2개의 x16 연결을 사용 가능
- 모듈간 interconnect 링크는 최대 7개의 x16 연결을 사용가능
* 공랭으로 450W, 수냉으로 700W를 지원할 것으로 예상
* 시스템 관리 및 디버그 인터페이스 제공
* 시스템 당 최대 8개의 OAM 모듈 사용 가능

interconnect 장치/케이블, 세부 사진은 https://www.servethehome.com/facebook-zion-accelerator-platform-for-oam/ 를 참조하셔도 좋을 것 같습니다.

아직까지 갈길이 멀긴 할테고, 저 같은 일반인 수준으로 저 장비가 내려올 일은 당분간... 아니 영원히 없겠지만요. 암튼, 개인적으로는 장착할 때 비싼 토크드라이버를 가지고 설치지 않아도 된다는 것만으로도 저 폼팩터는 우월하다고 생각합니다..;;
?
마라톤 2019.10.12 10:09

좋은 정보 감사합니다. ^_^
글레이셔폭포 ¡! 2019.10.12 11:14

쿠퍼레이크 제온을 쓰는 것 같네요. UPI면 제온이고 쿠퍼레이크가 bfloat16을 지원하니...

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

중국에서 특이한 10GbE NIC를 또 만들었군요.

이번에는 인텔 x520을 M.2 슬롯에 연결하여 사용할 수 있게끔 카드를 제조했습니다. slim sas(SFF-8654)나 oculink(SFF-8611) 등을 활용하여 확장카드를 연결하는 것은 특별히 새로운 발상은 아닌데, 구형 컨트롤러를 활용해 새로 ...

Date2024.03.12 일반 Bymilsa Reply9 Views1091

Read More
No Image

부트캠프 유선 이더넷 관련 질문드립니다.

인텔 맥북 프로를 사용하는중입니다. 맥OS에서는 C타입 기가비트 이더넷 어댑터를 이용한 유선 연결이 안정적으로 유지되었는데, 부트캠프를 통해 윈도우10으로 넘어왔을 때만 3~5분 간격으로 연결이 끊기는 현상이 일어납니다. 구글...

Date2024.03.12 질문 By랑어 Reply0 Views309

Read More
No Image

레이스 스파이어가 너프됐었군요?

라이젠 7 8700G에 들어간 레이스 스파이어 쿨러로 테스트를 하면서 '이거 알루미늄 덩어리임'이라고 쓰는데, 혹시 몰라서 찾아보니 '레이스 스파이어는 구리심인지 베이퍼 챔버인지 히트파이프인지를 넣었다'는 말만 가득...

Date2024.03.12 일반 By낄낄 Reply16 Views1100

Read More
지포스 GTX 960을 애슬론 XP 시스템에서 실행에 성공

지포스 GTX 960을 애슬론 XP 시스템에서 실행하는데 성공했습니다. 애슬론 XP 2400+은 소켓 7을 사용하는 구닥다리 시스템으로, 여기에서 사용한 비아 아폴로 KT266A 칩셋 메인보드에는 AGP와 PCI와(PCIe 아님) ISA 슬롯이 있습니다. 그...

Date2024.03.12 소식 By낄낄 Reply17 Views1719

Read More
No Image

루나레이크 17W, 하이퍼스레딩은 없지만 메테오레이크보다 고성능

인텔 루나레이크 17W는 15W 짜리 메테오레이크 U와 비교해서 하이퍼스레딩이 빠지지만 시네벤치 점수 기준 1.5배의 멀티스레딩 성능을 낸다고 합니다. 루나레이크는 라이온 코브 P코어 4개, 스카이코브 E코어 4개로 구성됩니다. 메테오레...

Date2024.03.12 소식 By낄낄 Reply3 Views1340

Read More
No Image

지포스 RTX 50 시리즈는 28Gbps GDDR7 메모리 탑재

지포스 RTX 50 시리즈, 코드네임 블랙웰에는 28Gbps GDDR7 메모리가 탑재될 거라고 합니다. 기존의 GDDR6X보다는 빠르겠군요. 메모리 버스의 경우 512비트라고 했다가 384비트라고 했다가 다시 512비트일 가능성도 있습니다.

Date2024.03.12 소식 By낄낄 Reply1 Views753

Read More
엔비디아, 2026년까지의 매출액을 무려 1,300억 달러로 올릴 것으로 예상함

▶ 엔비디아, FY23(23년도 회계연도)보다 높은 5배인 1,300억 달러의 수익을 2026년까지 올릴 것으로 예상됨 - 블룸버그 보고서 : 2021년 대비 기준으로 1,000억 달러의 매출액이 추가됨(전체 매출의 125%라는 엄청난 증가 수치임) - 이...

Date2024.03.11 소식 By블레이더영혼 Reply1 Views699

Read More
[서울경제]삼성보다 한박자 빠른 인텔…이번엔 '1.4 나노' 도발

▶ 인텔, 'SPIE(세계광학회 협회) 2024' 컨퍼런스에서 '1.4nm(인텔 14A)' 등급의 인텔 파운드리 공정의 스펙을 공개 - '인텔 14A' 공정 : 이전 '1.8nm(인텔 18A)' 공정 대비 와트당 성능이 15% 이상 향상됨 - '인텔 14A-E' 공정 : '1.4nm(...

Date2024.03.11 소식 By블레이더영혼 Reply6 Views912

Read More
엔비디아, 차세대 'DGX-AI GPU 시스템'에는 수냉식을 도입할 것이라고 확인함

▶ 엔비디아 CEO(젠슨 황 - 황인훈), 차세대 'DGX-AI GPU'에는 수냉식을 도입할 것이라고 확인함 - 리퀴드 쿨링(액체 냉각 방식)의 동향 : 기업들이 '수냉식 냉각 장비 제조 공장'에 막대한 투자를 감행함 - 이전의 발표(SMCI, 인텔) : 여...

Date2024.03.11 소식 By블레이더영혼 Reply2 Views717

Read More
HDMI 연결시 모니터 화면깜박거리는 증상은 어찌할수 없을까용..

고객사 저모니터로 도배 했는데 말입니다.. 전전 모니터는 델꺼인데 도입단가보다 패널사망시 수리비가 더 깨지는 거 보자니 한숨나오더군요 (모니터에 DP 있어서 dp-dp 연결이 되니 그건 좋았습니다) 본질문은 HDMI만 연결시 가끔...

Date2024.03.11 질문 By툴라 Reply20 Views746

Read More
No Image

교도소 재소자를 위한 노트북을 회수함

교도소 재소자를 위한 노트북의 보안 잠금을 해제하는데 성공 https://gigglehd.com/gg/15624120 이 글이 올라오고 반응이 꽤나 뜨거웠나 봅니다. 이 일이 있은 후에 1200명의 수감자가 사용 중이던 노트북이 회수됐다고 합니다. https://...

Date2024.03.10 소식 By낄낄 Reply1 Views2045

Read More
No Image

AMD 인스팅트 MI300X 도입을 고려 중인 AI 업계

텐서웨이브의 공동 창립자인 Jeff Tatarchuk는 82명의 엔지니어와 AI 전문가에게 물어본 결과, 그 중 절반이 AMD 인스팅트 MI300X GPU를 적극적으로 고려 중이라 말했습니다. 가장 큰 이유는 가용성, 비용, 성능이라네요. NVIDIA가 공급이...

Date2024.03.10 소식 By낄낄 Reply2 Views1273

Read More
ConnectX-3 Infiniband 40GbE 카드로 컴퓨터끼리 연결했습니다

이베이에서 하나당 7달러라는 놀라운 가격에 ConnectX-3 인피니밴드 듀얼 포트 카드를 샀습니다. 지금은 셀러가 15달러로 가격을 두 배 올렸더군요... ConnectX-2 10GbE SFP+ 포트 모델과 비교하면 PCIe 2.0 x8에서 PCIe 3.0 x8로 PCIe...

Date2024.03.10 일반 By마초코 Reply25 Views1072

Read More
녹투아, 2024년 3월 로드맵.

2024년 3월 로드맵 비교용으로 올리는 2023년 12월 로드맵 연기를 숨 쉬듯이 하던 녹투아이지만, 이번에는 의외로 크게 연기된 게 없습니다. 60mm가 1분기에서 3분기로 연기된 것 정도. 다만 2분기에 있는 미공개 프로젝트...

Date2024.03.10 소식 Bymilsa Reply9 Views915

Read More
비 전문가를 위한 인텔의 반도체 제조 과정 설명

인텔이 파운드리 다이렉트 커넥트 2024에서 진행한 Semiconductor Manufacturing for Non-Technical Audiences, 기술 관계자가 아닌 사람을 위한 반도체 제조 과정 설명 세미나입니다. 반도체란 도체와 부도체, 혹은 절연체의 특성을 모두...

Date2024.03.10 소식 By낄낄 Reply11 Views2382

Read More