2023년 11월 15일 ~ 17일(11월 16일 ~ 18일), '마이크로소프트 이그나이트 2023 컨퍼런스'가 진행되었는데요.
당시 게시자 본인도 댓글 생중계를 진행하였고, 이에 댓글 내용을 전체 취합 및 정리하여 '마이크로소프트 이그나이트 2023 컨퍼런스 전체 정리본[4차 - AI(인공지능) 시대의 마이크로소프트 애저 클라우드]'을 올려드립니다.
많은 도움이 되셨으면 좋겠습니다. 감사합니다
★ 본래 2023년 11월 18일 새벽 5시 30분부터 시작할려고 했으나, 개인 및 업무 사정으로 인하여 부득이하게 12월 연말 지나기 직전에 진행하게 되었습니다.
이 부분은 회원분들께서 넓은 양해를 부탁드립니다^^;;
[마이크로소프트] ① [LLM(대형 언어 모델) 애플리케이션 프로파일] - 그래프 구성 : 프롬프트(경량형, 중형) / 생성(경량형, 중형) - 키워드 : 컨텐츠 제작, 신속한 엔지니어링 + 기업용 챗봇, 챗봇, 요약
② 마이크로소프트(생성 스케줄링) ☞ Naive 생성 스케줄링 - 구성 요소 : 프롬프트 토큰, LLM(대규모 언어 모델) - 처리 과정(첫번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도 + 신속한 처리로 인해 속도가 저하 + 정상으로 회복되지만 병렬 세대로 인하여 속도가 저하) - 처리 과정(두번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ☞ 첫번째 토큰 처리 과정 중 간섭이 발생함
☞ Azure-ML(애저 머신러닝) 'Project Flywheel(프로젝트 플라이휠)' - 구성 요소 : 프롬프트 토큰, LLM(대규모 언어 모델) - 처리 과정(첫번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ▶ 일괄 처리로 고정 수량만 수행 - 처리 과정(두번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ▶ 첫번째 토큰 처리에 대한 속도 영향 없음 ※ 특징 : 예측 가능한 발전 처리량 / PTU 및 생성 처리량의 선형 규모 / 부분 자원 구매(부분 제공 처리량 단위를 도입이 가능하게 해주는 기능)
③ 오픈 소스 프로젝트 - Type-Chat(타입-채팅) : 모델이 출력할 내용에 대한 '스키마'를 지정하도록 하는 기능 - 엔지니어링의 변화 : 프롬프트 ☞ 스키마 - 구성 요소 : 정의된 스키마 → 타입-채팅[프롬프트 구축 → LLM ↔ 스키마 검증 ↔ 복구] →(입력이 잘된 응답) 애플리케이션 코드 - 지원 예정 언어 : PyThon, '.NET', C#, 자바 스크립트
④ 마이크로소프트[기밀 AI(인공지능)의 비전] - 모델 : 사용자들의 IP를 보호를 원함 - 데이터 : 훈련, 미세조정, 추론, 프롬프트 기반 응답 교류 데이터(본인 외에는 누구도 볼 수 없음) - 다중 공유 : 당사자 간의 데이터 공유 및 기밀 H/W로 보호(서로 간의 데이터를 볼 수 없는 다중간 시나리오 지원)
|
[마이크로소프트 - AI(인공지능)] ▶ 마이크로소프트[AI(인공지능) 서빙] - 질문 : 언제 무엇을 하느냐 - 기초 모델의 훈련 ① 제로샷(시작) : 모델에 어떤 예시도 제공하지 않음 ② 소수 : 사용자가 좋아하는 몇 가지 예시를 제공 및 학습하여 원하는 것을 생각할 수 있는지 확인 ③ RAG(검색 증강 생성) : 대량의 데이터 제공 및 소스 로딩하거나 제공 ④ 미세 조정 : 모델에 지식을 추가하는 데 적합하지 않음. ※ 사용자(고객)와(과) 내부적으로 협력한 모든 내용을 바탕으로 한 지침을 단계적 차트로 따르는 것
☞ 전통적인 미세 조정(GitHub CO-Pilot) - 고객이 모델의 사용자 정의 버전을 만드는 경우가 많기 때문임. - 과정(대규모) : 대규모 공통 데이터 세트 → 사전 학습 → 소스 모델 - 과정(소규모) : 소규모 목표 데이터 세트 → 미세 조정 → 목표 모델 - GPU 필요 개수(미세 조정) : 96개 - 필요 체크포인트 용량 : 1TB - 모델 전환 시의 소요 시간 : 1분 ※ (소규모)과정 모델은 '(대규모)과정 모델' 전체를 복사함. ※ 각 미세 조정 작업을 위한 거대 모델 : 훈련 가능한 모델 매개변수(1,750억개)
☞ 'LoRA' 미세조정 모델(마이크로소프트 연구소) - 하위 적응형 미세조정 - 과정(소규모) : 소규모 목표 데이터 세트 → 동결 → 목표 모델(기본 중량) - 추가 : '미세조정' 어댑터라는 추가 가중치를 생성(LoRA 어댑터) - GPU 필요 개수(미세 조정) : 24개 - 필요 체크포인트 용량 : 200MB - 모델 전환 시의 소요 시간 : 2초 - 추가 추론 대기 시간 없음 - 훈련 처리량 증가 : 25% ※ 하나의 기본 모델 + 여러 개의 소형 어댑터(GPT-3 모델 미세 조정의 용량 크기 : 200MB) ※ 사전 학습 모델을 사용하여 다양한 작업을 위한 여러 개의 소형 'LoRA' 모듈
|
▶ 마이크로소프트[AI(인공지능) 서빙] - 미세 조정 서빙 ① 전통적 미세 조정 서빙 - 요청 프로세스 순서 : 요청 → 로드 → 컴퓨팅 → 출고 → 로드(미세 조정 베이스 모델) → 컴퓨팅 → 출고...
② 다중-LoRA 미세 조정 서빙 - 요청 프로세스 순서 : 요청 → 로드(4개 LoRA + 베이스 모델 / GPU에 로드) → 컴퓨팅...(병렬로 계산 수행으로 수백개, 수천개의 미세조정 모델을 로드가 가능함)
|
▶ 마이크로소프트[AI(인공지능)] - 프로덕션의 'AI(인공지능)' 출력 처리 - 자연어 출력 : 프로그래밍에서는 자연스럽지가 않음. - 사용자 프롬프트(질문) → LLM(대형 언어 모델 - 답변) ☞ 시스템에서 처리하기가 어려움 - 일관된 형식이 지정되지 않기 때문
▶ 마이크로소프트[AI(인공지능) 연구] - 문제 : 언어 모델이 작을 수 있느냐?
☞ 그래프(수평 : 훈련 토큰 / 수직 : 모델 사이즈) - GPT-3 모델 : 1,750억 개(매개 변수), 3,000억 개(훈련 토큰) - Llama 2 모델 : 70억 개(매개 변수), 2조 개(훈련 토큰) - LLM(대형 언어 모델)
☞ 컴팩트한 데이터 세트로 더 작은 모델의 가능성 - 사람 : 10억 개의 세계만 읽음(1분 : 100 단어, 30년 기간 중 하루 16시간) - 언어 모델 : '수 조'개의 단어를 읽음(모든 것을 외움, 순수한 정보는 배우기 쉬우나 '논리 / 액션(요약, 재작성)' 등에는 어려움이 있음. ★ 가설 : 훈련 데이터세트에서 덜 중요하게 여겨지는 것(소형 모델, 쉬운 훈련, 저렴한 추론 비용)
|
[마이크로소프트 - AI(인공지능) 플랫폼] ▶ 마이크로소프트 - AI(인공지능) 플랫폼 → '전 계층에 이르는 스택 개발'에 투입한 혁신의 전체 스택 ① 마이크로소프트 제품군 : CO-Pilot, Bing, 아웃룩, 쉐어포인트, 팀즈, 오피스(워드) 등등 → (소비자 & 파트너) ②-1. Azure-AI(애저-인공지능) 서비스 & 플랫폼(서비스) : 인지 검색, 문서 지능, 비디오 인덱서, Azure-OpenAI(애저-오픈AI) 서비스, 비전, 연설, 언어, 컨텐츠 안전 시스템 ②-1. Azure-AI(애저-인공지능) 서비스 & 플랫폼(플랫폼) : 애저 머신-러닝 ③ 인프라스트럭쳐 : Project Forge(프로젝트 포지) ④ H/W & 서비스 : 애저 가상화 계층 / CPU, GPU, 오프로딩 H/W, 엣지 디바이스 ⑤ 데이터센터 : 데이터센터
|
[마이크로소프트 - 서버(데이터센터)] ▶ 마이크로소프트[지속 가능형의 '서버(데이터센터)' 발전] - PUE(Power Usage Effectiveness - 전력 효율성 지수)의 진화 - 1세대(1989년 - '2.0+') : 'Colo' 시설에서 시작 - 2세대(2007년 - '1.5 ~ 1.8') : 밀도 - 3세대(2009년 - '1.4 ~ 1.6') : 방지(윈도우 애저 클라우드 공개) - 4세대(2012년 - '1.1 ~ 1.3') : 모듈러 방식(윈도우 애저 클라우드 → 마이크로소프트 애저 클라우드로 변경) - 5세대(2015년 - '1.17 ~ 1.25') : 하이퍼-스케일 규모 - 6세대(2017년 - '1.17 ~ 1.19') : 확장가능 타입 폼팩터 - 7세대(2018년 - '1.15 ~ 1.18') : 발라드 파워 - 8세대(2018년 - '1.15 ~ 1.18') : 전력 수확
♧ 2020년 ~ 2023년 기간 : 내부의 전기 시설을 재정비(단순화, 안정화, 효율성 + 고온도 작동) - 9세대(2020년 - '1.15 ~ 1.18') : 신속형 배포 타입 '서버(데이터센터)' - 10세대(2020년 - '1.12 ~ 1.14') : 다중 가용성 & 지속 가능성 - (신규)11세대(2023년 - '1.09 ~ 1.17') : AI(인공지능) GPU 가속기 ※ 서버(데이터센터)에 투입되는 에너지 = 1와트의 에너지가 발생 ※ 냉각 방식 : 공냉 방식, 액체 방식 등 다양성 냉각 방식도 설계 ※ 운용 방식 : '유연성 용량'을 도입[서버(데이터센터)의 초과 백업 전력을 구독함의 의미] ★ 전원 유틸리테 장애 발생 시, '서버(데이터센터)'의 해당 부분에 전원이 공급되지 않음.
|
▶ 마이크로소프트[서버(데이터센터)] - MW(메가와트) - 고객사에게 유연한 전력 용량을 제공하지 않음 - 대신 이 용량을 지원하기 위해서 워크로드를 최적화(전체적으로 효율적으로 운영) - 마이크로소프트의 신형 '서버(데이터센터)' 규모 & 용량 : 9MW 공간(2.4MW 용량 시설을 제공)
|
▶ 마이크로소프트[서버(데이터센터)] - 백업 전력 - 오늘날 '백업 발전기' : 화석 연료를 연소하여 전력을 발생(디젵 발전기) - 'Proton Exchange Membrane(PEM - 양성자교환막)' 수소연료전지 : '전기, 발열, 물'을 생성하는 화학 반응에서 결합(수소 + 산소) - 2013년 : 서버(데이터센터)의 전력 공급을 위한 다양성의 '연료 전지'를 모색함 - 2018년 : '수소 연료 전지'에 관심을 증폭함(수소를 흡수 후 '양성자' + '전자'를 분리)
☞ 'Proton Exchange Membrane(PEM - 양성자교환막)' 수소연료전지의 특징 - 연소 없음 - 미립자 물질이 없음 - 탄소 배출 제로
|
▶ 마이크로소프트[서버(데이터센터)] - '수소 연료 전지'의 스케일 확장(KW - 킬로와트) - 2018년도 : '10KW 용량'부터 시작 → 당시 개발하는 데 어렵게 했던 이유(비용이 많이 드는 과정) - 용량 확장 : 백업을 통한 '50KW 용량'을 전력 공급 시작 - 2020년 : 250KW로 옮겨서 전력 공급[디젤 발전기 백업 전력 목표 용량(총 48시간 연속 서버)을 10개의 랙에 공급] - 2022년 : 3MW(메가와트) 규모의 '백업 전력 공급 시스템'을 구매(전체 테스트 완료 및 수증기로 배출됨 ※ H/W 벤더사 & 설계사와 협력하여 구축(목표) : '비용의 감소 및 표준화', '규모 등급별 제작'으로 모든 사람들이 활용하는 것. ※ 또한, 마이크로소프트가 '친환경 기반 서버(데이터센터)'를 구축하기 위한 노력임.
|
▶ 마이크로소프트[서버(데이터센터)] - 내부 냉각 구조 - CPU 트렌드 : 그래프[수평 : 연도(1990 ~ 2022) / 수직 : CPU 전력(와트 - 0 ~ 350)] → 시간이 지남에 따른 많은 에너지(와트)를 소모함 - GPU 트렌드(엔비디아) : 그래프[수평(제품군) : P40, V100, A100(450W 미만), H100(750W) / 수직 : GPU 전력(와트 - 0 ~ 750)] → CPU보다 훨씬 더 많은 에너지(와트)를 소모함 - 직면한 과제 : CPU & GPU의 발열 문제 - 공냉 냉각 방식 : 효율적이지 않음(1와트의 에너지 냉각 시 더 많은 양의 공기를 유입) - 수냉 냉각 방식 : 수냉 보조('냉각판' 냉각 방식) → Azure MAIA(에저 마이아) AI 가속기 도입
※ 마이크로소프트, 커스텀 'Azure MAIA(에저 마이아) AI(인공지능) 가속기' 서버 랙 세부사항 - 신규 샤시 개발(랙 옆에 위치 - 사이드킥) : 반도체를 수냉 냉각으로 발열을 제어 - 커스텀 서버(데이터센터) 보드 : 냉각을 위해 왼쪽 하단에서 '수냉 케이블'이 올라옴(수냉 '흡입출구'가 있음) → 폐쇄 회로 시스템으로 수냉 효율성도 탁월함 - 가속기 모듈 : 상단이 벗겨진 상태에서 해당 모듈을 통하여, 수냉 유입(유출)을 볼 수 있음.
|
▶ 마이크로소프트[서버(데이터센터)] - 내부 냉각 구조(미세유착 냉각 방식) - 수냉 '냉각판' 방식(왼쪽) : 튜브, 냉각판, 파이프를 통하여 수냉이 유입(유출) 과정을 통하여 발열을 식힘 - (신규)미세유착 냉각 방식 : 냉각판을 통과하는 대신 물이 부품에 '직접 접촉 및 흐름'이 가능한 반도체, 방식, 공간을 실제로 에칭함 ☞ CPU[8세대 인텔 코어 i7 8700(95W TDP)] : CPU 히트스프레더를 분해 및 코어 다이에 '유체 공급 튜브'를 커스텀 접합 및 연결하여 냉각하는 방법도 적용함 → 오버클럭킹 및 215와트의 전력 생산으로 '미세유착 방식'으로 냉각을 재현함
★ 미세유착 냉각 방식 세부 구조 - 구성 요소 : 인터포저, 반도체,(H/W, FPGA), 수냉 유입구, 수냉 유출구 - '3D 분해' 구성 : 엇갈림(? - 의역입니다) 방식 초소형 쿨링 냉각판 : 200um[1개당 쿨링핀 높이 - um(마이크로미터)], 마이크로핀 방열판 ※ 발열 저항 & 폼팩터의 상당한 감소를 자랑함 ※ 특수 발열 냉각 시스템 방식으로 최대 성능을 향상(2배 ~ 3배) 및 제곱센티미터당 최대 1,000와트의 플럭스 값을 지원
|
▶ 마이크로소프트[서버(데이터센터)] - 서버(데이터센터) GPU & 네트워크 - '고대역폭 & 저지연 대기시간'의 '인피니밴드 Back-End 네트워크'로 연결된 GPU 클러스터 - 인피니밴드 'Back-End' 네트워크 : 서버 간에 '1.5 마이크로초'의 지연 시간으로, 각 개별 VM에서 초당 최대 3.2T가 절약됨 - 표준 프리미티브 지원(해당 GPU의 제공 라이브러리 - 가중치 & 매개변수) : MPI, NCCL
|
[마이크로소프트 - 서버(데이터센터) 인프라스트럭쳐] ▶ 마이크로소프트[서버(데이터센터)] - 오프로드를 통한 인프라스트럭쳐의 가속화 ① 전통적인 인프라스트럭쳐(네트워크, 스토리지, I/O, 호스트 OS) - 호스트 OS : 스토리지, 네트워크, 에이전트 - 소비자 워크로드 : VM(64개의 가상 CPU) ※ VM에서 H/W와 직접 통신하지 않고, 중간에 S/W 오버헤드가 발생한다는 것을 의미함 ※ 해당 I/O 처리를 수행하는 동안 서버에서 많은 CPU를 소모함
② 오프로드 방식 인프라스트럭쳐 - I/O 가속 변환 계층 - 소비자 워크로드 : VM(192개의 가상 CPU) - 보안 & 리소스 경계(애저 부스트) : 오프로드 가속화(에이전트 + 스토리지 + 네트워크)
|
▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] - 높은 스택 단계 : AI(인공지능) 모델의 제공 및 훈련을 진행하는 방법 - 코드명 : Project Forge(프로젝트 포지) → 공식 브랜드명은 미정 - 모든 내부 교육 및 추론 워크로드를 실행하는 장소임
★ Project Forge(프로젝트 포지) 세부사항 - 'Azure(애저) 클라우드' 전체의 서버리스 워크로드 인식 글로벌 스케줄링 - 신뢰성이 높고 효율적인 AI 인프라스트럭쳐 - 워크로드를 위한 인프라스트럭쳐 및 환경 추상화 - 엔비디아 'H100' 텐서 코어 GPU가 필요함 - 글로벌 스케줄러(투명한 선점, 확장 & 축소, 실행) : 모든 Azure 클라우드 지역의 용량을 볼 수 있음[모든 지역에서 최신(최고) 기능 사용이 가능한 것은 아님]
♧ 구성요소 : '훈련 & 추론' → '애저 머신-러닝', 전역 스케줄러, 신뢰성 시스템, AI(인공지능) 가속기 추출 ① 신뢰성 시스템 : 자동 복구, 장애 조치, 지불, 재개, 이주, 스케일링, 투명성 기반 체크포인트 ② AI(인공지능) 가속기 추출 H/W : CPU, GPU, FPGA, ASIC
|
▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] - 글로벌 리소스 관리자 - 용량의 처리화 : 물리적 → 가상화
☞ 기존 방식 - 각 팀은 자신의 용량만 사용이 가능함 - 용량을 모두 사용하지 않으면, 초과 용량분은 낭비됨 - 다른 팀의 GPU는 사용 접근이 불가능함
☞ 신규 방식 - 예약 포함된 단일 용량 공간(프리미엄 등급) - 표준, 기본 등급의 초과 구독 - 팀은 정해진 용량이 아닌 가상 용량 클러스터를 보유하게 됨.
☞ Global Pool(글로벌 공간) 보기 - 총 사용량(프리미엄 + 스탠다드 + 기본) - 예약 용량 사용량(프리미엄) ※ 단일 풀 유무에 관계없이 훈련 활용
|
▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] - 신뢰성 시스템 - 최대 효율성을 실현하는 열쇠 - 수행하는 방법 : 투명 체크포인트를 사용 - 큰 작업의 수행하는 경우 : GPU & 서버에 오류 발생 시 '체크포인트' 지점 시점으로 롤백이 가능함
★ 투명성 체크포인트의 구조 - 모델 훈련 ↔ 훈련 시간 - 체크포인트 1 ↔ 체크포인트 2(장애 조치) / 체크포인트 2(일시정지 & 재개) / 체크포인트 4(유예) / 체크포인트 5(높은 우선순위 작업의 선점) / 체크포인트 6(스케일링)
|
▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] - 장치 프록시 ① CPU 주소 공간 : 프레임워크, 라이브러리 도우미, 사용자 코드 / 디바이스 API(CUDA, ROCm, MAIA) → 디바이스 프록시 클라이언트 & 동적 차단 ② (추가)디바이스 프록시 : 메모리 관리, 로그 / 릴레이, 시간 배분 / 디바이스 API(CUDA, ROCm, MAIA) ③ 가속기 H/W(GPU ,FPGA, ASIC) : 디바이스 메모리(RAM) ※ ① + ② = 공유 메모리 채널
|
▶ 마이크로소프트(애저 클라우드] ① 마이크로소프트[애저 클라우드(애저 부스트)] - 원격 스토리지 ☞ 기존 방식 - VM 사용자 → SCSI로 '호스트'에 접근 - 호스트(VM 버스, Azure S/W, NDIS + 하이퍼-V & 가상화) → 원격 스토리지에 접속
☞ 신규 방식 - VM 사용자 → NVMe로 접속(애저 부스트) - 애저 부스트 → 호스트 및 원격 스토리지에 접속 - 호스트(Azure S/W, NDIS) → 원격 스토리지에 접속
※ 애저 부스트의 재설계를 통한 장점 ① IOPS 향상(650,000K) : 이전 방식보다 2배 증가 ② 처리량 향상(12.5GB/s) : 이전 방식 보다 25% 증가
|
② 마이크로소프트[애저 클라우드(애저 부스트)] - 로컬 스토리지 ☞ 기존 방식 - VM 사용자 → SCSI로 "호스트"에 접근 - 호스트(VM 버스, Azure S/W, 하이퍼-V & 가상화) → 로컬 SSD에 접속
☞ 신규 방식(애저 부스트 SSD) - VM 사용자 → NVMe SSD 컨트롤러로 접속 - 보안 & 리소스 경계
※ 애저 부스트 SSD의 재설계를 통한 장점 ① IOPS 향상(3,800,000) : 이전 방식보다 7.4배 증가 ② 처리량 향상(로컬 / 임시 저장소 - 17.2GB/s) : 이전 방식 보다 4.3배 증가
|
③ 마이크로소프트[애저 클라우드(애저 부스트)] - 네트워킹 - 처리량 : 최대 200Gbps - 서비스 처리율 : 9배 개선 → 해당 구성 요소를 제거함으로써 가상화 워크로드에 영향을 미치지 않으면서 서비스 제공이 가능함 - 탄력성 기반 '듀얼 TOR'
☞ 접근 방식 - VM 사용자 : 호스트 및 애저 부스트로 접속 - 애저 부스트 : SoC 반도체, TOR 1 & TOR 2 - 호스트 : VM 버스, Azure S/W, NDIS + 하이퍼-V & 가상화
|
④ 마이크로소프트[애저 클라우드(애저 부스트)] - VM(가상화 머신) (공식 발표!)엔비디아 GPU 기반 '마이크로소프트 애저 기밀 컴퓨팅 VM' - 서버(데이터센터) GPU "신규 VM" : Azure "NCCv5 VMs"(프리뷰 버전) - 서버(데이터센터) GPU(신규) : H100 텐서 코어 GPU ① CPU 구성 요소 : TEE VM(애플리케이션, 유저 모드 라이브러리, 커널 모드 GPU 드라이버, 게스트 OS) ② GPU 구성 요소 : TEE[PCI-익스프레스 PF, 애플리케이션, 컴퓨팅 엔진(2개), DMA, 비디오, L2 캐시 메모리, HBM 메모리, GSP, FSP, Fuses] ③ 하이퍼바이저 가상화 : CPU & CPU 바이오스 ※ ① ↔ ② : 메세지 암호화 적용
|
[마이크로소프트 - 슈퍼컴퓨터] ▶ 마이크로소프트[서버(데이터센터)] - 슈퍼컴퓨터 - 2020년 출시[AI(인공지능) 슈퍼컴퓨터(엔비디아 V100 GPU)] : 10,000개 이상 GPU 탑재(상위 5대 슈퍼컴퓨터와 비교 가능) - 2023년 공개[AI(인공지능) 슈퍼컴퓨터(엔비디아 H100 GPU)] : 14,400개 이상 GPU 탑재['TOP 500' 순위 중 세계 3위) - (실제 2023년도의 시스템) : 좀 더 큰 슈퍼컴퓨터!
|
▶ 마이크로소프트[서버(데이터센터)] - 슈퍼컴퓨터 - 마이크로소프트 애저 클라우드 VM : 'ND H100 v5 VM' - 싱글 H100 GPU(80GB HBM3 메모리 탑재) - 멀티 H100 GPU(NVSwitch + NV-Link) : 8개 GPU 연결 - 멀티 H100 GPU & '엔비디아 퀀텀-2 CX7 인피니밴드' : ND v5 VM(100대), H100 GPU(1,000개)
☞ 마이크로소프트 애저 VM 'ND H100 v5 VM' 사양 1. 서버(데이터센터) CPU : 인텔 4세대 제온 스케일러블 CPU 2. 서버(데이터센터) GPU : 엔비디아 H100 텐서 코어 GPU * 8개(차세대 NV스위치 및 NV링크 4.0을 통한 상호 연결) 3. 서버(데이터센터) RAM : DDR5 DIMM 4800Mhz의 16채널 4. 네트워크 및 대역폭 ① GPU 대역폭(엔비디아 퀀텀-2 CX7 인피니밴드 - 400Gb/s) ② VM 대역폭(VM당 3.2TB/s의 비차단 Fat-Tree 네트워크) ③ NV스위치 및 NV링크 4.0(이전 3.6 포함)의 각 VM 내 8개 로컬 GPU 간의 'TB/s' 이중 대역폭
|
▶ 마이크로소프트[서버(데이터센터) GPU - 기밀 컴퓨팅] - 전체 수명 주기동안 데이터를 보호
☞ 기존 암호화 - 미사용 데이터 암호화: Blob Storage, 데이터베이스 등에 저장될 때의 비활성 데이터 - 전송 중 데이터 : 비신뢰성의 '공용 또는 사설 네트워크' 사이에 흐르는 데이터
☞ 기밀 컴퓨팅 - 사용 중인 데이터 관리(보호 / 암호) : RAM에 있는 동안의 계산 중에 사용 중인 데이터
|
▶ 마이크로소프트[서버(데이터센터) GPU] - H100 GPU(벤치마크 - MLperf) - 2023년 초 → 이전 세계 기록[OpenAI(GPT3 모델) - 1억 7,500만개 매개변수) : 10.9분 소요 - 2023년 3월(BERT 언어 모델 - 3억 5천만개 매개변수) : 5.4분 소요(모델 훈련 소요시간) - 2023년 10월[OpenAI(GPT3 모델 훈련)] 4.0분 소요(1,344대 'ND H100 v5 VM'을 가동) - 신기록 ※ 추가 신기록(퍼블릭 클라우드 - 가상화) : OpenAI(GPT3 모델 훈련) ☞ 3.92분 소요(2%의 성능 오버헤드에 불과)
|
▶ 마이크로소프트[서버(데이터센터) GPU - AMD Instinct(인스팅트) MI300X] - 서버(데이터센터) GPU 신규 VM : ND MI300X V5 - 싱글 GPU(인스팅트 MI300X) : HBM3 메모리(192GB) → LLM(대형 언어 모델) 실행이 가능함 - 멀티 GPU(인스팅트 GPU 플랫폼 - 8개 MI300X GPU) : 인피니티 패브릭 3.0(로컬 GPU 간) - 멀티 GPU(인스팅트 GPU 플랫폼 - 8개 MI300X GPU) & '엔비디아 퀀텀-2 인피니밴드' : GPU당 '400 기가비트' 전용 링크
☞ 서버(데이터센터) GPU(신규) 제원 - "AMD Instinct(인스팅트) MI300X(Together We Advance_Advancing AI 컨퍼런스)" 1. AMD Instinct(인스팅트) MI300X 서버(데이터센터) GPU - 3rd CDNA "서버(데이터센터) GPU 마이크로아키텍처 - "생성-AI(인공지능)"의 발전에 특화된 GPU - 트랜지스터 : 1530억개 - 제조공정 : 5nm & 6nm - XCD(가속기 컴플렉스 다이) CU(3rd CDNA) : 최대 304개 탑재(코어 개수 : 64개 기준 19,456개) - I/O 다이 : 최대 4개 탑재[AMD 인피니티 캐시 메모리(256MB) 탑재] - 메모리(HBM3) : 192GB(대역폭 : 5.3TB/s) ※ AMD Instinct(인스팅트) MI300X GPU 가속기 - "생성-AI(인공지능)"의 리더쉽
2. AMD Instinct(인스팅트) GPU 플랫폼 - 서버(데이터센터) GPU : AMD Instinct(인스팅트) MI300X * 8개 - 메모리 용량의 리더쉽 : 192GB * 8개 : 최대 1.5TB - 4세대 AMD 인피니티 패브릭 - 산업 표준 디자인(OCP 인프라스트럭쳐)
|
[마이크로소프트 - 커스텀 AI(인공지능)] ▶ 마이크로소프트[커스텀 AI(인공지능) - 비디오 가속기] - 팀즈 통화 - 실행 순서 : 재생 → 디코딩 → 사전 처리 → 훈련 & 추론 → 인코딩 → 사용자 단말기 - 실행 순서 부문(GPU) : '사전 처리 → 훈련 & 추론' ☞ 값이 매우 비싸고, 많은 전력을 소모함 - 효율성 기반 트랜스코딩 : 저지연 대기 시간 범위 & 극도로 낮은 전력으로 사용 - 커스텀 비디오 가속기 : AI(인공지능)의 디코딩 처리 부문 양쪽에 디코딩 & 인코딩을 모두 처리 설계 - 비디오 스트림 위에 AI(인공지능)으로 처리.
▶ 마이크로소프트(벤치마크) - 비디오 가속기 - 경쟁사 GPU(가속기) : 엔비디아 H100 GPU(왼쪽) vs 마이크로소프트 Azure-MAIA(애저 마이아 - 오른쪽) - 벤치마크 방식 : FFMpeg 비디오 스트림 처리과정 동안의 에너지 소모량 측정(초당, 와트당 프레임) - 결과 : [왼쪽 : 35 FPS] / [오른쪽 : 150(168) FPS] ☞ 커스텀 반도체 사용 시 최대 5배 효율성이 상승함
▶ 마이크로소프트[H/W - 커스텀 AI(인공지능) 가속기] - Azure MAIA(애저 마이아) 커스텀 AI(인공지능) 가속기(Azure MAIA 100) - AI(인공지능) 가속기 제조공정 : 5nm - AI(인공지능) 가속기 탑재 트랜지스터 : 1,050억개 - 애저 클라우드의 LLM(대형 언어모델)의 교육 & 추론에 특화 및 최적화 - 서버 랙, 반도체, S/W = 통합 시스템 - '클라우드 AI(인공지능'의 워크로드 특화로 설계 ※ 마이크로소프트의 Azure MAIA '통합 SoC' 종합 설계 장비 실물을 공개하였습니다!
|
[마이크로소프트 - S/W] ▶ 마이크로소프트[S/W - Azure MAIA(애저 마이아) S/W 스택] ☞ 구성 요소 ① 모델 & 애플리케이션 ② AI(인공지능) 프레임워크 : (예시)PyTorch, ONNX 런타임 ③ MAIA SDK : 프로그래밍 모델(MAIA API, 트리톤), 컴파일러(트리톤, ONNX 그래프, MAIA 코어), 개발자 도구(프로파일러, 디버거, 모니터링), 라이브러리(기본 & 융합 커널, 컬렉티브), 런타임 ④ MAIA AI(인공지능) 가속기
▶ 마이크로소프트[S/W 스택(비전) - H/W 등급 'AI(인공지능)' 개발의 전반적 관점] - 모델 & 애플리케이션 - AI(인공지능) 프레임워크 : (예시)PyTorch, ONNX 런타임 - 커스텀 커널 : 다양한 'AI(가속기, GPU) H/W' 과제는 커스텀 커널을 작성[AI(인공지능)을 최적화하기 위해서 호출] - Triton(트리톤) 프로젝트 : OpenAI와 파트너쉽 체결(H/W 추상화 및 도메인별 언어로 커널 개발 지원) → 효율적 방법으로 CUDA로 컴파일
▶ 커널 라이브러리 - 엔비디아 GPU[Compute Unified Device Architecture(CUDA)] - AMD 인스팅트 GPU[Radeon Open Compute platform(ROCm)] - 마이크로소프트 Azure-MAIA(애저-마이아) AI 가속기(MAIA API)
|