인터넷 / 소프트웨어 : 윈도우즈, 리눅스, 기타 운영체제, 각종 어플리케이션, 프로그램, 소프트웨어, 인터넷, 인터넷 서비스에 대한 이야기, 소식, 테스트, 정보를 올리는 게시판입니다.

소식

2024.01.03 14:04

마이크로소프트 이그나이트 2023 컨퍼런스 전체 정리본[5차 - 'AI(인공지능)의 혁신' 살펴보기]

조회 수 394 댓글 0

Extra Form
참고/링크	https://blogs.microsoft.com/blog/2023/11...ng-change/

MS 이그나이트 2023.png

2023년 11월 15일 ~ 17일(11월 16일 ~ 18일), '마이크로소프트 이그나이트 2023 컨퍼런스'가 진행되었는데요.

당시 게시자 본인도 댓글 생중계를 진행하였고, 이에 댓글 내용을 전체 취합 및 정리하여 '마이크로소프트 이그나이트 2023 컨퍼런스 전체 정리본[4차 - AI(인공지능) 시대의 마이크로소프트 애저 클라우드]'을 올려드립니다.

많은 도움이 되셨으면 좋겠습니다. 감사합니다

★ 본래 2023년 11월 18일 새벽 5시 30분부터 시작할려고 했으나, 개인 및 업무 사정으로 인하여 부득이하게 12월 연말 지나기 직전에 진행하게 되었습니다.

이 부분은 회원분들께서 넓은 양해를 부탁드립니다^^;;

[마이크로소프트]

① [LLM(대형 언어 모델) 애플리케이션 프로파일]

- 그래프 구성 : 프롬프트(경량형, 중형) / 생성(경량형, 중형)

- 키워드 : 컨텐츠 제작, 신속한 엔지니어링 + 기업용 챗봇, 챗봇, 요약

② 마이크로소프트(생성 스케줄링)

☞ Naive 생성 스케줄링

- 구성 요소 : 프롬프트 토큰, LLM(대규모 언어 모델)

- 처리 과정(첫번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도 + 신속한 처리로 인해 속도가 저하 + 정상으로 회복되지만 병렬 세대로 인하여 속도가 저하)

- 처리 과정(두번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ☞ 첫번째 토큰 처리 과정 중 간섭이 발생함

☞ Azure-ML(애저 머신러닝) 'Project Flywheel(프로젝트 플라이휠)'

- 구성 요소 : 프롬프트 토큰, LLM(대규모 언어 모델)

- 처리 과정(첫번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ▶ 일괄 처리로 고정 수량만 수행

- 처리 과정(두번째 토큰) : 프롬프트 토큰 → LLM → 토큰 생성(일반 속도) ▶ 첫번째 토큰 처리에 대한 속도 영향 없음

※ 특징 : 예측 가능한 발전 처리량 / PTU 및 생성 처리량의 선형 규모 / 부분 자원 구매(부분 제공 처리량 단위를 도입이 가능하게 해주는 기능)

③ 오픈 소스 프로젝트

- Type-Chat(타입-채팅) : 모델이 출력할 내용에 대한 '스키마'를 지정하도록 하는 기능

- 엔지니어링의 변화 : 프롬프트 ☞ 스키마

- 구성 요소 : 정의된 스키마 → 타입-채팅[프롬프트 구축 → LLM ↔ 스키마 검증 ↔ 복구] →(입력이 잘된 응답) 애플리케이션 코드

- 지원 예정 언어 : PyThon, '.NET', C#, 자바 스크립트

④ 마이크로소프트[기밀 AI(인공지능)의 비전]

- 모델 : 사용자들의 IP를 보호를 원함

- 데이터 : 훈련, 미세조정, 추론, 프롬프트 기반 응답 교류 데이터(본인 외에는 누구도 볼 수 없음)

- 다중 공유 : 당사자 간의 데이터 공유 및 기밀 H/W로 보호(서로 간의 데이터를 볼 수 없는 다중간 시나리오 지원)

[마이크로소프트 - AI(인공지능)]

▶ 마이크로소프트[AI(인공지능) 서빙]

- 질문 : 언제 무엇을 하느냐

- 기초 모델의 훈련

① 제로샷(시작) : 모델에 어떤 예시도 제공하지 않음

② 소수 : 사용자가 좋아하는 몇 가지 예시를 제공 및 학습하여 원하는 것을 생각할 수 있는지 확인

③ RAG(검색 증강 생성) : 대량의 데이터 제공 및 소스 로딩하거나 제공

④ 미세 조정 : 모델에 지식을 추가하는 데 적합하지 않음.

※ 사용자(고객)와(과) 내부적으로 협력한 모든 내용을 바탕으로 한 지침을 단계적 차트로 따르는 것

☞ 전통적인 미세 조정(GitHub CO-Pilot)

- 고객이 모델의 사용자 정의 버전을 만드는 경우가 많기 때문임.

- 과정(대규모) : 대규모 공통 데이터 세트 → 사전 학습 → 소스 모델

- 과정(소규모) : 소규모 목표 데이터 세트 → 미세 조정 → 목표 모델

- GPU 필요 개수(미세 조정) : 96개

- 필요 체크포인트 용량 : 1TB

- 모델 전환 시의 소요 시간 : 1분

※ (소규모)과정 모델은 '(대규모)과정 모델' 전체를 복사함.

※ 각 미세 조정 작업을 위한 거대 모델 : 훈련 가능한 모델 매개변수(1,750억개)

☞ 'LoRA' 미세조정 모델(마이크로소프트 연구소)

- 하위 적응형 미세조정

- 과정(소규모) : 소규모 목표 데이터 세트 → 동결 → 목표 모델(기본 중량)

- 추가 : '미세조정' 어댑터라는 추가 가중치를 생성(LoRA 어댑터)

- GPU 필요 개수(미세 조정) : 24개

- 필요 체크포인트 용량 : 200MB

- 모델 전환 시의 소요 시간 : 2초

- 추가 추론 대기 시간 없음

- 훈련 처리량 증가 : 25%

※ 하나의 기본 모델 + 여러 개의 소형 어댑터(GPT-3 모델 미세 조정의 용량 크기 : 200MB)

※ 사전 학습 모델을 사용하여 다양한 작업을 위한 여러 개의 소형 'LoRA' 모듈

▶ 마이크로소프트[AI(인공지능) 서빙] - 미세 조정 서빙

① 전통적 미세 조정 서빙

- 요청 프로세스 순서 : 요청 → 로드 → 컴퓨팅 → 출고 → 로드(미세 조정 베이스 모델) → 컴퓨팅 → 출고...

② 다중-LoRA 미세 조정 서빙

- 요청 프로세스 순서 : 요청 → 로드(4개 LoRA + 베이스 모델 / GPU에 로드) → 컴퓨팅...(병렬로 계산 수행으로 수백개, 수천개의 미세조정 모델을 로드가 가능함)

▶ 마이크로소프트[AI(인공지능)] - 프로덕션의 'AI(인공지능)' 출력 처리

- 자연어 출력 : 프로그래밍에서는 자연스럽지가 않음.

- 사용자 프롬프트(질문) → LLM(대형 언어 모델 - 답변) ☞ 시스템에서 처리하기가 어려움

- 일관된 형식이 지정되지 않기 때문

▶ 마이크로소프트[AI(인공지능) 연구]

- 문제 : 언어 모델이 작을 수 있느냐?

☞ 그래프(수평 : 훈련 토큰 / 수직 : 모델 사이즈)

- GPT-3 모델 : 1,750억 개(매개 변수), 3,000억 개(훈련 토큰)

- Llama 2 모델 : 70억 개(매개 변수), 2조 개(훈련 토큰)

- LLM(대형 언어 모델)

☞ 컴팩트한 데이터 세트로 더 작은 모델의 가능성

- 사람 : 10억 개의 세계만 읽음(1분 : 100 단어, 30년 기간 중 하루 16시간)

- 언어 모델 : '수 조'개의 단어를 읽음(모든 것을 외움, 순수한 정보는 배우기 쉬우나 '논리 / 액션(요약, 재작성)' 등에는 어려움이 있음.

★ 가설 : 훈련 데이터세트에서 덜 중요하게 여겨지는 것(소형 모델, 쉬운 훈련, 저렴한 추론 비용)

[마이크로소프트 - AI(인공지능) 플랫폼]

▶ 마이크로소프트 - AI(인공지능) 플랫폼 → '전 계층에 이르는 스택 개발'에 투입한 혁신의 전체 스택

① 마이크로소프트 제품군 : CO-Pilot, Bing, 아웃룩, 쉐어포인트, 팀즈, 오피스(워드) 등등 → (소비자 & 파트너)

②-1. Azure-AI(애저-인공지능) 서비스 & 플랫폼(서비스) : 인지 검색, 문서 지능, 비디오 인덱서, Azure-OpenAI(애저-오픈AI) 서비스, 비전, 연설, 언어, 컨텐츠 안전 시스템

②-1. Azure-AI(애저-인공지능) 서비스 & 플랫폼(플랫폼) : 애저 머신-러닝

③ 인프라스트럭쳐 : Project Forge(프로젝트 포지)

④ H/W & 서비스 : 애저 가상화 계층 / CPU, GPU, 오프로딩 H/W, 엣지 디바이스

⑤ 데이터센터 : 데이터센터

[마이크로소프트 - 서버(데이터센터)]

▶ 마이크로소프트[지속 가능형의 '서버(데이터센터)' 발전] - PUE(Power Usage Effectiveness - 전력 효율성 지수)의 진화

- 1세대(1989년 - '2.0+') : 'Colo' 시설에서 시작

- 2세대(2007년 - '1.5 ~ 1.8') : 밀도

- 3세대(2009년 - '1.4 ~ 1.6') : 방지(윈도우 애저 클라우드 공개)

- 4세대(2012년 - '1.1 ~ 1.3') : 모듈러 방식(윈도우 애저 클라우드 → 마이크로소프트 애저 클라우드로 변경)

- 5세대(2015년 - '1.17 ~ 1.25') : 하이퍼-스케일 규모

- 6세대(2017년 - '1.17 ~ 1.19') : 확장가능 타입 폼팩터

- 7세대(2018년 - '1.15 ~ 1.18') : 발라드 파워

- 8세대(2018년 - '1.15 ~ 1.18') : 전력 수확

♧ 2020년 ~ 2023년 기간 : 내부의 전기 시설을 재정비(단순화, 안정화, 효율성 + 고온도 작동)

- 9세대(2020년 - '1.15 ~ 1.18') : 신속형 배포 타입 '서버(데이터센터)'

- 10세대(2020년 - '1.12 ~ 1.14') : 다중 가용성 & 지속 가능성

- (신규)11세대(2023년 - '1.09 ~ 1.17') : AI(인공지능) GPU 가속기

※ 서버(데이터센터)에 투입되는 에너지 = 1와트의 에너지가 발생

※ 냉각 방식 : 공냉 방식, 액체 방식 등 다양성 냉각 방식도 설계

※ 운용 방식 : '유연성 용량'을 도입[서버(데이터센터)의 초과 백업 전력을 구독함의 의미]

★ 전원 유틸리테 장애 발생 시, '서버(데이터센터)'의 해당 부분에 전원이 공급되지 않음.

▶ 마이크로소프트[서버(데이터센터)] - MW(메가와트)

- 고객사에게 유연한 전력 용량을 제공하지 않음

- 대신 이 용량을 지원하기 위해서 워크로드를 최적화(전체적으로 효율적으로 운영)

- 마이크로소프트의 신형 '서버(데이터센터)' 규모 & 용량 : 9MW 공간(2.4MW 용량 시설을 제공)

▶ 마이크로소프트[서버(데이터센터)] - 백업 전력

- 오늘날 '백업 발전기' : 화석 연료를 연소하여 전력을 발생(디젵 발전기)

- 'Proton Exchange Membrane(PEM - 양성자교환막)' 수소연료전지 : '전기, 발열, 물'을 생성하는 화학 반응에서 결합(수소 + 산소)

- 2013년 : 서버(데이터센터)의 전력 공급을 위한 다양성의 '연료 전지'를 모색함

- 2018년 : '수소 연료 전지'에 관심을 증폭함(수소를 흡수 후 '양성자' + '전자'를 분리)

☞ 'Proton Exchange Membrane(PEM - 양성자교환막)' 수소연료전지의 특징

- 연소 없음

- 미립자 물질이 없음

- 탄소 배출 제로

▶ 마이크로소프트[서버(데이터센터)] - '수소 연료 전지'의 스케일 확장(KW - 킬로와트)

- 2018년도 : '10KW 용량'부터 시작 → 당시 개발하는 데 어렵게 했던 이유(비용이 많이 드는 과정)

- 용량 확장 : 백업을 통한 '50KW 용량'을 전력 공급 시작

- 2020년 : 250KW로 옮겨서 전력 공급[디젤 발전기 백업 전력 목표 용량(총 48시간 연속 서버)을 10개의 랙에 공급]

- 2022년 : 3MW(메가와트) 규모의 '백업 전력 공급 시스템'을 구매(전체 테스트 완료 및 수증기로 배출됨

※ H/W 벤더사 & 설계사와 협력하여 구축(목표) : '비용의 감소 및 표준화', '규모 등급별 제작'으로 모든 사람들이 활용하는 것.

※ 또한, 마이크로소프트가 '친환경 기반 서버(데이터센터)'를 구축하기 위한 노력임.

▶ 마이크로소프트[서버(데이터센터)] - 내부 냉각 구조

- CPU 트렌드 : 그래프[수평 : 연도(1990 ~ 2022) / 수직 : CPU 전력(와트 - 0 ~ 350)] → 시간이 지남에 따른 많은 에너지(와트)를 소모함

- GPU 트렌드(엔비디아) : 그래프[수평(제품군) : P40, V100, A100(450W 미만), H100(750W) / 수직 : GPU 전력(와트 - 0 ~ 750)] → CPU보다 훨씬 더 많은 에너지(와트)를 소모함

- 직면한 과제 : CPU & GPU의 발열 문제

- 공냉 냉각 방식 : 효율적이지 않음(1와트의 에너지 냉각 시 더 많은 양의 공기를 유입)

- 수냉 냉각 방식 : 수냉 보조('냉각판' 냉각 방식) → Azure MAIA(에저 마이아) AI 가속기 도입

※ 마이크로소프트, 커스텀 'Azure MAIA(에저 마이아) AI(인공지능) 가속기' 서버 랙 세부사항

- 신규 샤시 개발(랙 옆에 위치 - 사이드킥) : 반도체를 수냉 냉각으로 발열을 제어

- 커스텀 서버(데이터센터) 보드 : 냉각을 위해 왼쪽 하단에서 '수냉 케이블'이 올라옴(수냉 '흡입출구'가 있음) → 폐쇄 회로 시스템으로 수냉 효율성도 탁월함

- 가속기 모듈 : 상단이 벗겨진 상태에서 해당 모듈을 통하여, 수냉 유입(유출)을 볼 수 있음.

▶ 마이크로소프트[서버(데이터센터)] - 내부 냉각 구조(미세유착 냉각 방식)

- 수냉 '냉각판' 방식(왼쪽) : 튜브, 냉각판, 파이프를 통하여 수냉이 유입(유출) 과정을 통하여 발열을 식힘

- (신규)미세유착 냉각 방식 : 냉각판을 통과하는 대신 물이 부품에 '직접 접촉 및 흐름'이 가능한 반도체, 방식, 공간을 실제로 에칭함

☞ CPU[8세대 인텔 코어 i7 8700(95W TDP)] : CPU 히트스프레더를 분해 및 코어 다이에 '유체 공급 튜브'를 커스텀 접합 및 연결하여 냉각하는 방법도 적용함 → 오버클럭킹 및 215와트의 전력 생산으로 '미세유착 방식'으로 냉각을 재현함

★ 미세유착 냉각 방식 세부 구조

- 구성 요소 : 인터포저, 반도체,(H/W, FPGA), 수냉 유입구, 수냉 유출구

- '3D 분해' 구성 : 엇갈림(? - 의역입니다) 방식 초소형 쿨링 냉각판 : 200um[1개당 쿨링핀 높이 - um(마이크로미터)], 마이크로핀 방열판

※ 발열 저항 & 폼팩터의 상당한 감소를 자랑함

※ 특수 발열 냉각 시스템 방식으로 최대 성능을 향상(2배 ~ 3배) 및 제곱센티미터당 최대 1,000와트의 플럭스 값을 지원

▶ 마이크로소프트[서버(데이터센터)] - 서버(데이터센터) GPU & 네트워크

- '고대역폭 & 저지연 대기시간'의 '인피니밴드 Back-End 네트워크'로 연결된 GPU 클러스터

- 인피니밴드 'Back-End' 네트워크 : 서버 간에 '1.5 마이크로초'의 지연 시간으로, 각 개별 VM에서 초당 최대 3.2T가 절약됨

- 표준 프리미티브 지원(해당 GPU의 제공 라이브러리 - 가중치 & 매개변수) : MPI, NCCL

[마이크로소프트 - 서버(데이터센터) 인프라스트럭쳐]

▶ 마이크로소프트[서버(데이터센터)] - 오프로드를 통한 인프라스트럭쳐의 가속화

① 전통적인 인프라스트럭쳐(네트워크, 스토리지, I/O, 호스트 OS)

- 호스트 OS : 스토리지, 네트워크, 에이전트

- 소비자 워크로드 : VM(64개의 가상 CPU)

※ VM에서 H/W와 직접 통신하지 않고, 중간에 S/W 오버헤드가 발생한다는 것을 의미함

※ 해당 I/O 처리를 수행하는 동안 서버에서 많은 CPU를 소모함

② 오프로드 방식 인프라스트럭쳐

- I/O 가속 변환 계층

- 소비자 워크로드 : VM(192개의 가상 CPU)

- 보안 & 리소스 경계(애저 부스트) : 오프로드 가속화(에이전트 + 스토리지 + 네트워크)

▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부]

- 높은 스택 단계 : AI(인공지능) 모델의 제공 및 훈련을 진행하는 방법

- 코드명 : Project Forge(프로젝트 포지) → 공식 브랜드명은 미정

- 모든 내부 교육 및 추론 워크로드를 실행하는 장소임

★ Project Forge(프로젝트 포지) 세부사항

- 'Azure(애저) 클라우드' 전체의 서버리스 워크로드 인식 글로벌 스케줄링

- 신뢰성이 높고 효율적인 AI 인프라스트럭쳐

- 워크로드를 위한 인프라스트럭쳐 및 환경 추상화

- 엔비디아 'H100' 텐서 코어 GPU가 필요함

- 글로벌 스케줄러(투명한 선점, 확장 & 축소, 실행) : 모든 Azure 클라우드 지역의 용량을 볼 수 있음[모든 지역에서 최신(최고) 기능 사용이 가능한 것은 아님]

♧ 구성요소 : '훈련 & 추론' → '애저 머신-러닝', 전역 스케줄러, 신뢰성 시스템, AI(인공지능) 가속기 추출

① 신뢰성 시스템 : 자동 복구, 장애 조치, 지불, 재개, 이주, 스케일링, 투명성 기반 체크포인트

② AI(인공지능) 가속기 추출 H/W : CPU, GPU, FPGA, ASIC

▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] - 글로벌 리소스 관리자

- 용량의 처리화 : 물리적 → 가상화

☞ 기존 방식

- 각 팀은 자신의 용량만 사용이 가능함

- 용량을 모두 사용하지 않으면, 초과 용량분은 낭비됨

- 다른 팀의 GPU는 사용 접근이 불가능함

☞ 신규 방식

- 예약 포함된 단일 용량 공간(프리미엄 등급)

- 표준, 기본 등급의 초과 구독

- 팀은 정해진 용량이 아닌 가상 용량 클러스터를 보유하게 됨.

☞ Global Pool(글로벌 공간) 보기

- 총 사용량(프리미엄 + 스탠다드 + 기본)

- 예약 용량 사용량(프리미엄)

※ 단일 풀 유무에 관계없이 훈련 활용

▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] - 신뢰성 시스템

- 최대 효율성을 실현하는 열쇠

- 수행하는 방법 : 투명 체크포인트를 사용

- 큰 작업의 수행하는 경우 : GPU & 서버에 오류 발생 시 '체크포인트' 지점 시점으로 롤백이 가능함

★ 투명성 체크포인트의 구조

- 모델 훈련 ↔ 훈련 시간

- 체크포인트 1 ↔ 체크포인트 2(장애 조치) / 체크포인트 2(일시정지 & 재개) / 체크포인트 4(유예) / 체크포인트 5(높은 우선순위 작업의 선점) / 체크포인트 6(스케일링)

▶ 마이크로소프트[AI(인공지능) 인프라스트럭쳐 서비스 내부] - 장치 프록시

① CPU 주소 공간 : 프레임워크, 라이브러리 도우미, 사용자 코드 / 디바이스 API(CUDA, ROCm, MAIA) → 디바이스 프록시 클라이언트 & 동적 차단

② (추가)디바이스 프록시 : 메모리 관리, 로그 / 릴레이, 시간 배분 / 디바이스 API(CUDA, ROCm, MAIA)

③ 가속기 H/W(GPU ,FPGA, ASIC) : 디바이스 메모리(RAM)

※ ① + ② = 공유 메모리 채널

▶ 마이크로소프트(애저 클라우드]

① 마이크로소프트[애저 클라우드(애저 부스트)] - 원격 스토리지

☞ 기존 방식

- VM 사용자 → SCSI로 '호스트'에 접근

- 호스트(VM 버스, Azure S/W, NDIS + 하이퍼-V & 가상화) → 원격 스토리지에 접속

☞ 신규 방식

- VM 사용자 → NVMe로 접속(애저 부스트)

- 애저 부스트 → 호스트 및 원격 스토리지에 접속

- 호스트(Azure S/W, NDIS) → 원격 스토리지에 접속

※ 애저 부스트의 재설계를 통한 장점

① IOPS 향상(650,000K) : 이전 방식보다 2배 증가

② 처리량 향상(12.5GB/s) : 이전 방식 보다 25% 증가

② 마이크로소프트[애저 클라우드(애저 부스트)] - 로컬 스토리지

☞ 기존 방식

- VM 사용자 → SCSI로 "호스트"에 접근

- 호스트(VM 버스, Azure S/W, 하이퍼-V & 가상화) → 로컬 SSD에 접속

☞ 신규 방식(애저 부스트 SSD)

- VM 사용자 → NVMe SSD 컨트롤러로 접속

- 보안 & 리소스 경계

※ 애저 부스트 SSD의 재설계를 통한 장점

① IOPS 향상(3,800,000) : 이전 방식보다 7.4배 증가

② 처리량 향상(로컬 / 임시 저장소 - 17.2GB/s) : 이전 방식 보다 4.3배 증가

③ 마이크로소프트[애저 클라우드(애저 부스트)] - 네트워킹

- 처리량 : 최대 200Gbps

- 서비스 처리율 : 9배 개선 → 해당 구성 요소를 제거함으로써 가상화 워크로드에 영향을 미치지 않으면서 서비스 제공이 가능함

- 탄력성 기반 '듀얼 TOR'

☞ 접근 방식

- VM 사용자 : 호스트 및 애저 부스트로 접속

- 애저 부스트 : SoC 반도체, TOR 1 & TOR 2

- 호스트 : VM 버스, Azure S/W, NDIS + 하이퍼-V & 가상화

④ 마이크로소프트[애저 클라우드(애저 부스트)] - VM(가상화 머신)

(공식 발표!)엔비디아 GPU 기반 '마이크로소프트 애저 기밀 컴퓨팅 VM'

- 서버(데이터센터) GPU "신규 VM" : Azure "NCCv5 VMs"(프리뷰 버전)

- 서버(데이터센터) GPU(신규) : H100 텐서 코어 GPU

① CPU 구성 요소 : TEE VM(애플리케이션, 유저 모드 라이브러리, 커널 모드 GPU 드라이버, 게스트 OS)

② GPU 구성 요소 : TEE[PCI-익스프레스 PF, 애플리케이션, 컴퓨팅 엔진(2개), DMA, 비디오, L2 캐시 메모리, HBM 메모리, GSP, FSP, Fuses]

③ 하이퍼바이저 가상화 : CPU & CPU 바이오스

※ ① ↔ ② : 메세지 암호화 적용

[마이크로소프트 - 슈퍼컴퓨터]

▶ 마이크로소프트[서버(데이터센터)] - 슈퍼컴퓨터

- 2020년 출시[AI(인공지능) 슈퍼컴퓨터(엔비디아 V100 GPU)] : 10,000개 이상 GPU 탑재(상위 5대 슈퍼컴퓨터와 비교 가능)

- 2023년 공개[AI(인공지능) 슈퍼컴퓨터(엔비디아 H100 GPU)] : 14,400개 이상 GPU 탑재['TOP 500' 순위 중 세계 3위)

- (실제 2023년도의 시스템) : 좀 더 큰 슈퍼컴퓨터!

▶ 마이크로소프트[서버(데이터센터)] - 슈퍼컴퓨터

- 마이크로소프트 애저 클라우드 VM : 'ND H100 v5 VM'

- 싱글 H100 GPU(80GB HBM3 메모리 탑재)

- 멀티 H100 GPU(NVSwitch + NV-Link) : 8개 GPU 연결

- 멀티 H100 GPU & '엔비디아 퀀텀-2 CX7 인피니밴드' : ND v5 VM(100대), H100 GPU(1,000개)

☞ 마이크로소프트 애저 VM 'ND H100 v5 VM' 사양

1. 서버(데이터센터) CPU : 인텔 4세대 제온 스케일러블 CPU

2. 서버(데이터센터) GPU : 엔비디아 H100 텐서 코어 GPU * 8개(차세대 NV스위치 및 NV링크 4.0을 통한 상호 연결)

3. 서버(데이터센터) RAM : DDR5 DIMM 4800Mhz의 16채널

4. 네트워크 및 대역폭

① GPU 대역폭(엔비디아 퀀텀-2 CX7 인피니밴드 - 400Gb/s)

② VM 대역폭(VM당 3.2TB/s의 비차단 Fat-Tree 네트워크)

③ NV스위치 및 NV링크 4.0(이전 3.6 포함)의 각 VM 내 8개 로컬 GPU 간의 'TB/s' 이중 대역폭

▶ 마이크로소프트[서버(데이터센터) GPU - 기밀 컴퓨팅]

- 전체 수명 주기동안 데이터를 보호

☞ 기존 암호화

- 미사용 데이터 암호화: Blob Storage, 데이터베이스 등에 저장될 때의 비활성 데이터

- 전송 중 데이터 : 비신뢰성의 '공용 또는 사설 네트워크' 사이에 흐르는 데이터

☞ 기밀 컴퓨팅

- 사용 중인 데이터 관리(보호 / 암호) : RAM에 있는 동안의 계산 중에 사용 중인 데이터

▶ 마이크로소프트[서버(데이터센터) GPU] - H100 GPU(벤치마크 - MLperf)

- 2023년 초 → 이전 세계 기록[OpenAI(GPT3 모델) - 1억 7,500만개 매개변수) : 10.9분 소요

- 2023년 3월(BERT 언어 모델 - 3억 5천만개 매개변수) : 5.4분 소요(모델 훈련 소요시간)

- 2023년 10월[OpenAI(GPT3 모델 훈련)] 4.0분 소요(1,344대 'ND H100 v5 VM'을 가동) - 신기록

※ 추가 신기록(퍼블릭 클라우드 - 가상화) : OpenAI(GPT3 모델 훈련) ☞ 3.92분 소요(2%의 성능 오버헤드에 불과)

▶ 마이크로소프트[서버(데이터센터) GPU - AMD Instinct(인스팅트) MI300X]

- 서버(데이터센터) GPU 신규 VM : ND MI300X V5

- 싱글 GPU(인스팅트 MI300X) : HBM3 메모리(192GB) → LLM(대형 언어 모델) 실행이 가능함

- 멀티 GPU(인스팅트 GPU 플랫폼 - 8개 MI300X GPU) : 인피니티 패브릭 3.0(로컬 GPU 간)

- 멀티 GPU(인스팅트 GPU 플랫폼 - 8개 MI300X GPU) & '엔비디아 퀀텀-2 인피니밴드' : GPU당 '400 기가비트' 전용 링크

☞ 서버(데이터센터) GPU(신규) 제원 - "AMD Instinct(인스팅트) MI300X(Together We Advance_Advancing AI 컨퍼런스)"

1. AMD Instinct(인스팅트) MI300X 서버(데이터센터) GPU

- 3rd CDNA "서버(데이터센터) GPU 마이크로아키텍처

- "생성-AI(인공지능)"의 발전에 특화된 GPU

- 트랜지스터 : 1530억개

- 제조공정 : 5nm & 6nm

- XCD(가속기 컴플렉스 다이) CU(3rd CDNA) : 최대 304개 탑재(코어 개수 : 64개 기준 19,456개)

- I/O 다이 : 최대 4개 탑재[AMD 인피니티 캐시 메모리(256MB) 탑재]

- 메모리(HBM3) : 192GB(대역폭 : 5.3TB/s)

※ AMD Instinct(인스팅트) MI300X GPU 가속기 - "생성-AI(인공지능)"의 리더쉽

2. AMD Instinct(인스팅트) GPU 플랫폼

- 서버(데이터센터) GPU : AMD Instinct(인스팅트) MI300X * 8개

- 메모리 용량의 리더쉽 : 192GB * 8개 : 최대 1.5TB

- 4세대 AMD 인피니티 패브릭

- 산업 표준 디자인(OCP 인프라스트럭쳐)

[마이크로소프트 - 커스텀 AI(인공지능)]

▶ 마이크로소프트[커스텀 AI(인공지능) - 비디오 가속기] - 팀즈 통화

- 실행 순서 : 재생 → 디코딩 → 사전 처리 → 훈련 & 추론 → 인코딩 → 사용자 단말기

- 실행 순서 부문(GPU) : '사전 처리 → 훈련 & 추론' ☞ 값이 매우 비싸고, 많은 전력을 소모함

- 효율성 기반 트랜스코딩 : 저지연 대기 시간 범위 & 극도로 낮은 전력으로 사용

- 커스텀 비디오 가속기 : AI(인공지능)의 디코딩 처리 부문 양쪽에 디코딩 & 인코딩을 모두 처리 설계

- 비디오 스트림 위에 AI(인공지능)으로 처리.

▶ 마이크로소프트(벤치마크) - 비디오 가속기

- 경쟁사 GPU(가속기) : 엔비디아 H100 GPU(왼쪽) vs 마이크로소프트 Azure-MAIA(애저 마이아 - 오른쪽)

- 벤치마크 방식 : FFMpeg 비디오 스트림 처리과정 동안의 에너지 소모량 측정(초당, 와트당 프레임)

- 결과 : [왼쪽 : 35 FPS] / [오른쪽 : 150(168) FPS] ☞ 커스텀 반도체 사용 시 최대 5배 효율성이 상승함

▶ 마이크로소프트[H/W - 커스텀 AI(인공지능) 가속기]

- Azure MAIA(애저 마이아) 커스텀 AI(인공지능) 가속기(Azure MAIA 100)

- AI(인공지능) 가속기 제조공정 : 5nm

- AI(인공지능) 가속기 탑재 트랜지스터 : 1,050억개

- 애저 클라우드의 LLM(대형 언어모델)의 교육 & 추론에 특화 및 최적화

- 서버 랙, 반도체, S/W = 통합 시스템

- '클라우드 AI(인공지능'의 워크로드 특화로 설계

※ 마이크로소프트의 Azure MAIA '통합 SoC' 종합 설계 장비 실물을 공개하였습니다!

[마이크로소프트 - S/W]

▶ 마이크로소프트[S/W - Azure MAIA(애저 마이아) S/W 스택]

☞ 구성 요소

① 모델 & 애플리케이션

② AI(인공지능) 프레임워크 : (예시)PyTorch, ONNX 런타임

③ MAIA SDK : 프로그래밍 모델(MAIA API, 트리톤), 컴파일러(트리톤, ONNX 그래프, MAIA 코어), 개발자 도구(프로파일러, 디버거, 모니터링), 라이브러리(기본 & 융합 커널, 컬렉티브), 런타임

④ MAIA AI(인공지능) 가속기

▶ 마이크로소프트[S/W 스택(비전) - H/W 등급 'AI(인공지능)' 개발의 전반적 관점]

- 모델 & 애플리케이션

- AI(인공지능) 프레임워크 : (예시)PyTorch, ONNX 런타임

- 커스텀 커널 : 다양한 'AI(가속기, GPU) H/W' 과제는 커스텀 커널을 작성[AI(인공지능)을 최적화하기 위해서 호출]

- Triton(트리톤) 프로젝트 : OpenAI와 파트너쉽 체결(H/W 추상화 및 도메인별 언어로 커널 개발 지원) → 효율적 방법으로 CUDA로 컴파일

▶ 커널 라이브러리

- 엔비디아 GPU[Compute Unified Device Architecture(CUDA)]

- AMD 인스팅트 GPU[Radeon Open Compute platform(ROCm)]

- 마이크로소프트 Azure-MAIA(애저-마이아) AI 가속기(MAIA API)

삭제 요청

목록 스크랩

위로 아래로 댓글로 가기

작성된지 4주일이 지난 글에는 새 코멘트를 달 수 없습니다.

COOV 12/29 서비스 종료

[소식] 한 달쯤 전에 종료가 되었는데, 글 쓴 적이 없어 작성합니다. COOV는 코로나19 백신 접종 인증을 위해 사용하는 애플리케이션입니다. 12월 25일 자정 접속했는데 이런 공지가 뜨더라고요. 이 때는 본인인증 시스템이 돌아가서 기...

Date2024.01.30 소식 By임시닉네임 Reply14 Views1254

Read More
현실적인 동영상을 생성하는 구글 AI 모델, Lumiere

구글 리서치가 보다 현실적이고 일관성이 있는 동영상을 생성하는 AI 모델인 Lumiere를 발표했습니다. 문장이나 이미지에서 영상을 만들 수 있으며, 참고할만한 이미지의 스타일을 흉내내서 영상을 만들 수도 있습니다. 현재 나온 영상 ...

Date2024.01.30 소식 By낄낄 Reply2 Views748

Read More
No Image

워드패드와 코타나, 윈도우 11 카나리 빌드에서 제거됨

최신 버전의 윈도우 11 카나리 빌드에서 워드패드, 피플, 코타나가 제거됐습니다. 워드패드는 메모장이나 워드를, 코타나는 코파일럿 AI라는 대체제가 있으며 피플은... 그거 쓰는 사람이 있기는 했나 모르겠네요.

Date2024.01.30 소식 By낄낄 Reply7 Views527

Read More
엑셀에서 16비트 CPU를 실행

엑셀의 스프레트시트를 활용해서 16비트 3Hz로 작동하는 CPU를 만들었습니다. 128KB 메모리, 16색 128x128 해상도로 출력도 가능합니다. 엑셀의 조건부 서식 기능을 활용해 일종의 로직 회로를 만들고, 엑셀 CPU를 위한 어셈블리어를 만...

Date2024.01.30 소식 By낄낄 Reply13 Views2934

Read More
윈도우 11 인사이더 프리뷰 빌드 26040 발표

윈도우 11 인사이더 프리뷰 빌드 26040이 나왔습니다. 캡쳐 도구에서 안드로이드 모바일 디바이스의 최근 이미지/스크린샷에 쉽게 접근할 수 있습니다. 이 기능을 사용하면 안드로이드에서 새로운 사진이나 스크린샷이 생길 경우 바로 PC...

Date2024.01.28 소식 By낄낄 Reply8 Views1866

Read More
No Image

AMD, XDNA 라이젠 AI의 리눅스 드라이버 공개

AMD가 XDNA 아키텍처의 리눅스 드라이버를 공개했습니다. 이제 리눅스에서 라이젠 AI를 쓸 수 있습니다. 여기에 해당되는 제품은 피닉스, 호크 포인트, 스트릭스 포인트 APU입니다. IOMMU SVA를 지원하는 리눅스 커널 6.7 이상이 설치되어...

Date2024.01.28 소식 By낄낄 Reply1 Views659

Read More
No Image

SK텔레콤 K-eSIM은 eSIM용 IMEI에서만 사용 가능

[참고] 관련 글 1 - [잡담] eSIM 규제: 모든 SIM의 명의자가 일치해야만 함 https://gigglehd.com/gg/soft/13781065 관련 글 2 - 월루 하면서 쓰는 중고 휴대폰 eSIM 상태 확인해야 하는 이유 https://gigglehd.com/gg/mobile/13989774 K-...

Date2024.01.28 소식 By임시닉네임 Reply28 Views1372

Read More
No Image

유럽은 무섭고 한국은 만만…애플의 앱스토어 차별

한국에서는 국회가 2021년 9월 앱마켓의 인앱결제 강제 행위를 ‘수수료 갑질’로 규정하고 세계 최초로 이를 금지하는 법을 만든 지 2년이 넘었지만 애플은 여전히 30% 수수료율의 인앱결제만을 강제하고 있다. 규제당국인 방...

Date2024.01.28 소식 By낄낄 Reply7 Views835

Read More
No Image

애플의 유럽 시장 정책 변화, 부정적인 의견들

iOS 17.4, 사이드로딩과 브라우저 엔진, 서드파티 NFC 결제 앱 관련 정책 변경 (EU에서만) https://gigglehd.com/gg/15495343 애플이 앱 사이드로딩을 비롯해 (유럽에서만) 정책을 변경했으나, 여전히 못마땅한 회사들이 많습니다. 스포티...

Date2024.01.28 소식 By낄낄 Reply0 Views531

Read More
No Image

윈도우 로그인이 오래 걸리는 문제가 있습니다.

일단 윈도우 버전은 11 23H2(빌드 22631, 인사이더 Release Preview 채널)입니다. 제목 그대로 이번 달 들어 어느 순간부터 부팅 시 윈도우 로그인이 오래 걸리고, 한술 더 떠서 작업 표시줄도 늦게 뜹니다. (제 경우는 자동 로그인이 ...

Date2024.01.27 질문 By오쿠소라아야네 Reply4 Views562

Read More
No Image

해킹된 MS 계정 사건과 초보적인 실수

네 요번에 러시아가 MS를 탈탈 털었죠. 두달동안 이어진 이 사건에서는 관리권한이 있는 오래된 계정에 접근하는 식으로 탈탈 했다고 합니다. MS는 OAuth로 탈탈 했다고 했는데, 여기엔 취약점이 안 들어갔기 때문에 관리 권한이 있는 ...

Date2024.01.27 소식 By책읽는달팽 Reply0 Views786

Read More
No Image

NSA, 민감한 정보를 구매해서 사찰 한거 인정

이미 FBI가 2023년 10월 3일 민감 정보를 구매하여 사찰을 한 것을 인정한데 이어, 지금 No Such Agency 에서 X-Mode Social Inc 라는 데이터 브로커를 통해 민감 정보를 구매하여 사찰을 한 걸 인정했습니다. 그러나, 펜타곤(그런 기관...

Date2024.01.27 소식 By책읽는달팽 Reply2 Views627

Read More
애플, 애플카드 저축 계좌 년 4.5% 이자로 인상

처음 출시했을때는 4.15% 였습니다. 그러다가 4.25%로 뛰고, 1월 초에 4.35%로 뛰었다가 지금 년 4.5%로 뛰었습니다. 이제 애플카드 계좌는 아메리칸 익스프레스 / 디스커버의 고수익 계좌 혹은 이걸 제공하는 모건 스탠리 계좌와도 ...

Date2024.01.27 소식 By책읽는달팽 Reply6 Views745

Read More
iOS 17.4, 사이드로딩과 브라우저 엔진, 서드파티 NFC 결제 앱 관련 정책 변경 (EU에서만)

애플이 유럽연합의 새로운 법률인 디지털시장법(Digital Markets Act)을 만족시키기 위해 사이드로딩, 브라우저 엔진, 컨택리스 결제 공개 등 여러 가지 정책 변경을 공개했습니다. 아래에 이 내용을 정리하였습니다. 사이드로딩 허용...

Date2024.01.26 소식 By파란화면 Reply7 Views1952

Read More
구글 docs에서 이거 어떻게 없애나요?

언제부턴지 모르겠는데 최근들어서 저렇게 한 줄 띄우고 나면 저 빈 줄에 커서가 있을 때 @ 기호가 나타납니다. 커서 갖다대 보면 '@기호를 입력하여 삽입' 이라고 해서 뭐 이런 메뉴가 펼쳐지는데요 저 @ 기호 너무 거슬리는데 어떻게...

Date2024.01.26 질문 By아무개 Reply0 Views647

Read More