▶ AI 스타트 기업 'Lamini(라미니)', LLM(Large Language Models - 대형 언어 모델) 구축을 'AMD 인스팅트 MI200' 서버(데이터센터) GPU로 활용함
- 구축 시기 : 2022년
- 구축한 서버(데이터센터) GPU : AMD 인스팅트 MI200(2세대 CDNA GPU 마이크로아키텍처)
- 거래 기업의 구축 : Lamini 슈퍼 스테이션 컴퓨터로 '수 천개'의 개인 LLM을 구축함
① 인프라 구축 : AMD 인스팅트 서버(데이터센터) GPU로 내부 Kubernetes(쿠버네티스) 클러스터에 미세 조정 및 배포함
② 빠르고 쉬운 배포 : 몇 줄 코드만으로 반복 & 배포가 간단한 이유가 'AMD 인스팅트 서버(데이터센터) GPU'의 성능 덕분.
※ AMD, AI(인공지능) 부문 SVP(수석 부사장) - Vamsi Boppana
- LAMINI(라미니)와 협력하여 AMD 사용자 및 고가치 사용 사례에 맞게 모델의 개인화 & 맞춤화가 가능하게 되었음.
- AMD 인스팅트 서버(데이터센터) GPU를 사용하여 내부 Kubernetes(쿠버네티스) 클러스터에 Lamini를 배포 및 미세 조정을 사용하여 AMD에서 훈련된 모델을 생성하고 있음.(특정 개발자 작업을 위한 여러 구성 요소에 걸친 코드 기반임)
☞ Lamini LLM-슈퍼 스테이션[Feat. LAMINI(라미니) & AMD]
- LLM 슈퍼-스테이션의 탑재 서버(데이터센터) GPU : AMD 인스팅트 MI200(2세대 CDNA / MI210, MI250)
- 경쟁사 서버(데이터센터) GPU 비교(엔비디아 H100) : 52주의 리드 타임 걱정을 감소시킬 수 있음.
- LAMINI 독점 사용 혜택 : AMD 인스팅트 GPU의 프로덕션에 출시 및 커스텀 엔터프라이즈 LLM 구축이 가능함
- ChatGPT 출시 이전 비밀 테스트(AMD 인스팅트 서버(데이터센터) GPU) : 1년 내내 생산 중에 있는 100개 GPU로 테스트
- Lamini LLM 슈퍼-스테이션 주문 혜택(AMD 인스팅트 GPU 전용 플랫폼) : 'Llama 언어 모델'을 700억개 파라메터를 실행이 가능함.(가격은 AWS보다 10배 저렴함)
☞ Lamini LLM의 성과 벤치마킹
① Lamini CTO(최고기술책임자) - Greg Diamos(전임 엔비디아 'CUDA' API 초기 설계자 & MLPerf 공동 설립자)
- AMD 'R'adeon 'O'pen 'C'ompute platfor'm'(ROCm) : Lamini S/W를 사용하여 LLM용 엔비디아 CUDA S/W 패리티를 달성
- 경쟁사 서버(데이터센터) GPU 비교(엔비디아 A100 vs AMD 인스팅트 MI250)
→ [A100 GPU 클러스터보다 S/W 복잡성이 낮고, 더 큰 모델을 실행이 가능함(대용량 HBM 메모리 128GB를 사용)]
② '소형 & 대형 매트릭스(GEMM & hipMemcpy)' 벤치마크 결과 공개(rocBLAS 5.6.0) → AMD 인스팅트 MI210 서버(데이터센터) GPU
- GEMM 벤치마크 결과 : 최대 166 테라플롭스(최대 이론 테라플롭스의 89%)
- hipMemcpy 벤치마크 결과 : 최대 1.18TB의 대역폭(최고 대역폭의 70%)
※ AMD ROCm 라이브러리가 주요 기본 요소에 대한 'AMD 인스팅트 MI GPU' 가속기의 원시처리량을 효과적으로 활용함
③ '수백 개의 AMD 인스팅트 GPU 클러스터'의 '미세 조정 활성화'를 위한 특수 소프트웨어 활용(Lamini 솔루션)
- 모델 캐싱 및 동적 일괄 처리를 활용한 고성능 추론 서버가 포함됨
- LLM 패턴 중 '검색 증강 생성'으로 GPU의 HBM 메모리에 임베딩 캐시를 직접 푸시함
- 추론 로드 밸런서 & 자동 컨테이너화된 '확장 SLURM'를 사용하여 대규모 GPU 클러스터에서 LLM을 수평으로 확장이 가능함.