☞ AMD, 'CES 2023 컨퍼런스'에서 RYZEN-AI(라이젠 AI) 엔진을 탑재한 '라이젠 7040 모바일 APU' 공개
- CPU 코어 : ZEN 4 마이크로아키텍쳐 기반(8코어 & 16 스레드, 부스트 클럭 : 최대 5.2Ghz)
- GPU 코어 : 3rd RDNA 마이크로아키텍쳐 탑재
- AI 엔진 : 라이젠 AI(4개 전용 AI 스트림 - AMD XDNA 마이크로아키텍처 탑재)
- 소모 전력 : 15W ~ 45W
- 제조공정 : 4nm 및 250억 트랜지스터 탑재
- 배터리 시간 : 30 시간 이상의 비디오 재생 기능(확장된 배터리 수명의 리더쉽)
☞ AMD RYZEN-AI(라이젠-AI) 프로세서, x86 마이크로아키텍처 기반 프로세서에 '최초 컴퓨팅의 미래에 대한 투자'를 했던 이유
- 일반 대중 & 기업 : ChatGPT, Stable Diffusion 등 '생성-AI'의 기능을 확인하면서 AI에 대한 관심이 폭발적으로 증가(지난 한 해)
- AI(인공지능) 배포의 근황 : 초기 단계(마이크로소프트, 구글 어도비 등 기업들이 진출 및 빠르게 성숙함)
- 1990년대 초(이드 소프트웨어 - 완전한 3D 게임으로의 도약이 가능) : 'DOOM(둠)' 게임(고정 소수점 연산 사용) / QUAKE(퀘이크) 게임(FPU의 폭넓은 가용성 및 시각적 품질 & 프레임 속도 향상)
- 기술 채택 & 가속기의 성능 향상에 따른 사용 사례 증가 : 'AI(인공지능)'도 비슷한 사례가 나타나서 도약을 준비함
※ AMD RYZEN 7040 모바일 APU : 일반적 처리에 최적화된 S/W 지원도 필요로 하는 얼리 어댑터의 처리 요구를 지원하도록 설계
▶ 워크스테이션(50,000 달러) → PC(5,000 달러)
① 정교한 매개 변수의 CAD 응용 프로그램의 생산 장점을 가져오고, 대중적으로 저렴하게 사용이 가능함
② CPU : 시간이 지남에 따라서 AVX, SIMD 명령어 추가로 부동 소수점 컴퓨팅 성능이 향상
③ GPU : 헐리우드 영화에서 볼 수 있는 '레이 트레이싱' 렌더링 및 이미지 생성이 가능함
▶ 컴퓨팅 업계 : 슈퍼 컴퓨팅 환경(연구실) → PC로 이동됨
① 소비자용 CPU에는 FPU(부동 소수점 장치 포함)를 탑재
② 저렴한 소비자용 GPU가 출현
▶ GPU(그래픽 처리 장치)의 도입 → 기술 성장을 보여주는 또 다른 예시
① 3D 개체를 표시하기 위해서 '음영 처리' 및 질감이 있는 삼각형을 그리는 데 즉시 적용함
② 게임 산업계 : 초기 GPU에 대한 성능 요구를 높이자, GPU 제조벤더사는 '제한성 프로그래밍 기능'을 추가(오늘날의 범용 SIMD 컴퓨팅 엔진으로 전환)
③ GPU 엔진 : 고정밀 '64비트 부동 소수점 기능'을 추가, 저정밀 '데이터 유형'에서도 작동되는 'AI(인공지능) 모델'로 전환되기 이전에 시뮬레이션 & 과학 분석 애플리케이션에 채택함
☞ AMD RYZEN-AI(라이젠-AI) : 올바른 작업을 위한 프로세서
- 라이젠 AI : 프로세서 내 여러 컴퓨팅 엔진에서 'AI(인공지능) 워크로드'를 실행하는 기능이 포함됨
- 라이젠 7040 모바일 APU : CPU, GPU, XDNA 등 각 마이크로아키텍처 기반 컴퓨팅 기능의 유연성을 제공
※ 'AI(인공지능) 워크로드'가 시간이 지남에 따라 발전해도 개발자 & 사용자에게 워크로드 실행에 있어 전례 없는 유연성을 제공
☞ AMD, 'RYZEN(라이젠) CPU' vs 'XDNA(자일링스-DNA)' 마이크로아키텍처 간의 실행 - 라이젠 7040 모바일 APU(CPU) : ZEN 4 마이크로아키텍처(AVX-512 명령어 확장 지원) → AI 워크로드를 빠르게 실행이 가능함 - CPU : 'AI(인공지능)' 모델 교육에 사용하지는 않으나, 특정 추론 워크로드에서 성능을 발휘함 - ZEN 4 마이크로아키텍처 : AI 워크로드 처리 특화의 몇 가지 고유 기능 포함
★ XDNA(AI) 엔진 마이크로아키텍처의 장점(삽입 이미지 참조) ① 이미지 왼쪽 : 개별 캐시 & 공유 캐시가 혼합된 기존 멀티 CPU + 메인 메모리에 대한 링크 - 기존 멀티 CPU : '메모리 액세스 지연 시간'을 감소, CPU 코어 간의 통신 방법(공유 인터커넥트 혹은 공유 캐시로 처리)
② 이미지 오른쪽 : AMD 'XDNA(AI)' 엔진의 블록 다이어그램 & 근본적으로 다른 메모리 계층 구조 - XDNA(AI) 엔진 : 메모리 작업을 결정적으로 예약할 때 최적으로 실행(일반적 CPU의 메모리 대기 시간은 '캐시 내 정보 발견' 혹은 반도체가 메인 메모리에서 정보를 검색해야 하는 지에 따라 달라짐)
|
☞ AMD, 'RADEON(라데온) GPU' vs 'XDNA(자일링스-DNA)' 마이크로아키텍처 간의 실행 - 커스텀 3rd RDNA GPU(라데온 700M 시리즈) : '라이젠 7040 모바일 APU'에 'AI 워크로드 실행'에 특화된 GPU를 탑재함 - GPU 컴퓨팅 엔진의 'AI 워크로드 실행' : 프로그래밍 기반 쉐이더 아키텍처, 높은 병렬 처리 & 효율적 부동 소수점 컴퓨팅 기능이 포함 - GPU의 장점 & 단점 : CPU의 제공 기능 보다 더 높은 성능을 실행(장점) & 'AI H/W'에 비해서 최적화가 덜 된 제한 사항이 존재(단점) ※ AI 코드 실행 : 미사용된 3D 렌더링에 필수적인 'H/W 블록'이 포함되어 있어서 전용 가속기보다 효율성이 떨어짐 ※ GPU의 작업 실행 : 수백개 ~ 수천개 이상의 GPU 코어(자체적인 정교한 메모리 아키텍처를 사용하고, 'GPU 워크로드'의 병렬성을 활용하여 캐시 누락을 숨김) ☞ GPU의 그래픽 렌더링에서 중요하지만 AI 프로세서의 성능을 향상시키는 것은 아님)
★ XDNA(AI) 엔진 마이크로아키텍처의 장점(삽입 이미지 참조) ① 이미지 왼쪽 : 전형적인 신경망 - L1 ~ L6의 연결 : 인간 두뇌에서 뉴런이 연결되는 방식을 시뮬레이션 - 각 신경 계층 : 새 값을 다음 뉴런에 전달하기 전에 들어오는 데이터의 작업 수행 워크로드를 상상(행렬 곱셈, 컨볼루션 연산 작업)
② 이미지 오른쪽 : AMD 'XDNA(AI)' 엔진의 적응형 데이터 흐름 아키텍처 - 라이젠 AI : 유연하고 워크로드의 기본 특성에 따라 리소스를 다르게 할당함(개념 증명으로 작동) - AMD XDNA(AI) 마이크로아키텍처 : 대용량, 전력 소모가 큰 캐시 메모리가 필요 없이 '컴퓨터 에러이' 간의 데이터를 이동하도록 설계(데이터 흐름 아키텍처) - 데이터 흐름 아키텍처 목표 : 애초에 캐시가 불필요함에 따른 누락으로 인한 예상치 못한 대기 시간을 방지
※ 이러한 유형 디자인 특징 : CPU 유형의 캐시에서 데이터를 가져오는 동안 지연 시간 저하 없는 고성능을 강조(또한 대용량 캐시와 관련된 전력 소비 증가를 방지함)
|
☞ AMD XDNA(AI) 마이크로아키텍처 기반의 'AI(인공지능)' 실행의 장점
- AMD의 장기적 전략 : 고성능 CPU & GPU(AI 엔진의 통합만큼 혁신적이지 않음)
- 현재의 AI 엔진 : CPU & GPU의 특정 처리 작업을 오프로드하는 데 사용함
- 전용 AI 엔진의 효율적 수행 작업 : 배경 흐림, 얼굴 감지, 소음 제거 등 작업(CPU & GPU 사이클을 다른 작업에 할당하는 동시에 전력 효율성을 향상시킴)
※ APU의 'AI(인공지능)' 통합 시의 장점
① PCI-익스프레스 : 해당 버스를 통한 장치 연결의 대기 시간이 감소 및 성능이 향상되는 경향이 존재
② 반도체의 'AI 엔진' 통합 : 메모리의 공유 액세스 장점을 얻을 수 있고, 최적의 데이터 이동을 통한 효율성 향상
③ 다이에 실리콘 통합 : 신규 프로세서 블록에 '고급 전력 관리 기술'을 쉽게 적용이 가능함
★ AMD '라이젠 7040' 모바일 APU(CPU와 GPU 등 각 실리콘에 통합하여 제공하고, 장점을 희생하지 않으면서 로컬 프로세서를 활용하는 애플리케이션은 '더 빠른 응답 시간'과 '일관된 성능'을 누릴 수 있는 반도체!)