애플은 AI 애플리케이션을 지원하는 LLM(대규모 언어 모델)을 시험해 왔습니다. 이 LLM을 실행하려면 전용 가속 장치와 이를 실행한 대용량 시스템 메모리가 필요합니다. 애플은 메모리 용량이 한정된 장치에서 LLM을 스기 위해 시스템 메모리가 아니라 낸드 플래시 메모리에 저장하는 방안을 고려하고 있습니다.
이 플래시 메모리 기반 프레임워크는 윈도우잉과 행-열을 번들 조작하는 두 가지 기술이 있어, DRAM 크기의 2배에 달하는 모델을 실행할 수 있습니다. 또 CPU 기본 로딩에 비해 4~5배, GPU에선 20~25배의 추론 속도를 냅니다.
이런 방법으로 애플은 아이폰이나 노트북처럼 시스템 메모리가 한정된 장치에서 LLM 추론을 제공하려는 것 같습니다.