Groq의 LPU 추론 엔진이 탑재된 카드입니다. GPU보다 빠르게 LLM 대규모 언어 모델을 처리하도록 설계됐습니다. 오직 LLM에만 초점을 맞췄기에 효율도 높다고 하네요.
1개의 단어당 필요한 계산 시간을 줄이고 텍스트 시퀸스를 빠르게 생성할 수 있습니다. 무엇보다 80TB/s의 대역폭으로 230MB의 SRAM만 사용하며 비싼 HBM 메모리를 필요로 하지 않는다고 합니다.
아래는 Llama 2/Mixtral LLM과 OpenAI의 Chat-GPT 실행 영상입니다. 1초도 안되는 시간에 텍스트를 생성하고, 대부분은 관련 정보를 검색하는데 사용합니다.