AMD가 소규모 언어 모델인 AMD-135M을 공개했습니다. Llama 제품군에 속하며 개인 기업을 대상으로 배포합니다.
하나의 포워드 패스에서 여러 후보 토큰을 만드는 초안 모델을 먼저 만들고, 이를 검증하거나 수정하는 대상 모델에 전달하는 추측적 디코딩을 사용해 처리 속도가 빠릅니다.
AMD-Llama-135M은 6700억 개의 데이터 토큰에서 학습했습니다. 4개의 8웨이 인스팅트 MI250을 6일 동안 굴렸습니다.
참고/링크 | https://community.amd.com/t5/ai/amd-unve...a-p/711368 |
---|
AMD가 소규모 언어 모델인 AMD-135M을 공개했습니다. Llama 제품군에 속하며 개인 기업을 대상으로 배포합니다.
하나의 포워드 패스에서 여러 후보 토큰을 만드는 초안 모델을 먼저 만들고, 이를 검증하거나 수정하는 대상 모델에 전달하는 추측적 디코딩을 사용해 처리 속도가 빠릅니다.
AMD-Llama-135M은 6700억 개의 데이터 토큰에서 학습했습니다. 4개의 8웨이 인스팅트 MI250을 6일 동안 굴렸습니다.